日本語でもできるかな？

もし声に出して会話ができない、音声のない世界に身を置くことになってしまったとしたら、どうやってコミュニケーションを取りますか？ 筆談をしたり、手話を覚えたり、いくつか選択肢はあるものの、もっとも手っ取り早いのは、話す人の唇を見て、なにが語られているのかを読み取る｢読唇術｣かもしれませんよね。

とはいえ、音声をシャットアウトし、口の動きだけで会話を読み取るなんて、簡単なことではありません。ゆっくりと話してもらっても、やはりハードルが高いのは否めないでしょう。言語によって違いはあるでしょうけど、読唇術のプロであっても、読み取り精度は52％程度とされています。

しかしながら、このほど英オックスフォード大学の研究チームは、読唇術専用のソフトウェア｢LipNet｣によって、なんと93.4％の読み取り精度という、これまでにないほどの高精度を達成したと発表しました。耳の聞こえない人のコミュニケーションレベルを大幅に向上させられるほか、音声認識技術の改良にも役立てられていくそうですね…。

LipNetのカギを握るのは、Googleの｢DeepMind｣をフル活用した機械学習システムです。これまでもコンピュータの力を借りて、読唇術を進める試みがあったものの、いずれも単語レベルで読み取るアプローチでした。しかしながら、LipNetの研究にあたって、読唇術のプロは長い言葉ほど正確に読み取れることに着目。それならばと、まずはいっそのこと話されている文章全体を解析することに努め、その後で1語ずつを正確に読み取っていく手法が採用されたんだとか。

さまざまな話者の複数会話をデータベースとして蓄積していくことで、ますますLipNetの精度は高まることでしょう。いまやスマートフォンが普及して、ビデオ通話だって一般的なサービスとなりました。カメラに向かって話すと、たとえ通話先の相手が難聴者でも、読唇術だけで、なにが語られたのかをテキスト化して会話ができれば、ますますコミュニケーションの幅は広がっていきそうですよね～。

コミュニケーションとテクノロジー関連記事：

・人類の新たな脳波リズムが確認されたのは、アレをしているとき

・Googleの新メッセージアプリで、人は感情を失う



image by YouTube

source:Cornell University Library 1, 2 via Laughing Squid, YouTube

Andrew Liszewski - Gizmodo US［原文］

（湯木進悟）