口の動きだけで会話の内容を読み取る読唇術の精度は、人間の場合、プロでも平均52%程度だが、英オックスフォード大やGoogle DeepMindの研究者らによる共同チームが開発した機械学習を利用した「LipNet」がそれを遙かに上回る93.4%を達成した。

これまでも機械による読唇の試みはあったが、視覚情報の設計/学習と予測という2段階に分離したアプローチで、単語レベルでしか読み取りができなかった。しかし、人間の場合、長い単語の方が読唇しやすいという事実から、同チームは、不明瞭なコミュニケーションチャネルにおける一時的コンテキストを捉えることが重要であるという発想に至った。

この発想に基いて開発された「LipNet」は、時空回旋、LSTM周期ネットワーク、コネクショニスト空間分類損失を組み合わせており、世界で初めて単語レベルではなく文章レベルの読唇を実現した。LipNetは、話者に依存せず93.4%の精度で読唇を行なえるという。

この技術は、会話認識に加え、難聴の人に向けたサービスへの応用も検討されている。