すでに私たちは検索サービスなどを利用する際に、音声で質問を入力することができるようになっている。

しかし、まだまだ話しかける側が、機械に話しているのだということを意識して、できるだけ簡潔にゆっくりと明瞭に話しかけるようにしている。

つまり、かなり機械に気を遣っている状態だ。

ところがこのたび米Microsoftが発表した成果では、人の会話を人間並みに認識できるシステムを構築することに成功したという。

人間並みと文字にしてしまうとなにやらあっさりしてしまうが、人間と同じ精度で音声を認識できるとは、私はかなり驚いている。

プロの口述筆記者を上回る制度で音声を認識するシステム

発表したのはMicrosoftの「Microsoft AI and Research Group」という部門。

同部門が開発した音声認識システムの誤認識率はわずか5.9%だという。もうすこし細かく言うと、単語誤り率（word error rate）が5.9%ということだ。

この数字は、プロの口述筆記者と同等か、わずかに上回る精度であることを示している。

つまり、雑音が少ない環境であれば、機械を意識しなくても普通に話されたことを、ほぼ正確に文字起こしできるということだ。

私たちは通常、相手が話していることを100%聞き取れているわけでは無い。かなりいい加減なのだ。おそらく誤認識率は5.9%どころではない。

私に至っては、Microsoftのシステムより制度が劣るだろう。なにしろ聞き間違いが多い。ただ、長く人間をやっているので、聞き取れなかった部分は経験で補っているわけだ。

それを考えると、Microsoftが開発した音声認識技術の精度の高さが驚くべき段階に到達したことを理解できる。

ただ、この高い認識能力は、まだまだ限られた環境下で実現できていることであり、たとえば騒々しい環境や、訛りが強い場合などは、その能力は十分に発揮できない。

ニューラルネットワークとディープラーニングの成果

音声認識技術の開発は、多くの企業や研究機関が取り組んできており、全体的にも進歩している状況だったが、その中でMicrosoftがいち早く大きな成果を発表できた状況だ。

この成果のベースには、ニューラルネットワークと機械学習の技術が大いに貢献している。

機械学習には、同社が開発した「Computational Network Toolkit（CNTK）」というオープンソースのディープラーニングシステムなどが利用された。

また、専用チップを使って処理速度を向上させている。

やがて機械と人間が口頭で会話する世界へ

Microsoftの音声認識技術が、商業ベースの製品として活用される時期はまだわからない。

まだ幾つもの課題が残されているためだ。

たとえば賑やかな場所や複数の人が話しているような環境への対応、訛りへの対応などがある。

しかし開発チームは、誰が話しているのかも認識できることや、音声認識だけでなく、さらに踏み込んで会話の内容まで理解するシステムの実現を目指したいとしている。

それが実現すれば、単にライターの文字起こし作業が自動化されるといった狭い用途では無く、いよいよ人工知能と人が、口頭で情報交換を行えるという世界が見えてくるだろう。

【参考】

※ Historic Achievement: Microsoft researchers reach human parity in conversational speech recognition – Next at Microsoft