米マイクロソフトの研究部門Microsoft Artificial Intelligence and Researchの研究者およびエンジニアのチームは、2016年10月17日（米国時間）に公開した論文「Achieving Human Parity in Conversational Speech Recognition」（人間並みの会話音声認識の実現）で、音声の文字起こしのプロ以上にエラーの少ない音声認識システムを開発したと告知した。

Microsoft Artificial Intelligence and ResearchのSpeech & Dialog研究グループの研究者。後列左からウェイン・ジョン氏、ジェフリー・ツバイク氏、ズードン・ファン氏、ドン・ユー氏、フランク・シード氏、マイク・セルツァー氏、ジャシャ・ドロッポ氏、アンドレアス・ストルク氏

同論文によると、この音声認識システムの単語エラー率（Word Error Rate：WER）が、2016年9月時点の6.3％から、5.9％に改善。5.9％というWERは、同チームがプロフェッショナルに依頼した会話の文字起こしのWERとほぼ同じであり、業界標準のSwitchboard音声認識タスクでも最も低い数値を記録したという。

この成果は、「コンピュータが、初めて会話内の単語を人間並みに認識できたことを意味する」と同チームは述べ、音声認識率の劇的な向上が見込めることから、マイクロソフトのコンシューマー向け／ビジネス向け双方の製品に幅広い波及効果を及ぼすと期待を込める。例えば、「Xbox」のようなゲームデバイス、瞬時に音声テキスト変換など行う翻訳／アクセシビリティツール、「Cortana」などのパーソナルデジタルアシスタントなどでの活用だ。

「劇的に性能を高めた音声認識機能により、Cortanaはより強力になり、真のインテリジェントなアシスタントが登場する」（マイクロソフトのエグゼクティブバイスプレジデントでMicrosoft Artificial Intelligence and Researchを統括するハリー・シャム氏）

同チームは今回の取り組みにおいて、音声認識システムのあらゆる側面で最新のニューラルネットワーク技術を体系的に活用。その1つであるディープニューラルネットワークで大量のデータを使ってシステムを訓練するために、自社で開発したディープラーニングツールキット「Computational Network Toolkit（CNTK）」を用い、GPUコンピューティングによりディープラーニングアルゴリズムを高速に処理した。CNTKはGitHubで無償公開されている。

同チームは今後、周囲の騒音などが大きい場合の対処、複数人で会話しているときの話者の識別、年齢やアクセントなどによる多様な発声の違いへの対応などの研究も進め、実環境での音声認識性能をより高めていく。そして将来的には、音声信号を聞き取って自動文字起こしを行う「認識」にとどまらず、あらゆる音声の内容を正確に「理解」できるまでを目指すという。

「次のフロンティアは、認識から理解につなげることだ」（Microsoft Artificial Intelligence and ResearchのSpeech & Dialog研究グループを率いるジェフリー・ツバイク氏）