積み重ねた苦労のおかげです。

Siri、Alexa、Googleアシスタント、LINE Clovaなど、今や数多くの音声入力装置が登場しています。時間や天気を聞く、買い物をするといったことが、ただ｢声｣だけでできるなんて、あらためて考えたらSFの世界ですよね。

それにしてもこの音声認識技術って、一体どのような仕組みでどう実現したものなのでしょうか。IBMのWebメディアMugendai（無限大）にて、その歴史が紹介されていました。

記事によると、同社が音声認識の研究を始めたのは、なんと1960年代から。代表的な成果の一つとして｢電話会話音声認識｣があり、これは音質の低い電話回線の音声を対象に、人間同士の自然な会話を認識するためのシステムなのだそう。

具体的には、入力された音声信号がどの音に対応するかをモデル化した｢音響モデル｣と、自然な単語の並びをモデル化した｢言語モデル｣の2つから成り立っているそうで、近年ではこれにディープラーニングが導入され、その精度は格段に上昇。何と、人間と同じ程度の音声認識が可能になったそうですよ。

関係機関の予測によれば、音声を使ったショッピングは現在の20億ドル（約2200億円）から、2022年には400億ドル（約4兆4000億円）以上に成長すると見込まれているそうで、もしかしたらその頃にはキーボードやスマートフォンも使っていないのかもしれませんね。

音声認識技術の歴史と現状についてご興味のある方は、Mugendai（無限大）よりぜひ続きをお楽しみください。