Microsoftは、同社翻訳エンジン「Microsoft Translator」を利用した全アプリ/サービスで、サポート言語に日本語を追加したと発表した。

同社では、数年前から日本語の音声認識および機械翻訳に投資を行なっており、今回、日本語のMicrosoft Translatorを利用した翻訳も全て深層学習(ディープラーニング)によるエンジンに切り替えられたことで、音声のリアルタイム翻訳機能が利用可能となった。

Microsoft Translatorでは、すでに英語、フランス語、ドイツ語、イタリア語、中国語(マンダリン)、アラビア語、ポルトガル語、スペイン語、ロシア語の9言語の音声入力をサポートしており、日本語が追加されたことで、それら言語と日本語のリアルタイム音声翻訳を実現する。

4月7日時点で提供されるのは、「Microsoft Translatorアプリ」のライブ機能、「Skype for Windows」および「Skype Preview for Windows 10」のSkype翻訳機能、Azureの「Cognitive Services APIファミリー」として提供される「Microsoft Translator API」の利用、「Microsoft Translator PowerPointアドイン」の4つ。

Microsoft TranslatorアプリはWindows、Android、iOS向けに提供されているアプリで、ライブ機能はQRコードまたは招待コードから同じセッションに入れば、対面型のリアルタイム翻訳が行なえるというもの。ブラウザからも利用できる。

Skype翻訳(Skype Translator)は、ほかのSkypeユーザーや電話(SkypeOutの購入が必要)と、別の言語間でリアルタイム翻訳した音声通話を可能とするもの。

Microsoft Translator APIは開発者向けに提供されるAPIで、アプリやサービスに翻訳機能を統合することができる。

Microsoft Translator PowerPointアドインは、PowerPointからライブ翻訳機能を直接使用することで、リアルタイムにプレゼンテーションへ字幕を付けることができるというもの。現在はプレビュー版が提供されている。

そのほか、Outlookアドインによりメールの翻訳を行なったり、EdgeアドインによりWebサイトの翻訳を行なうことも可能となっている。

同社では、機械学習システムは使用されるにつれて進化していくため、それとともに生活やビジネスでの有用性も増していくとしている。

今回の発表に先立ち、日本マイクロソフト株式会社は事前ブリーフィングを開催。日本マイクロソフト株式会社 執行役員 最高技術責任者の榊原彰氏と、米Microsoft AI & Researchグループ 機械翻訳プロダクト 戦略担当ディレクターのオリヴィエ・フォンタナ氏が登壇し、サービスおよび技術の解説を行なった。

榊原氏は、現状、機械翻訳は人間の通訳を置き換えられるほどの性能はなく、またそれを目指しているものでもないと前置きし、一次訳の生成など、人間による翻訳の生産性を高めるものであるとした。

しかし、通訳の支援だけではなく、コンテンツが頻繁に変更されたり、作成されるペースが速いなど、人間による翻訳に多くのコストがかかってしまう場合や、翻訳速度が最優先される場合などにおいては、エンドユーザーの言語で機械翻訳したコンテンツを提供するシーンがあると述べた。

例えば、Webページなどがそういったシーンにあたる。今公開されているWebページの内、95%は単一言語でのみ提供されており、社内用Webページでは97%が単一言語のみだという。

ビジネスの観点からも、世界で最も利用されている英語でも世界的なアプリケーションやサービスに占める割合(GDP)は32%に過ぎないが、英/中/日/仏/独の上位5言語なら64%、主要10言語なら81%となり、「潜在的チャンスを逸していることになる」とした。

同氏は、「そういったものに対応するため、Visual StudioやSkype、Microsoft Office製品群など、Microsoft TranslatorをMicrosoftのあらゆる製品に搭載していく」と述べ、深層学習翻訳エンジンにすべて切り替えていき、Cognitive Serviceの一環としてAPIも提供するとした。

次いで登壇したフォンタナ氏は、深層学習による翻訳エンジンについての解説を行なった。

従来の機械翻訳は、統計的手法による機械翻訳(SMT)で、人によって翻訳された膨大なデータを活用して、言語ごとの単語の順番などのマッチングを図ることで翻訳を行なってきた。しかし、長文全体の関係を処理することが困難で、数単語の文章を継ぎ接ぎして翻訳結果を生成するために人間的な結果を得ることが難しく、翻訳品質の向上も限界が見えていたという。

一方、ニューラルネットワークを用いた翻訳は、全体の文脈を見て単語のイメージを作ると説明。例えば犬という単語であれば、「子犬の世話をしている」という文脈なら、雌である可能性が高いというイメージを作るという。そのように各単語のイメージを文脈に基づいて作成したあと、モデルを文脈内で翻訳していくことで、より流暢な翻訳を行なえるという。

同氏は、今回のリアルタイム音声翻訳を実現したTranslator Speechは、音声認識と文章翻訳を行なう2つのAIが連携して動作していると説明。

まず音声認識によって文章化を行なうが、その際にただ文章化するだけでなく、「うーん、あー、えーと」などの会話の間投詞、吃音や繰り返しなどの削除、言いよどみや句読点がないことによる誤認識を排除し、文章を正規化する「TrueText」テクノロジーにより、翻訳精度を向上させているという。翻訳後は、文章読み上げによって音声化され、リアルタイムの音声翻訳となる。

Microsoft Translatorのライブ機能は、アプリまたはWebページから利用できるもので、インフォメーションデスクやタクシーなどの2者間コミュニケーションのほか、会議などのグループ対話、講義やツアーガイドなどのプレゼン利用まで想定したもの。完全なエンドユーザーソリューションとして提供され、簡単に利用できるとした。

現状では、対応入力言語は音声で10言語、文章なら60言語で、出力言語は音声18言語、文章が60言語であるという。

米国では、聴覚障碍の学生が、ライブ機能を用いて一般クラスに参加できたという事例を紹介したほか、同氏の個人的な体験としても、聴覚障碍の同僚と休憩室でスマートフォンを介して会話を楽しんでいるという。