マイクロソフトが主催する学生向けITコンテスト「Imagine Cup 2017」。同社の創業者であるビル・ゲイツ氏の発案で2003年から始まり、国際競争力を持つIT人材育成を目指して毎年開催してきた。今回200組以上の申し込みの中から選抜された9チームが、3月22日に開催された日本予選大会に挑んだ。



優秀賞を勝ち取ったチーム「TITAMAS」 優秀賞を勝ち取ったチーム「TITAMAS」

優秀賞には、TITAMAS（東京工業大学）の視覚障がい者向けスマート白杖デバイス「Walky」と、NeuroVoice（東京大学大学院）の入力音声を任意の人の声に変換する「NeuroVoice」が選ばれた。TITAMASは500 Startups Japan賞、リクルートホールディングス賞も受け、NeuroVoiceはLINE賞および参加者の投票から選ばれるオーディエンス賞も受賞した。

TITAMASは、メンバーの従兄弟が生まれながらの視覚障がい者であることから生まれたデバイスである。従兄弟に視覚障がい者特有の問題を尋ねたところ、一般的な白杖では足下の障害物は感知できるものの、高い位置までそびえ立つ大型トラックなどの存在を、白杖だけで認識することはできないという。



他団体の開発したスマート白杖の一例。Kinectを利用しているが、身に付けるデバイスが多く実用性を欠くものだった 他団体の開発したスマート白杖の一例。Kinectを利用しているが、身に付けるデバイスが多く実用性を欠くものだった

当初は超音波センサによる障害物までの距離を測定するデジタル白杖の研究・開発を目指したが、そのままでは地面などにも反応し、障害物の概要を判別できないため実用性に達しなかった。そこで、画像認識を用いて障害物の内容と位置などをリアルタイムに検出し、取得した情報を指向性スピーカーで利用者だけに通知する、現在のWalkyに至ったという。



Walkyの概要。カメラや加速度センサ、超音波センサ、指向性スピーカなどを備えている Walkyの概要。カメラや加速度センサ、超音波センサ、指向性スピーカなどを備えている

また、外出先での利用を踏まえてサーバとのやり取りはSORACOM Air経由で行われる。今後は視覚障がい者からのフィードバックを受けつつ改善を加え、完成度を高めたいとしている。受賞の感想を聞く、「世界を相手にチャレンジできるチャンスに喜びを感じる」と述べ、今回のプロジェクトで浮かんだアイデアの実現と並行して、Walkyの実用化を目指したいと語った。

声を他人の声に“変換”する「NeuroVoice」



優秀賞を勝ち取ったチーム「NeuroVoice」 優秀賞を勝ち取ったチーム「NeuroVoice」

もう1組の受賞チームであるNeuroVoiceは、音声の生成モデルにディープラーニング（深層学習）を用いることで、自然かつ流暢な音声変換を実現するシステムである。ポイントは音声の最小単位である“音素”を用いて学習することで、変換先の対象人物が発したことのない発言も再現可能なこと。まるでSFの世界だが、同チームはプレゼンテーションの中で、ドナルド・トランプ米国大統領の発言を、大統領候補だったヒラリー・クリントン氏の声として実際に喋る様子を披露。会場もそのユニークさに沸いていた。



音声データを用いて別の人物の発言に変声させる「NeuroVoice」 音声データを用いて別の人物の発言に変声させる「NeuroVoice」

技術的には多層構造のニューラルネットワークを用いた機械学習である深層学習から、Speech RecognitionとConversionを使用。前者で音素の分布を再調整し、後者はMFCC（メル周波数ケプストラム係数）として知られる手法を用いて音の特性を変換している。このジャンルではRNN（Recurrent Neural Network）が持つ中間層の各ノードをブロック要素で置換するLSTM（Long Short-Term Memory）も有名だが、その手法よりもNeuroVoiceは10倍以上のスピードで学習するという。

また、競合するソリューションとしてAdobe Systemsの「VoCo」や、Google（DeepMind）の「WaveNet」が念頭に浮かぶが、彼らは「WaveNetもVoCoと同じくテキストから音声を生成するため、アプローチが異なる」と述べた。



NeuroVoiceでは深層学習による分析を行いながら、音声内容を変換している NeuroVoiceでは深層学習による分析を行いながら、音声内容を変換している

今後の可能性については他のアプリへの応用などを提案。対象となる俳優の音声データを用意すれば、映画などの吹き替えも俳優の声で再生可能になる。また、発話障がい者やすでに亡くなった方の音声データがあれば、同じように任意の発言を再生できるという。

音声サービス市場の拡大も追い風となり、7億人以上の利用者をターゲットにすればビジネスソリューション化も可能と自信を見せた。プレゼンテーション内で語った目標であるリアルタイム変換は、世界大会までの数カ月以内に実現させると力強く語った。