もはや音の｢不気味の谷現象｣の域に...？

を利用した彼らチームは、音質を正確に予測して人工的なサウンドを創り出す、新たな アルゴリズム を構築。たとえば無音動画のなかで、ドラムスティックでものが叩かれているシーンにおいてどんな音が発生し得るか予測したシステムが映像のシーンに相応しい効果音を生成してくれるのです。

莫大なローデータのなかから完全自動で重要なパターンを検出するために、博士課程のAndrew Owensさん率いるチームが適用したのは、ニューラルネットワークを用いた人工知能技術として知られる｢ディープラーニング｣。

数カ月のあいだで1,000本の動画に、ドラムスティックでものを、叩く、擦る、突く、といった動作の際に発生する推定4万6000種の効果音を収録。そのなかから音質や大きさ、速さがディープラーニングのアルゴリズムによって分析されました。（ちなみにドラムスティックが選ばれたのは、安定した音を鳴らすため。）

｢システムに効果音を生成させるにあたって、動画の各フレームでアルゴリズムが音質を検知し、データベースから最も近しいサウンドをマッチさせる。音の断片しかないときは、オーディオを繋ぎ合わせて新しいサウンドも創れるんだ｣と、OwensさんはMIT Newsでコメント。

研究でアルゴリズムは、金属、木、岩、泥や草の葉などをドラムスティックで叩いたときのサウンドを驚くほど正確に表現しました。研究者たちは人工的な効果音がどれだけリアルに近いか調べるために、被験者たちに自然音と人工音の2種類の動画を見せて、どちらが本物か答えてもらうというシンプルな実験を行ないました。

すると。本物の音より人工的な効果音のほうを選んだ被験者が2倍もいたという結果に。特に、草の葉と泥のサウンドは、おそらく比較的鈍い音がするため、リアルな音と区別するのが難しかったようです。

さてこのシステムは将来、テレビ番組や映画などの映像の世界だけでなく、ロボットが周囲の環境を評価したり触れたりする能力を改良させるのに役立つことが期待されています。

｢歩道を見たロボットが、セメントは固くて草花が柔らかいことを直感的に検知して、もし踏んだらどうなるか気付くことができるんだ。どんな音が鳴るか予測することは、ロボットが物理的になにかと触れ合うことで、どんなことが起きるかも予測できる大きな一歩だ｣と、Owensさんはコメントを残しています。

image by CSAIL

source: CSAIL, MIT News, arXiv

George Dvorsky - Gizmodo US ［原文］

（Rina Fukazu）