WaveNetによる音声の波形モデル（ディープマインドのウェブサイトから）

まるで本物の人間を相手にしているように、コンピューターと自由に会話するーーこれはコンピューターエンジニアにとって永年の夢かもしれない。人工知能（AI）プログラムがプロの囲碁棋士を打ち破るなど、AI分野で華々しい成果をあげている英グーグル・ディープマインドが、今度はサンプリングした人間の生の声をもとに、ニューラルネットワークの深層学習技術を使って、自然で人間の声に近いリアルな合成音声を作り出すことに成功した。開発されたシステムは「ウェーブネット（WaveNet）」。英語と標準中国語（マンダリン）で、本物の人間にはかなわないものの、現在グーグルが持つ最高レベルのテキスト・トゥー・スピーチ（TTS）システムよりも自然な発話ができるとしている。しかも、表情を盛り込んだりアクセントも変えられる。音声信号全般を扱えることから、音楽にも応用でき、クラシック音楽での学習をもとに、即興で作曲した新しいピアノ曲まで披露してみせた。深層学習により、Google Voice Searchのように人間が普段しゃべっている会話を聴き取る音声認識技術はここ数年でかなり進化している。一方で、音声合成はいまだに、「コンカテネイティブTTS（concatenative TTS）」という技術に依存しているという。同一人物の音声の断片が保存された巨大なデータベース（DB）をもとに、発言する内容に応じて断片をつなぎ合わせ、完全な発話を組み上げる仕組みだ。ただ、この場合、新しいDBを作らない限り、違う人物の声に変えたり、発言を部分的に強調したり、といった芸当ができない弱点がある。そこで、DBのモデルを変数化し、さまざまな音声データを生成しやすくした「パラメトリックTTS」という自由度の高い方式も考案されてはいるが、少なくとも英語などではコンカテネイティブTTSに比べて自然さに欠けるという。それに対し、WaveNetは人間の声をはじめ元の音声信号をサンプルごとに直接モデリングする。ニューラルネットワークの深層学習により、自ら作り出した出力を入力に戻しながらトレーニングを重ね、サンプル周波数16kHzという高い品質で自然に聞こえる音声を合成していくという。男性、女性を含め、声の種類も変えられ、さらに、テキストがなく言語ですらないものの、息継ぎや唇の動きを再現し、まるでどこか知らない土地の言葉のように聞こえる、意味不明の不気味な合成音声まで作成できた。どのような音声信号でも扱えることから、音楽でも実験を試みた。ただし、音楽の譜面を読み込ませるのではなく、クラシック音楽のピアノ曲のデータセットでトレーニングしたところ、即興でオリジナルのピアノ曲を勝手に作曲・演奏するようになったという。WaveNetはTTSはじめ、音楽、音声モデリング全般のレベルを高度化する可能性を秘めているが、処理にはかなりのコンピューターパワーが必要。そのため、すぐに実社会に応用されるわけではなく、商用化にはもうしばらく時間がかかりそうだ。

ニュースイッチオリジナル