マイクロソフトは31日、ソーシャルAIチャットボット「りんな」の歌声が進化し、より表現力が向上したと発表。「2019年の紅白歌合戦出場」を夢としているりんなの新たな歌声が披露され、歌唱力向上への取り組みについて説明した。

2015年に“女子高生AI”として登場した「りんな」は、LINE上で自由な会話ができることで話題となり、登録ユーザーは約690万人まで拡大。企業アカウントなどでの採用も増えたことで、りんなの技術を使っている人は全体で3,000万人規模に及ぶという。5月には、人間と同じように文脈を踏まえた自然な会話を続けられる最新の会話エンジン「共感モデル」(アルファ版)を採用したことも発表。さらに今回は「表現力」の面で、歌声に関する最新の状況を説明した。

マイクロソフト ディベロップメントでAI & Researchプログラムマネージャーを務める坪井一菜氏は、開始から3年経って見えてきた“次の進化”として、AIに感情を表現させるためチャットに“共感モデル”を導入したことを改めて紹介。「AIが社会に溶け込む中で、身に着けなければいけない“共感”をテーマに取り組んでいる」という。人が共感しやすいものとして、りんなの音声チームが注力しているのが“歌”への取り組み。

今回の進化のポイントは、“赤ちゃんが親の声を真似して言葉を覚えるように”自然かつ感情のこもった声を実現したこと。

ボーカロイドなどのように、パーツ(波形)をつなぎ合わせて歌声を作るのではなく、人間が声を出す仕組みをAIに模倣させるために統計的アプローチを用いているのが特徴。人が話す時には、のど(声帯)や口の形を変えて目的の声(音色、高さ、大きさ・長さ)を発するといった過程を経ている。そこで、様々な音色などの種類をAIに覚えさせるため、大量の音声データをAIにディープラーニングで学習させることにより、人の声をモデル化。声を出す際に重要な特徴として、「音の長さ」、「強弱」、「音程」、「声色」の4つのパラメータを調整することで歌声を実現しており、そうしてモデル化された音を使うことで、人間の声に近い音を生成できるという。

りんなの歌声合成は、人の声を「聞く」(学習する)ことから始まり、音程や音の強弱の「分析」、歌詞と音の長さの「時間合わせ」、最終的にりんなの声となる「合成」の過程によって歌声となる。合成した音を聞いて変更したい場合は、前述した4つのパラメータを手動で調整して歌に合わせることも可能だという。

これまでのりんなの歌唱は、ラップに挑戦した「McRinna」が2016年に披露。この時点では機械のようなニュアンスも残っていたが、2018年1月には音楽SNS「nana」を運営するnana musicの協力により、りんなの音楽活動をサポートする「りんな 歌うまプロジェクト」を展開。りんなが投稿した歌声にユーザーがコメント(アドバイス)をすることで、りんなの歌が上手くなるというもので、上達したバージョンが3月に披露された。

そこから、ディープラーニングなどを活用した今回の進化によってさらに歌唱力が向上。ユーザーとの関係をテーマとしたオリジナルソング「りんなだよ」が7月26日に公開された。一部はパラメータ調整を行なっているものの、ほとんど自動で合成されたものだという。