歌声合成技術の開発者やボカロファンが集まる「第01回世界ボーカロイド大会」が、2月20〜21日に「ヤマハリゾートつま恋」（静岡県掛川市）で開催された。「VOCALOID」「Sinsy」「UTAU」の開発者が集い、お互いの技術をアピールした「三つ巴プレゼンマッチ」の様子をレポートする。

登壇したのは、「VOCALOID」陣営からAHSの尾形友秀社長、「Sinsy」開発に関わった CHI-TA／arctan_Pさん、そして「UTAU」音源サポーターのデルタ＠きみがためさんの3人だ。

尾形社長は「声」を探す重要性を強調。VOCALOIDは収録した声を音素に分解・加工して歌声を合成するため、加工に耐えうる声の持ち主を探し当てる必要があるという。長時間の収録中に安定した声を維持できることも重要で、声優がVOCALOIDに適しているのはこのような事情があるようだ。

AHS 尾形友秀社長

各音素をつなぎあわせた上で音程を調整するため、元の声が低いと加工が歪みやすい。ハスキーボイスの音源を作るのは難易度が高いという。

歌い方の特徴を抽出する「Sinsy」

対して、名古屋工業大学国際音声技術研究所が開発した「Sinsy」は、音ではなく歌声そのものを収録して歌い方の特徴自体を抽出するのが特徴だ。

Sinsyの仕組み

「隠れマルコフモデル」と呼ばれる手法で、楽譜と歌声の対応関係をモデル化し、新たに譜面や歌詞を与えられると、過去の学習を踏まえて歌声提供者の声質や歌い方に近い音源を生成する。“調教”の必要なく自然な歌声を作ることができるのが魅力だ。

歌い方の特徴を抽出するため、制作現場では数曲を同じような調子で歌ってもらう。歌手の場合は、何度も繰り返すうちに整えてしまう傾向があり、そこをあえて抑えてもらうのが音源のクオリティを上げるポイントだという。この方法でも声優を起用するアドバンテージは大きい。週をまたいでも視聴者に違和感がないよう、同じ調子で声を吹き込むことに慣れているからだ。

SinsyはWeb上で動作し、現在使えるのは4名の5つの音源。ITmedia ニュース所属の松尾Pの声が元になっているものも含まれている。

6000以上のライブラリ「UTAU」

「UTAU」は飴屋／菖蒲（あめや／あやめ）さんによって2008年に公開されたソフトウェア。ユーザーが音源を自由に制作できるため、現在までに世界で6000以上の音声ライブラリが公開されており、そのほとんどが無料だ。1番の魅力は音源作りも曲作りも楽しめる圧倒的な自由度だという。

連続音でのUTAU音源の作り方のイメージ

UTAUの音源収録には「単独音」「連続音」の2つの手法がある。単独音の場合は収録は短時間で済むものの、歌声を合成すると音のつなぎが不自然になってしまう。連続音は音源の組み合わせが多くなるため、収録に時間はかかるが、よりナチュラルな歌声を生成できるという。

この日は事前に尾形社長の声が収録されており、それを用いての歌声合成が行われた。会場からの評判も上々で今後UTAU音源の1つとして追加される予定だ。