2019年06月12日 14時00分 ソフトウェア

「声」から話者の顔画像を生成するAIが開発される



話している人の「声」だけでも、性別・年齢や、ときには出身地などの情報が判別できます。「Speech2Face」は人の声と話し方から話者の顔を予想して画像を生成するというAIで、音声から人の身体的特徴を導き出すために開発されています。



Speech2Face: Learning the Face Behind a Voice

https://speech2face.github.io/



[1905.09773] Speech2Face: Learning the Face Behind a Voice

(PDF)https://arxiv.org/pdf/1905.09773.pdf



AI Listened to People's Voices. Then It Generated Their Faces.

https://www.livescience.com/65689-ai-human-voice-face.html



Speech2FaceはYouTubeに投稿されたムービーから話者の「年齢」「性別」「人種」「話し方」と「声」の関係性についての機械学習を行って、声から話者の顔の画像を予想して生成するというものです。学習に使用されたムービーは何百万にものぼり、Speech2Faceは10万人以上の声と顔を学習したそうです。



Speech2Faceが実際に声から生成した「顔の画像」がこれ。左側の列の写真はオリジナルの顔、真ん中の列は顔を正面に向けメガネなどを外すようにオリジナルの画像を加工したもの、右側の列がSpeech2Faceが声から生成した顔の写真です。実際の顔とSpeech2Faceによる顔では細かい造形は異なりますが、人種・性別・年齢などは合致しているように見えます。なお、Speech2Faceが生み出す顔画像はすべて無表情になります。





研究によると、Speech2Faceによって生み出された顔画像は年齢・人種・性別を大半のケースで正解させ、入力する音声が長くなるほど精度が上昇するものの、「完璧」とは言いがたい精度とのこと。同じ人でも、「中国語を話している音声」と「英語を話している音声」それぞれから顔画像を生成させると、英語を話している場合には白人の顔画像(画像左)を、中国語を話している場合にはアジア人の顔画像(画像右)を生成してしまうケースもみられています。下の画像をクリックしたリンク先では、入力した音声を実際に聞くことも可能です。





また、低音の声は男性、高音の声は女性の顔画像を生成するという傾向もあるようです。

