Un nouveau synthétiseur vocal, capable de copier la voix de n’importe qui au monde, vient de voir le jour. Ce petit bijou technologique est le fruit des équipes de recherche de la division IA de Facebook. Une machine appelée MelNet, qui ouvre le spectre d’une nouvelle ère des contenus audio.

Une technologie très pointue

Jusqu’à présent, le machine learning avait du mal à faire des prouesses sur le terrain de la synthèse vocale. Reproduire des modèles de parole réels est quelque chose de très compliqué, nécessitant une gigantesque base de données audio. Sean Vasquez et Mike Lewis, chercheurs chez Facebook AI, ont tenté une approche différente de celles testées précédemment.

Au lieu de se servir de formes d’ondes audio, les deux chercheurs ont utilisé des spectrogrammes pour former leur réseau de neurones profonds. L’avantage des spectrogrammes, c’est qu’ils enregistrent tout le spectre des fréquences audio et leur évolution dans le temps. L’information audio est bien plus dense et permet donc de se rapprocher d’un rythme et d’une intonation réels.

Ils précisent que : « ce système d’apprentissage permet à nos modèles de spectrogrammes de générer des échantillons de parole et de musique inconditionnels avec une constance de plusieurs secondes ». Les résultats sont impressionnants, MelNet est capable de reproduire la voix de n’importe qui. Différents tests avec la voix de Bill Gates ont été réalisés :

De nouvelles perspectives

Récemment, une équipe de recherche de l’Université du Zhejiang et le Fuxi AI Lab de NetEase, mettait au point un système très intéressant, qui permet de générer une animation faciale à partir d’une piste audio. Aujourd’hui avec l’invention de Facebook AI, la combinaison de ces deux intelligences artificielles pourrait nous emmener beaucoup plus loin.

Nous pourrions imaginer qu’une piste audio avec la voix de Bill Gates soit animée par son visage en mouvement. Ça, c’est pour le côté amusant. En revanche, avec une telle intelligence artificielle, de sombres scénarios sont aussi envisageables. Imaginez que des pirates soient en mesure de reproduire la voix de Donald Trump et de passer un appel téléphonique à Xi Jinping pour tenter d’envenimer un peu plus les relations entre les deux pays.