« Nous avons atteint la parité avec l’humain », affirme Xuedong Huang, le scientifique qui dirige l’équipe de chercheurs sur la reconnaissance vocale chez Microsoft : « C’est une réalisation historique. »

Dans une note de blog mardi et une étude publiée la veille, les chercheurs présentent leur système de reconnaissance vocale : selon eux, il est en mesure de transcrire une conversation humaine avec 5,9% de taux d’erreur : les scientifiques indiquent que cette performance est identique à celle de transcripteurs professionnels sur les mêmes textes.

Microsoft va intégrer cette technologie à son assistant numérique Cortana, qui fonctionne sur Windows et sur la Xbox One, et sous forme de logiciel de reconnaissance vocale.

Capables de nous comprendre dans quelques années ?

The Verge, qui rapporte l’annonce de Microsoft, souligne cependant que pour des usages comme ceux de Cortana, « une grande partie des difficultés vient de l’enseignement à l’intelligence artificielle du sens des mots et des actions en découlant, et pas seulement d’une bonne audition ».

Pour l’heure, expliquent les chercheurs de Microsoft, le système n’est pas parfait, mais ne commet donc à présent pas plus d’erreurs qu’un humain, par exemple en confondant parfois « the » et « a » (« le » et « un/une » en anglais) mais pas plus qu’un professionnel de la transcription.

En décembre 2015, Xuedong Huang avait déclaré que d’ici quatre à cinq ans, les ordinateurs seront à même de nous comprendre parfaitement.