Le Artificial Intelligence & Research Group de Microsoft a annoncé avoir réduit considérablement son taux d’erreur en matière de reconnaissance vocale. Il s’agit d’une étape très importante pour le domaine.

Une réduction du taux d’erreur à 5,1%

La recherche en matière de reconnaissance vocale a franchi un nouveau cap avec la réduction du taux d’erreur annoncée par Microsoft. L’an dernier, la firme dirigée par Satya Nadella avait annoncé un taux d’erreur de 5,9%. Puis IBM, en début d’année, était parvenu à un taux d’erreur record de 5,5%.

La technologie développée par Microsoft se base sur Cortana, Microsoft Cognitive Services et Presentation Translator. Les améliorations effectuées sur les modèles acoustiques et linguistiques, basées sur les réseaux neuronaux, ont permis de réduire le taux d’erreur de 5,9% à 5,1%.

Une étude réalisée sur 2400 conversations téléphoniques

Afin de pouvoir déterminer ce taux d’erreur, l’équipe de Microsoft a travaillé sur environ 2400 conversations téléphoniques. Utilisées depuis les années 90, elles permettent aux chercheurs en reconnaissance vocale de tester leurs systèmes.

L’objectif de ce nouveau test était d’atteindre le même niveau de précision qu’un groupe de transcripteurs humains. Ces derniers pouvaient écouter les conversations plusieurs fois, connaître le contexte et travailler en collaboration.

L’annonce de Microsoft affirmant que sa technologie de reconnaissance vocale a réduit son taux d’erreur à 5,1% est d’autant plus importante que ce taux correspond à celui de transcripteurs humains. Cette annonce a été rendue possible grâce au travail de l’équipe du Artificial Intelligence & Research Group créé l’an dernier par Microsoft.