Les récents progrès réalisés dans le domaine de l’intelligence artificielle impressionnent, comme l’a montré la victoire du logiciel AlphaGo sur le champion du monde de Go. Il y a pourtant des domaines qui résistent encore et toujours à la mise en algorithme, notamment la traduction. François Yvon, spécialiste du sujet, nous explique pourquoi.

La récente victoire du logiciel AlphaGo surclassant le champion du monde de Go a relancé les spéculations sur l’intelligence des machines, ainsi que sur les limites et les dangers de leur développement. De nombreuses compétences humaines semblent pourtant résister à la mise en algorithme. Parmi celles-ci, la traduction, dont les efforts d’automatisation, entamés dès les années 1950, continuent de se heurter à des difficultés apparemment insurmontables. La méthode d’AlphaGo ouvre-t-elle de nouvelles perspectives pour résoudre cette tache, souvent présentée comme une des plus difficiles pour une intelligence artificielle ?

La recette du succès d’AlphaGo est bien connue et prolonge une tradition de recherche déjà ancienne sur la modélisation des jeux. Le programme aborde une partie comme une succession de décisions locales et doit donc, pour bien jouer, développer deux compétences :

- sélectionner le meilleur coup dans l’ensemble des coups autorisés, étant donné l’état courant du jeu, sur la base d’une évaluation de son bénéfice à long terme. Cela implique de prendre en compte toutes les réponses possibles de l’adversaire, puis les réponses à ces réponses, etc. Explorer exhaustivement cet arbre de possibilités est infaisable et demande de mettre en œuvre des stratégies heuristiques, qui font l’objet d’un apprentissage par AlphaGo ;

- évaluer une position comme étant plutôt gagnante ou perdante, cette fonction d’évaluation étant également l’objet d’un apprentissage.

AlphaGo réalise ces deux apprentissages avec des réseaux de neurones artificiels dits profonds, en analysant à la fois des parties réelles (jouées par des joueurs experts), mais également à partir d’un très grand nombre de parties artificielles, produites en faisant s’affronter deux versions du logiciel.

Des traductions automatiques complexes à évaluer

Qu’en est-il de la traduction automatique (TA) ? Comme pour le Go, les approches les plus efficaces à ce jour reposent essentiellement sur un apprentissage automatique. La traduction est ainsi modélisée comme une succession d’actions élémentaires, consistant à ajouter un mot à la traduction à chaque itération du système. Un bon système de TA doit donc savoir quel prochain mot produire parmi tous les mots de son dictionnaire, en tenant compte des mots produits antérieurement, ainsi, naturellement, que de la phrase à traduire. L’utilisation de méthodes statistiques similaires à celles déployées pour AlphaGo pour apprendre à faire ces choix a permis des améliorations considérables de la TA. Quelles en sont les limites ?

L’évaluation

automatique de la

qualité du résultat

d’une traduction

reste un défi

difficile à relever. Une première observation est que le calcul du meilleur coup à jouer demande que l’on puisse évaluer automatiquement le bénéfice escompté de chaque action : au Go, cette évaluation est simple et se déduit du résultat (gain ou perte) de la partie conduite à son terme. Il en va autrement en traduction : l’évaluation automatique de la qualité du résultat d’une traduction reste un défi extrêmement difficile à relever.

Notons ensuite que, dans cette analogie, jouer un coup équivaut à produire un mot ; mais quel est l’équivalent d’une partie ? Les systèmes actuels traduisent chaque phrase indépendamment des autres phrases d’un texte : la « position » qui sert de base à chaque évaluation est ainsi réduite à un petit nombre de mots : de phrase en phrase des motifs se répètent, permettant au système de faire des généralisations utiles. Cette approche reste toutefois aveugle aux dépendances entre phrases et s’avère incapable par nature de garantir la cohérence des documents ainsi produits, que cette cohérence soit stylistique, discursive, sémantique ou référentielle.

Des connaissances humaines difficiles à modéliser

Ce qui nous amène à la seconde observation : apprendre demandant des exemples, en traduction, il faudra donc disposer d’un vaste corpus de traductions, réalisées si possible par des traducteurs qualifiés. La difficulté est que l’activité de traduction humaine porte sur des textes très particuliers : si l’on trouve facilement des traductions de romans, de textes juridiques, de documentations techniques, de sites Web ou autres supports de communication, les traductions de tweets ou de discussions sur des forums sont beaucoup plus rares, sans parler des traductions de conversations spontanées. Notons que, même les genres textuels les mieux représentés n’existent pas dans les mêmes quantités pour tous les couples de langues : des océans de données pour le couple anglais-français, quelques gouttes pour le couple malgache-inuktitut.

La traduction

demande des

connaissances

sur les langues,

mais aussi sur les

cultures et sociétés

entre lesquelles

les écrits circulent. L’approche consistant à engendrer des données artificielles, par exemple en traduisant via une langue tierce dite pivot (le plus souvent l’anglais), est ici peu opérante, faute de pouvoir garantir la fiabilité de ces pseudo-traductions. Contrairement au Go, dont les règles, une fois programmées, permettent de produire à volonté des coups licites et des parties formellement correcte, la langue se laisse moins facilement modéliser. La génération de textes artificiels syntaxiquement corrects est une entreprise hasardeuse, et encore plus leur traduction automatique.

Dernier problème, sans doute le plus ardu : la traduction n’est pas une activité naturelle. Elle demande des professionnels rompus à l’exercice et bien formés, ayant accumulé des connaissances variées, à la fois sur les langues source et cible, mais également sur les cultures et sociétés entre lesquelles les écrits circulent. Ces connaissances doivent être simultanément mobilisées, par exemple pour retranscrire les marqueurs linguistiques de politesse, dont l’emploi correct requiert une analyse fine du statut et des relations entre les différents acteurs d’une scène. Ces connaissances restent souvent implicites dans les textes ou dans les exemples de traduction, et l’approche statistique ne pourra jamais les apprendre que par approximation, s’exposant à des erreurs parfois catastrophiques.

Un domaine en plein essor auprès du grand public

La traduction automatique progresse année après année, et va continuer de s’améliorer grâce au développement de nouveaux algorithmes capables d’intégrer plus efficacement les données, ressources linguistiques et connaissances disponibles. Elle produit déjà des résultats utilisables pour de nombreuses applications, atteignant même des niveaux de qualité remarquables pour les documents les plus stéréotypés, par exemple les notices techniques. L’activité de correction humaine des traductions automatiques s’industrialise et permet, dans certains contextes, de produire à faible coût des traductions acceptables et vérifiées, facilitant le commerce et les échanges internationaux.

La TA connaît également un fort succès auprès du grand public, qui l’utilise pour assimiler des textes écrits dans une langue inconnue, mais également, de manière détournée, pour rédiger en langue étrangère, parfois également dans des contextes d’apprentissage. Mais il est peu probable que, dans cet exercice, la machine surpasse un jour l’humain, sinon pour des tâches de traduction triviales.

Les points de vue, les opinions et les analyses publiés dans cette rubrique n’engagent que leur auteur. Ils ne sauraient constituer une quelconque position du CNRS.