Demandez à Google Translate de traduire cette “Cette fille est jolie.” en italien et vous obtiendrez une proposition étrange : “Questa ragazza è abbastanza.”, littéralement cette fille est “moyenne”. La beauté a été “lost in translation”. Comment un des traducteurs automatiques aujourd’hui les plus performants, capable d’utiliser un capital linguistique unique au monde, des milliards de phrases, peut-il faire une erreur aussi grossière ? La réponse est simple, il pivote par l’anglais. Jolie se traduit par “pretty” et “pretty” par “abbastanza”.

Depuis quelques mois, j’explore avec Dana Kianfar, un des nouveaux doctorants du DHLAB financé par le Fond National suisse, la logique interne de Google Translate. Nous tentons d’en anticiper les effets culturels dans le cadre du capitalisme linguistique et des nouveaux effets de médiations algorithmiques.

Une fois compris ce principe, il devient dès lors aisé de produire des phrases traductions extrêmement étranges. L’expression idiomatique “Il peut des cordes” se transforme en une expression très poétique “Piove cani and gatti”. Cette traduction directe de “It rains cats and dogs” est absolument incompréhensible pour un italien.

Il est normal que Google Translate procède de cette façon. Pour produire un traducteur automatique, il est nécessaire de disposer de grand corpus de textes identiques traduits d’une langue à l’autre. Google étant une entreprise américaine, son outil s’est construit sur des paires associant presque toujours l’anglais comme langue pivot. Pour aller du Français vers l’Italien, il faut ainsi, “par construction”, passer par une traduction anglaise intermédiaire.

Le biais culturel d’un tel procédé est évidemment important. Le Français et l’Italien sont des langues relativement proches. En comparaison, l’anglais est une langue particulière, compacte, idiomatique. Projeter vers l’espace anglophone puis reprojeter vers une langue cible induit des effets linguistiques et culturels qu’il faut étudier.

En effet, comme nous l’avons discuté ailleurs (Kaplan 2014), les textes produits algorithmiquement par des traducteurs automatiques ne sont pas nécessairement identifiés comme tels. Ils se présentent au contraire souvent comme des ressources primaires, naturelles et éventuellement prises comme modèle par un certain nombre de lecteurs. “Piove cani e gatti” peut sembler une expression admissible pour un lecteur dont l’italien n’est pas la langue maternelle et a fortiori pour des algorithmes qui étudient la structure de la langue dans le but produire artificiellement de nouveaux textes. Les modèles ainsi induits peuvent dans un second temps être utilisés par des services de médiation textuelle qui proposent par exemple d’autocompléter une phrase que vous êtes en train de taper. Il n’est pas un impensable que, dans quelque temps, un italien commençant une phrase par “Piove …” se voit proposer la continuation “Piove cani e gatti”, une expression qui sans doute n’a jamais été prononcée ou écrite dans toute l’histoire de la langue italienne. Le pivot linguistique vers l’anglais participe à un phénomène de créolisation inédit.

L’impérialisme linguistique de l’anglais a donc des effets beaucoup plus subtils que ne le laisseraient penser les approches qui n’étudient que la “guerre des langues”. Le fait de pivoter par une langue conduit à introduire dans les autres langues des logiques linguistiques propres et donc insensiblement des modes de pensée spécifiques. Il semble crucial d’inventer de nouveaux outils pour détecter et documenter ces nouvelles évolutions linguistiques.

Notons pour conclure que si l’anglais joue un rôle pivot pour les langues “européennes”, d’autres langues ont sans doute le même effet localement pour d’autres bassins linguistiques (Le Hindi par exemple). À l’échelle mondiale, c’est un réseau de chaines de traduction qui est en train de se mettre en place et qui impose parfois pour traduire une expression d’une langue à une autre de pivoter par une série de langues intermédiaires. Quand nous voyons les effets linguistiques d’un de ces pivots, imaginer des séquences de ces transformations linguistiques laisse songeur.

Kaplan, Frederic. 2014. “Linguistic Capitalism and Algorithmic Mediation.” Representations 127 (1): 57–63. doi:10.1525/rep.2014.127.1.57.