Ist es möglich, Informationen über eine fremde Sprache zu gewinnen, ohne sich ein einziges Wort in dieser Sprache anzuschauen? Ja, sagen Wissenschaftler vom Massachusetts Institute of Technology (MIT) und dem Technion-Institut in Haifa.

Sie analysierten dazu, wie Muttersprachler dieser Sprache auf Englisch schreiben. Ein lernfähiger Computer sucht in den Texten dann nach aufschlussreichen Eigenarten und rekonstruiert anhand dieser Daten typische Merkmale der Ursprungssprache. Die Methode stellte das Team um den MIT-Computerlinguisten Boris Katz jetzt auf einer Konferenz in Baltimore vor (Studie).

Ursprünglich hatten sich die Forscher eine leichtere Aufgabe gestellt: Ihre Software sollte lediglich erkennen, welche Muttersprache der Autor eines gegebenen Textes spricht. Dazu sammelten sie über 1200 englische Aufsätze, verfasst von Muttersprachlern 14 verschiedener Sprachen, und ließen sie per Computer mit linguistischen Zusatzdaten wie etwa Wortartinformationen anreichern. Anschließend machte eine lernfähige Software charakteristische Spuren ausfindig, die die jeweilige Muttersprache in den englischen Essays hinterlässt.

Laden... © Yevgeni Berzak, Roi Reichart, Boris Katz (Ausschnitt) Stammbaum im Vergleich | Die Analyse anhand englischer Aufsätze (ESL = English as a second language) gruppiert die 14 untersuchten Sprachen ähnlich wie eine Analyse anhand von Daten des "World Atlas of Language Structures" (WALS). So werden beispielsweise auf oberster Ebene nichtindoeuropäische Sprachen von indoeuropäischen Sprachen unterschieden.

Als Ergebnis erhielten sie Vermutungen in Form von Prozentwerten – etwa dass ein gegebener Text mit 51-prozentiger Wahrscheinlichkeit von einem Russischsprecher, mit 33 Prozent von einem Polnischsprecher und nur mit 16 Prozent von einem Japanischsprecher stammt.