Automatische Erkennung von gefälschten wissenschaftlichen Texten Florian Rötzer

Nachdem Informatiker ein Programm zur Erzeugung scheinbar wissenschaftlicher, aber unsinniger Texte geschrieben haben, haben nun andere ein Programm vorgestellt, um Fake-Texte zu identifizieren

In der Technik kennt man das Phänomen, dass Probleme, die von einer Technik verursacht werden, durch eine andere beseitigt werden sollen, die dann womöglich erneut unvorhergesehene Probleme verursacht. Solche Zirkel oder auch dialektische Dynamiken gibt es auch woanders, beispielsweise in den Wissenschaften. Da mit der Digitalisierung von Texten und dem Internet die Suche nach Inhalten und die Reproduktion von Textteilen sich wesentlich vereinfacht hat, wird vermutlich mehr denn je plagiiert und geklaut (Copy&Paste-Epidemie an Schulen und Universitäten). Dagegen wurden Programme entwickelt, die Plagiate feststellen sollen, was die geschickteren Kopierer nur dazu bringt, ihre kognitionsreduzierenden Strategien etwas feiner als mit der brutalen Cut&Paste-Methode auszuführen, also zumindest Kopien mit Variationen durch Shaken, Umformulieren oder Neukombination herzustellen.

Wissenschaftler, besonders junge, die erst ins Geschäft kommen und sich einen Namen machen wollen, brauchen Veröffentlichungen und die Teilnahme an Konferenzen als Belege (Unethische Autorenschaften in den Wissenschaften). Daraus hat sich eine Art Wissenschaftszirkus entwickelt, wie er beispielsweise von den überall auf der Welt stattfindenden Nagib-Callaos-Konferenzen bedient wird, die mehr oder weniger direkt etwas mit Informatik zu tun haben (Konferenz-Spam wird rekursiv).

Für eine dieser Konferenzen, der "World Multiconference on Systemics, Cybernetics and Informatics 2005" in Orlando, hatten Informatiker vom MIT mit einem Programm ein Paper für die Teilnahme eingereicht, das zwar syntaktisch richtige Sätze mitsamt Titel, Kurzzusammenfassung, Gliederung, methodischen Anmerkungen, Diagrammen, Literaturverweisen und Literaturverzeichnis enthielt, aber unsinnig war. Das Paper wurde von den Gutachtern, die es angeblich geben soll, zugelassen, weil offenbar nicht wirklich gelesen (Kopiert statt gelesen) oder verstanden, die jungen Wissenschaftler hatten ihren Spaß, wurden aber dann ausgeladen, so dass sie ihren Fake nicht zur Blamage der Veranstalter vortragen konnten ("Rooter", Sokal und die fabelhafte Welt der Kybernetik).

Aber natürlich ist es für Informatiker nicht nur eine reizvolle Aufgabe, ein Programm zu schreiben, das täuschend echte wissenschaftliche Artikel mit allen nötigen Formalien erstellen kann, es ist ebenso spannend, ein Gegenprogramm zu produzieren, dass die Fakes entlarven kann. Ein solches Programm, genannt: Inauthentic Paper Detector, haben nun aufgrund des Vorfalls im letzten Jahr einige Informatiker der Indiana University vorgestellt. Mehmet Dalkilic erklärt, es gebe noch kein Programm, das bedeutungsvolle Texte von Nonsense-Inhalten unterscheiden kann. Bei Texten, die von Menschen erzeugt wurden, gebe es aber im Unterschied zu computererzeugten Texten subtile Wiederholungen von Worten oder Wortfolgen, die sich dazu benutzen lassen könnten.

Die Wissenschaftler suggerieren, was sofort einen Zweifel an ihrem eigenen Paper hervorruft, das sie natürlich als „sehr authentisch“ einstufen, dass Leser von Texten normalerweise unterstellen, dass diese bedeutungsvoll sind, während man trotz der gewaltigen Textmengen etwa im Web nicht davon ausgeht, dass es auch völlig sinnfreie Texte geben könne. Das sei eigenartig, weil beispielsweise die Eingabe eines beliebigen aber bedeutungslosen Satzes wie: „Colorless green ideas sleep furiously“ (Farblose grüne Ideen schlafen wütend) in eine Suchmaschine viele Ergebnisse hervorrufe. Dieser berühmte Satz von Noam Chomsky demonstriert, dass grammatikalisch korrekte Sätze unsinnig sein können – und dass sie wie in diesem Fall auch gefunden werden.

Unsinnige Texte nennen die Wissenschaftler inauthentisch. Demgemäß sind die „bedeutungsvollen“ Texte – oder sollte man sagen: die zumindest als bedeutungsvoll gemeinten? – authentisch. Sie haben als gesamte Sinn, während die syntaktisch korrekten inauthentischen Texte im gesamten keine Bedeutung haben. Solche Texte könnten von Programmen wie dem der MIT-Informatiker beliebig erzeugt und ins Netz gestellt werden, wo sie über Suchmaschinen gefunden und von nicht wirklich kundigen oder oberflächlich vorgehenden Lesern nicht als Unsinn erkannt werden. Das ist bekanntlich auch in der sogenannten Sokal-Affäre geschehen, als der Physiker einen unsinnigen, parodistischen Artikel mit dem anspruchsvollen Titel Die Grenzen überschreiten: Auf dem Weg zu einer transformativen Hermeneutik der Quantengravitation, strotzend vor dekonstruktivistischer Terminologie, einer bekannten geisteswissenschaftlichen Zeitung einreichte, die ihn auch veröffentlichte. Schwerwiegender ist allerdings, dass viele Texte nur von Experten verstanden werden können und für eine entsprechende Community geschrieben wurden. Manche Texte werden auch nur deswegen als bedeutungsvoll geachtet, weil sie kaum oder nicht verständlich sind, beispielsweise in der Literatur oder in der Philosophie. Wie sollte ein Programm den jeweiligen Kontext erfassen können, in dem ein Text bedeutungsvoll ist, der in einem anderen Kontext vielleicht nicht nur völlig unsinnig erscheint, sondern dies auch ist?

Die Informatiker gehen einmal davon aus, dass die meisten Texte im Internet „authentisch“ sind – zumindest noch, denn „Informationsverschmutzung“ könne jederzeit zunehmen, weswegen eine Unterscheidung zwischen „authentischen“, eigentlich von Menschen verfassten, und von „inauthentischen“, von Computerprogrammen erzeugten Texten in ihren Augen sinnvoll wäre. Sie können zwar nicht allgemein zwischen Unsinn und Bedeutung unterscheiden, sehen aber einen Ansatz in der „semantischen Kohärenz“, die einen authentischen von einem computergenerierten Unsinnstext unterscheide, wobei es einen Zusammenhang zwischen der Bedeutung und der Kompressionsmöglichkeit gebe.

Für ihren Ansatz haben sie 1.300 bedeutungsvolle, aber inhaltlich unterschiedliche Texte aus wissenschaftlichen Zeitungen genommen und diese mit 1.000 Texten verglichen, die mit dem Programm der MIT-Informatiker und mit anderen Methoden (Permutation der Worte von wissenschaftlichen Texten, Montage von Abschnitten aus verschiedenen Texten etc.) erzeugt wurden. Alle Texte wurden vorbearbeitet, beispielsweise wurden Großbuchstaben in kleine umgewandelt, alle Worte mit weniger als 2 oder mehr als 20 Buchstaben oder alle Zeichen, die keine Buchstaben darstellen, weggelassen. Dann wurden die Texte mit Algorithmen (Lempel-Ziv und Bender-Wolf) komprimiert. Angeblich konnten dann die „authentischen“ Texte fast mit 100prozentiger Wahrscheinlichkeit von den mit dem MIT-Programm erzeugten erkannt werden. Auch bei den anderen unsinnigen Textarten sei die Erkennungsrate von 60 Prozent aufwärts gelegen.

Was freilich nicht nur ein wenig skeptisch stimmt, ist die Tatsache, dass der „authentische“ Text der Informatiker, wenn man ihn in ihr eigenes Erkennungsprogramm eingibt, als inauthentisch klassifiziert wird. Ihm wird nur eine Wahrscheinlichkeit von 18,5% zugebilligt, authentisch zu sein. Angeblich könnten aber viele Klassen inauthentischer Texte aufgrund der verwendeten Komprimierungsalgorithmen erkannt werden. Das liege vermutlich daran, dass in authentischen Texten irgendwelche Worte zusammen auftreten und sich Muster wiederholen. Das freilich scheint bei ihrem Text nicht der Fall zu sein. Die große Frage ist nun, ob es sich wirklich um einen „authentischen“ Text handelt und, wenn ja, ob er eine Bedeutung hat, und, wenn auch dieses Mal ja, welche Bedeutung er für wen besitzt? Vorgestellt haben es die Informatiker auf der 2006 SIAM Conference on Data Mining, die am letzten Wochenende stattgefunden hat. (Florian Rötzer)