Betrug und fehlerhaftes Arbeiten in der Wissenschaft scheinen auf dem Vormarsch. Bereits 2011 berichtete das Journal "Nature", die Fälle zurückgezogener Artikel hätten sich im vergangenen Jahrzehnt verzehnfacht, während im selben Zeitraum die Zahl wissenschaftlicher Veröffentlichungen lediglich um 44 Prozent gestiegen war. Zwar hilft auch Software dabei, Forscher gefälschter Daten, Bilder oder kopierter Texte zu überführen. Aber so gut wie alle Missstände in Artikeln werden weiter durch aufmerksame Gutachter und Redakteure entdeckt. Gute alte Detektivarbeit bildet selbst in Zeiten, in denen Automatisierung und Algorithmen scheinbar unser Leben bestimmen und das Plagiieren und Manipulieren von Daten immer einfacher wird, den Ausgang für tiefere, digitale Ermittlungen. Doch Forscher arbeiten daran, den nächsten Schritt bei der Enthüllung wissenschaftlicher Betrugsfälle zu tun – und setzen auf ausgefeilte Methoden aus "Big Data" und maschinellem Lernen.

Paul Ginsparg und Daniel T. Citron von der Cornell University im US-Bundesstaat New York beschreiben in einem bei den "Proceedings of the National Academy of Sciences" und auf "arXiv.org" veröffentlichten Artikel, wie sie das komplette Pre-Print-Archiv "arXiv.org" auf Plagiate untersucht haben. Ginsparg gründete "arXiv.org" Mitte 1991, in den Urzeiten des Internets. Es sollte Forschern, vor allem aus der Hochenergie- und Teilchenphysik, eine Plattform zum Austausch wissenschaftlicher Ergebnisse bieten, noch bevor diese in Fachjournals publiziert werden. Bis Mitte 2012 hatten sich knapp 760 000 Veröffentlichungen angesammelt. Diese durchforsteten Ginsparg und Citron mit Hilfe eines Algorithmus nach auffälligen Mustern kopierter Textstellen.

Laden... © fotolia / Radu Razvan (Ausschnitt) Zeitschriften | In der "guten alten Zeit" musste man Textbausteine noch händisch abtippen, wenn man sie kopieren wollte. Heute lässt sich ein Plagiat dagegen mühelos mit wenigen Mausklicks zusammenstellen. Doch die moderne Technik ermöglicht auch, dass Plagiatsjäger den Raubkopien immer besser auf die Schliche kommen.

Dazu verglichen sie paarweise jedes Dokument mit allen anderen im Archiv. Um die Datenmengen gering zu halten, erstellten sie von jedem Artikel einen "digitalen Fingerabdruck". Sie unterteilten den Text dazu in so genannte 7-Gramme, Gruppen von sieben aufeinander folgenden Wörtern. Dann bereinigten sie diese von häufig auftretenden 7-Grammen. Zudem setzten sie eine Methode aus dem maschinellen Lernen ein, um die Zahl der Wortgruppen weiter zu reduzieren: Würde man alle 7-Gramme eines Textes aufzählen, käme man bei einem Text mit n Wörtern auf eine Anzahl von n-7+1 7-Grammen, denn das erste 7-Gramm beginnt mit dem ersten Wort des Textes, das zweite mit dem zweiten und so fort bis zum Schluss. Das letzte 7-Gramm beginnt dementsprechend beim siebtletzten Wort. Bis auf die letzten sechs Worte besitzt also jedes der n Worte des Textes ein eigenes 7-Gramm.

Sechs Milliarden Wörter

Dabei liegt eine extreme Redundanz vor. Die meisten 7-Gramme sind bis auf je zwei Wörter mit ihrem Vorgänger und Nachfolger identisch. Ginsparg und Citron konnten die sechs Milliarden Wörter der 760 000 Dokumente, die als unkomprimierter Text eine Dateigröße von 33 Gigabit besaßen, auf 1,6 Milliarden Hashes zusammenführen. Hashes sind Zahlenwerte, die stellvertretend für die 7-Gramme verwendet werden und sich leichter vergleichen lassen. Diese passten in den Arbeitsspeicher eines handelsüblichen Computers mit zwölf Gigabit RAM, wo sich dann mehrere hundert Dokumente pro Sekunde auf Textdopplungen untersuchen ließen. Review-Artikel, Doktorarbeiten, Konferenz- und Buchbeiträge ließen die Forscher außer Acht, sofern sie erkenntlich waren, da sich hier häufig Dopplungen zeigen, die nicht der Art von Missbrauch entsprechen, der die beiden auf der Spur waren.