Auf dem 26. Chaos Communication Congress (26C3) sprach Michael Brennan über „Stilometrie„. Dahinter verbirgt sich die Untersuchung der sprachlichen Eigenschaften von Texten mit den Mitteln der Statistik. Das stellt eine Bedrohung für alle dar, die anonym Texte veröffentlichen wollen. Brennan lieferte daher die passenden Gegenmittel gleich mit.

Stilometrie-Programme bedienen sich Künstlicher Intelligenz, die an Texten in der Erkennung sprachlicher Muster trainiert wird. Später sollen sie ihr „Wissen“ in der Anwendung selbstständig erweitern. Auf diese Weise ist eine automatisierte Autorenerkennung möglich. „6500 Worte“ seien zur Aufdeckung der Identität des Verfassers eines Textes ausreichend, sagt Brennan.

Der Wissenschaftler unterscheidet zwei mögliche Szenarien: „Supervised“ und „unsupervised stylometry“. Bei letzterer werden Dokumente, deren Urheber nicht bekannt sind, darauf untersucht, welche die selben Autoren haben. „Supervised stylometry“ arbeitet mit Dokumenten, deren Autoren bekannt sind, um die Verfasser weiterer Texte zu identifizieren.

Brennan hat beide Szenarien mit verschiedenen stilometrischen Methoden untersucht. Für große Textmengen weniger Autoren erweist sich die Analyse als ausgesprochen treffsicher. Die Untersuchung von 20 bis 200 Wörtern langen Texte aus Foren von neun verschiedenen Autoren mit „unsupervised stylometry“ ergab eine Genauigkeit von 35%. Mit umfangreicherem Ausgangsmaterial (500 bis 750 Worte) von nur noch fünf Urhebern stieg die Genauigkeit auf beinahe 90%. „Supervised stylometry“ zeigt sich bei einer geringen Anzahl an Autoren noch effektiver. Wenn lediglich zwei Urheber für einen Text infrage kommen, lässt sich der tatsächliche Verfasser mittels Stilometrie mit beinahe 100% Genauigkeit feststellen. Aussagen für Szenarien mit vielen Autoren gibt es noch keine.

Wie kann man sich also gegen diese Autorenerkennung zur Wehr setzen? Brennan nennt zwei mögliche Angriffe: Verschleierung und Imitation. Man kann also versuchen, entweder den eigenen Schreibstil zu verstecken oder stilistische Eigenheiten eines anderen Autors aufgreifen. Beide Angriffe erweisen sich als effektiv. Verschleierung lässt die Treffsicherheit der Stilometrie-Methoden auf Zufallsniveau fallen; Imitation senkt sie sogar auf nahezu null. Texte durch Übersetzungsprogramme zu schicken hat sich dagegen als wenig erfolgsversprechend gezeigt.

Was tut man also, wenn man Texte anonym veröffentlichen will? Einen anderen Autor imitieren – und wenig schreiben, empfiehlt Brennan. Er warnt allerdings, dass in Zukunft effektivere Stilometrie-Programme zu anderen Ergebnissen kommen könnten. Ein Wettrüsten zwischen den Entwicklern von Stilometrie-Programmen und anonymen Autoren sei gut denkbar. Brennan schlägt daher die Entwicklung einer Software vor, die eine Maschinen-gestützte Anonymisierung von Dokumenten ermöglichen soll.

Michael Brennan und seine Kollegin Rachel Greenstadt sammeln derzeit weitere Dokumente, um ihre Untersuchungen auf größere Autorengruppen auszuweiten. Wer sie dabei unterstützen möchte, kann dazu eigene Texte beitragen.