Werden die Fähigkeiten der maschinellen Sprachverarbeitung in der Öffentlichkeit über- oder unterschätzt? »Unterschätzt«, antwortet Michael Strube wie aus der Pistole geschossen. Wenn sich die Menschen Echo, Google Home oder HomePod ins Wohnzimmer stellen, ahnen sie nicht, wie gut der Computer sie schon versteht – und was er mit ihren Daten alles anstellen kann. Strube ist Computerlinguist am Heidelberger Institut für Theoretische Studien; er leitet dort eine Forschergruppe zum Natural Language Processing (NLP) und ist derzeit auch Sprecher der Einrichtung. Anfang Juni 2018 war er in den USA, weil er dort einen Workshop zu ethischen Fragen seines Fachs mitorganisierte; es war der zweite Workshop dieser Art.

Ein Beispiel für fragwürdige Sprachanalysen ist das Profiling: Aus einer Reihe von Tweets können Sprachwissenschaftler nicht nur Alter und Geschlecht des Autors ableiten, sondern auch Rasse, Einkommen und politische Einstellung. Der Computer liege mit seinen Analysen ziemlich oft richtig, sagt Strube. Mit solchen Verfahren lässt sich Werbung personalisieren, aber sie könnten auch den Ermittlungs- und Zensurbehörden autokratischer Staaten helfen.

Seit Edward Snowden vor mehr als fünf Jahren mit seinem Wissen über die Nachrichtendienste an die Öffentlichkeit ging, gibt Strube Seminare zu ethischen Fragen des NLP und hält Vorträge darüber. Viele seiner Kollegen reize zwar nur die wissenschaftliche Herausforderung, und sie würden sich nicht dafür interessieren, ob und wie ihre Arbeit missbraucht werden kann, sagt er. Doch das ändere sich: »Die Community beginnt das Problem wahrzunehmen.«

Den Spieß einmal umdrehen

Strube und seine Kollegen fragen sich nicht bloß, welche Forschungsprojekte sinnvoll und welche Geldgeber vertrauenswürdig sind. Sie beginnen vielmehr zu untersuchen, wie sie Menschen vor der missbräuchlichen Datenanalyse schützen können. Die Computerlinguistik macht also die maschinelle Sprachanalyse möglich, stellt zudem aber Gegenmaßnahmen bereit – wenn auch längst noch nicht im gleichen Umfang. Sie kann zum Beispiel dabei helfen, die Tweets so umzuformulieren, dass sie weniger über den Autor preisgeben. Vor einigen Jahren wurde zu diesem Zweck das Programm »Anonymouth« veröffentlicht: Es schlägt dem Autor beispielsweise vor, verräterische Wörter zu streichen.