Von Eva Wolfangel

Na klar, ein Schwuler! Man sehe sich nur das schmale Kinn, die lange Nase und die hohe Stirn an. Und lesbische Frauen erst, sie erkennt man natürlich an ihrem breiten Kinn und einer kleinen Stirnpartie. Zu diesem Ergebnis war im vergangenen Jahr ein KI-System gekommen, das Tausende Bilder von erklärtermaßen homosexuellen Menschen analysiert und auf vermeintlich typische Gesichtsmerkmale abgesucht hatte. Es war eine Nachricht, die in Öffentlichkeit und Forschung enormes Aufsehen erregte. Sollte derart die Physiognomik bestätigt sein - jene Pseudowissenschaft, die vorgibt, menschliche Eigenschaften im Gesicht ablesen zu können. Sie bildete im vergangenen Jahrhundert den Unterbau für Rassismus und Eugenik. Was war geschehen?

Der Psychologe Michal Kosinski von der Stanford University veröffentlichte die Studie im Herbst 2017, eigentlich ein renommierter Forscher. Gemeinsam mit Kollegen hatte er 35 000 Fotos einer Dating-Plattform samt Selbstauskunft über die sexuelle Orientierung benutzt, um einen Bilderkennungs-Algorithmus zu trainieren. Die neuen Verfahren des maschinellen Lernens sind besonders gut darin, Muster in Daten zu finden - und die fand das System: Die Kriterien, anhand derer es den Menschen eine sexuelle Orientierung zuordnete, waren laut Kosinski unter anderem "feminine Gesichtszüge" in Männergesichtern (schwul), wenig Gesichtshaare (schwul), dunklere Haut (heterosexuell). 81 Prozent aller schwulen Männer habe das System korrekt erkannt, berichtete Kosinski, und 74 Prozent aller lesbischen Frauen. Der Forscher folgerte aus diesem Ergebnis, dass gewisse Gene zugleich die sexuelle Identität und das Äußere eines Menschen beeinflussen. Wie sonst könnte eine künstliche Intelligenz (KI) sexuelle Orientierung am Gesicht ablesen? Doch das war ein grober Fehlschluss.

Süße kleine Labrador-Babys sehen verblüffend ähnlich aus wie panierte Hähnchenschenkel

Wollte man sich ein Beispiel ausdenken, das die Gefahren des maschinellen Lernens und vor allem die Missverständnisse zwischen Mensch und Maschine zeigt - man könnte kein besseres finden als diese Studie. Die neuen Mustererkennungsverfahren suchen sich nämlich selbst aus, nach welchen Kriterien sie Menschen oder Dinge klassifizieren. Manchmal sind das zufällige Korrelationen - und Menschen machen dann gerne den Fehler, dahinter Kausalitäten zu vermuten, so wie Kosinski. Andere Wissenschaftler bemängeln deshalb immer wieder, dass sie solchen Systemen nicht "in den Kopf" blicken können - dass man also nie wissen kann, welche Merkmale die KI als relevant einschätzt.

Außer es ist so offensichtlich wie bei den Beispielen, die die Künstlerin Karen Zack derzeit im Netz präsentiert: Bild-Paare, die etwa süße kleine Labrador-Babys zeigen, die verblüffend ähnlich aussehen wie panierte Hähnchenschenkel. Auch Chihuahuas mit großer Ähnlichkeit zu Blaubeer-Muffins finden als Memes weite Verbreitung. In Tweets und Posts wird immer wieder behauptet, künstliche Intelligenz könne die Tiere und das Essen nicht auseinanderhalten. Belegt ist das nicht, doch ist es naheliegend, schließlich sehen sie selbst für Menschen verblüffend ähnlich aus. Während Menschen aber wissen, welche Unterschiede oder Gemeinsamkeiten einen Sinn ergeben oder wo genau man hinschauen muss, um Muffins von Hündchen zu unterscheiden, sucht sich die künstliche Intelligenz beliebige Gemeinsamkeiten aus.

Vieles spricht dafür, dass Kosinskis KI und vor allem die Forscher in ihrer Interpretation ähnliche Fehler gemacht haben. Zu den wenigen, die misstrauisch wurden angesichts des rasanten Comebacks der Physiognomik, gehört Alexander Todorov, Leiter des Social Perception Lab an der Princeton University. Im Gegensatz zu Kosinski arbeitet er nicht mit Algorithmen, sondern mit Menschen. Er untersucht, wie Stereotype und Vorurteile entstehen. "Auch Menschen sind besser darin als der Zufall, Schwule oder Lesben an ihrem Äußeren zu erkennen", sagt er. Doch das liege nicht etwa daran, dass Hormone bei Schwulen zu einer helleren Haut führen oder dass Lesben männlichere Gesichtszüge habe. Das habe vor allem mit gesellschaftlichen Stereotypen zu tun.

Darauf deutet eine Studie, die Todorov gemeinsam mit Margaret Mitchell und Blaise Agüera y Arcas erstellt hat, zwei Experten für maschinelles Lernen bei Google Research. Sie befragten 8000 Crowdworker im Internet nach ihrer sexuellen Orientierung und ihren modischen Vorlieben. Dabei zeigte sich unter anderem, dass Hetero-Frauen sich deutlich häufiger schminken als Lesben. Homosexuelle tragen häufiger Brillen, während Hetero-Männer Brillen eher vermeiden und auf Kontaktlinsen setzen. Außerdem tragen sie häufiger Bärte und haben zudem eher einen etwas dunkleren Teint - da sie öfter draußen arbeiten als Schwule. Das alles sind Merkmale, anhand derer eine KI Schwule und Lesben unterscheiden kann. "Aber das hat nichts mit Hormonen zu tun, wie Kosinski vermutete", erklärt Todorov - sondern mit bestimmten Moden und Lebensumständen in unterschiedlichen gesellschaftlichen Gruppen.

Das neuronale Netz erkannte die Straftäter - weil sie alle ähnliche T-Shirts trugen

Eine weitere Schwachstelle sind die Selfies selbst: Wie sich Menschen fotografieren, unterliegt ebenfalls einer Mode, wie Todorov in anderen Studien gezeigt hat. Hetero-Männer fotografieren sich selbst eher von unten (weil sie dann größer wirken), Hetero-Frauen eher von oben (macht angeblich schöne große Augen), während Schwule und Lesben Selfies häufiger einfach direkt von vorne aufnehmen. Und genau diese Perspektive verschiebt die Proportionen der Gesichtszüge in jene Richtung, die Kosinski und dessen KI als typisch schwul oder lesbisch angenommen hat: So hätten schwule Männer schmalere Kiefer, längere Nasen und größere Stirnen, während lesbische Gesichter größere Kiefer, kürzere Nasen, kleinere Stirnen hätten. Und das ist das Ende der modernen Physiognomik: Kosinskis System erkennt Schwule einigermaßen zuverlässig an sekundären, nicht-biologischen Merkmalen. Die Schlussfolgerung ist falsch, dass uns die Genetik unsere sexuelle Orientierung ins Gesicht schreibt.

Auch die Statistik von Studien wie der von Kosinski muss richtig eingeordnet werden. So sind Erkennungsraten von 80 Prozent nicht mehr so spektakulär, wenn man weiß, dass für das Experiment je ein zufällig ausgewähltes Foto aus der Gruppe Homosexueller und ein zufälliges aus der Gruppe Heterosexueller ausgesucht wurde. Die Software musste also nur eines der Bilder erkennen, das andere ergab sich daraus. Würde man also den Zufall entscheiden lassen, würde dieser bereits eine Erkennungsrate von 50 Prozent erzielen, erklärt Björn Christensen, Statistik-Professor an der Fachhochschule Kiel. "Der im Paper beschriebene maximale Wert ist also in dem Wertebereich zwischen 50 Prozent (Zufall) und 100 Prozent (perfekte Zuordnung) einzuordnen und nicht - wie man vielleicht denken könnte - zwischen 0 und 100 Prozent." Das ist schon weniger beeindruckend.

Ähnlich verhält es sich mit einer Studie chinesischer Forscher, die behaupteten, Kriminalität im Gesicht zu erkennen. Sie hatten ihre Software mit knapp 2000 Fotos gefüttert, die Hälfte von den abgebildeten Menschen waren verurteilte Straftäter. Ein neuronales Netz erkannte nun die Kriminellen mit 89,5 Prozent Treffsicherheit. Nur stammten die Bilder der Verurteilten natürlich aus einer anderen Datenbank als jene der Unschuldigen. "Die Verurteilten trugen alle T-Shirts", sagt Todorov - der nur einen Teil davon gesehen hat. Aber selbst darin seien sogar ihm die Unterschiede aufgefallen. "Wenn man damit eine KI füttert, erkennt sie natürlich die Kriminellen: am T-Shirt." Aber eben nicht am Gesicht. "Ein solches System macht dich nicht schlauer, sondern dümmer", so lautet sein harsches Urteil. Andere Forscher hatten bereits auf weniger offensichtliche Zusammenhänge hingewiesen: Kriminelle stammen in der Regel aus ärmeren Verhältnissen, womöglich haben sie schlechter gepflegte Zähne oder Narben - auch das könnte die Software als Kriterium angenommen haben.

Während die chinesischen Forscher ebenso wie Kosinski ihre Ergebnisse als Erfolg verkaufen und ein Stück weit davon profitieren, dass man schwer nachvollziehen kann, wie eine künstliche Intelligenz zu ihrer Entscheidung kommt, wollen andere Forscher genau wissen, nach welchen Kriterien neuronale Netze Bilder ordnen. Schließlich ist es etwa bei autonomen Fahrzeugen sehr problematisch, wenn man nicht weiß, welche Merkmale im Straßenbild der Algorithmus am Steuer für wichtig erachtet. Und da geht es manchmal um unerwartete Details.

Die Software sieht Züge, wo es nur Schienen und Bahnsteigkanten gibt

So war ein Netz, das auf die Erkennung von Pferdefotos trainiert war, sehr gut beim Sortieren. Doch dann konnten Forscher um Wojciech Samek vom Fraunhofer Heinrich-Hertz-Institut in Berlin zeigen, dass es sich gar nicht auf spezifische Merkmale eines Pferdes stützte, sondern lediglich auf die Copyright-Angabe am Rand der Bilder. Diese Gemeinsamkeit war den Forschern zunächst nicht aufgefallen. Das Forscherteam hat deshalb eine der ersten Methoden entwickelt, mit der sich die Entscheidungen der neuronalen Netze nachvollziehen lassen. Sie lassen dafür ein Netz zur Bilderkennung rückwärts laufen und können so sehen, an welchem Punkt eine Gruppe von Neuronen welche Entscheidung getroffen hat und welches Gewicht diese für das Endergebnis bekam. So konnten sie etwa demonstrieren, dass sich eine Software bei Fotos von Zügen an den Gleisen und an der Bahnsteigkante orientierte - den Zug selbst hatte das Netz nicht für besonders wichtig erachtet. Es würde also womöglich auch auf einem Bild die Existenz eines Zuges annehmen, auf dem lediglich Schienen und ein Bahnsteig zu sehen sind.

Wissenschaftler wie Marc Tschentscher vom Institut für Neuroinformatik der Universität Bochum arbeiten an Methoden der Bilderkennung, die weniger fehleranfällig sind. Er entwickelt unter anderem Software für autonome Fahrzeuge der Zukunft, die natürlich Verkehrsschilder zweifelsfrei erkennen müssen. Für das Training seiner Algorithmen hat er deshalb selbst einige Merkmale vorgegeben, auf die sich das Netz vor allem stützen soll, beispielsweise die Farbe Rot, wenn es um ein Stoppschild ging. Das führt zu sehr zuverlässigen Ergebnissen, zumal es im Schilderwald eine überschaubare Anzahl an Motiven gibt. Selbst Regentropfen auf der Scheibe, ein wechselnder Sonnenstand oder ein Scheibenwischer im Bild verwirrt die Systeme hier nicht mehr. "Verkehrsschilder gelten in der Bilderkennung als gelöst", sagt er.

Aber es kommen schon neue Angriffe: Forscher um Seyed Moosavi von der École polytechnique fédérale de Lausanne EPFL beispielsweise veränderten Verkehrsschilder minimal, indem sie die Werte der Pixel ein klein wenig verschoben. Für das menschliche Auge sind diese Veränderungen nicht sichtbar. Doch die neuronalen Netze ließen sich von diesen Manipulationen verwirren und austricksen. Das Ergebnis: Die Systeme erkannten die Verkehrszeichen überhaupt nicht mehr, während sie für Menschen unverändert aussahen.

Diese sogenannten Perturbationen sind quasi optische Täuschungen für neuronale Netze: Moosavi entwickelte mit Kollegen allgemeingültige Muster, die eine Vielzahl selbst ausgeklügelter Netze durcheinander brachten, so dass sie beispielsweise einen Joystick für einen Chihuahua und einen Socken für einen Elefanten hielten - für Menschen nicht nachzuvollziehen. Tschentscher sieht das entspannt: "Nur so lernen wir, wie wir unsere Systeme verbessern können." Schließlich sei jeder auf der Suche nach einem perfekten Algorithmus.