Im falschen Film: In diesem Deepfake-Video ist das Gesicht des Schauspielers Nicholas Cage auf den Körper von Amy Adams montiert, die im Superman-Film "Man of Steel" Lois Lane spielt.

"Deepfake"-Videos sind täuschend echt gefälscht. Eine Herausforderung für Matt Turek von Darpa, der legendären Forschungsbehörde des US-Verteidigungsministeriums. Der Informatiker arbeitet daran, Lügenbilder zu enttarnen.

Interview von Jannis Brühl

Das Zeitalter, in dem man seinen Augen nicht trauen kann, begann Ende 2017. Unter dem Pseudonym "deepfakes" veröffentlichte ein Internetnutzer mehrere Pornovideos, in denen scheinbar Hollywood-Berühmtheiten mitspielten. Beeindruckend echt wirkten die Montagen aus den Gesichtern der Promis und den Körpern von Pornodarstellerinnen, die der Nutzer mit selbstlernender Software kreiert hatte. Matt Turek arbeitet für die Darpa (Defense Advanced Research Projects Agency) daran, die Lügenbilder zu enttarnen. Das legendäre Forschungszentrum des US-Verteidigungsministeriums war an der Entwicklung des Internets ebenso beteiligt wie an der von Flammenwerfern und des M-16-Gewehrs.

SZ: Herr Turek, was ist Ihre Aufgabe bei der Darpa?

Matt Turek: Ich bin für "MediFor" zuständig, das Darpa-Programm für Medien-Forensik. Es besteht seit 2016 und soll automatisierte Technik entwickeln. Unsere Software soll sich ein Bild oder ein Video ansehen und dann sagen, ob es digital oder auf andere Weise manipuliert wurde. Ziel ist, dass diese Technik einen einzigen Integritäts-Score für ein Bild oder Video ausspuckt, um anzuzeigen, wie vertrauenswürdig es ist. Und sie soll anzeigen, wie sie zu dem Schluss gekommen ist.

Werden die Medien, die Sie untersuchen, bei Ihnen eingereicht, oder überwachen Sie aktiv das Internet?

Wir forschen vorerst nur am Erkennungs-Algorithmus selbst. Aber wir entwickeln die Technik, damit sie große Mengen Bilder und Videos überwachen kann. Deshalb bauen wir zusätzlich zu diesen Algorithmen ein Programm, mit dem wir sie auf große Mengen von Medien anwenden können. Das könnte zum Beispiel für Internet-Anbieter interessant sein.

Detailansicht öffnen Matt Turek ist Programmleiter bei der Darpa. Er hat einen Doktor in Informatik und ist Fachmann für Maschinenlernen, künstliche Intelligenz und Computersehen. Der Darpa zufolge hat er 14 Patente mitentwickelt. (Foto: oh)

Diese könnten damit versuchen, Fälschungen aus ihrem Datenverkehr zu fischen. Brauchen wir so eine Technik wirklich?

Die Darpa hat einige der technischen Möglichkeiten in der Bilderkennung und andere Manipulationstechniken vorhergesehen. Als unser Programm 2016 startete, gab es noch keine Deepfakes. Am Anfang ging es eher um Photoshop oder simple Methoden, um Videos zu verändern, wie das Schnittprogramm Adobe Premiere. Wir beobachteten, dass diese Techniken immer stärker automatisiert wurden.

Ist der für gefälschte Videos mittlerweile geprägte Begriff Deepfake angemessen? Er klingt wie ein neues Schlagwort für Digitalkonferenzen ...

Deepfake beschreibt akkurat eine bestimmte Art audiovisueller Manipulation. Es ist eine Mischung aus den Begriffen "deep learning" und "fake". Meistens bezieht es sich auf sogenanntes Face-Swapping: Software, die in Videos Gesichter auf fremde Körper setzt. "GAN" nennen wir Forscher das: "Generative Adversarial Networks". Diese Technologien wurden ursprünglich zu unverfänglichen Zwecken wie Bilderkennung und Objekterfassung entwickelt.

Welche Fähigkeiten und Werkzeuge braucht man für einen Deepfake?

Sie brauchen die Deepfake-Software, die gibt es mittlerweile unter anderem als Gratis-App für das Smartphone. Dazu unterstützende Programme. Außerdem einen hochwertigen Grafikprozessor, wie er für moderne Videospiele nötig ist. Wenn Sie das auf Ihrem Computer eingerichtet haben, müssen Sie das Videomaterial besorgen, das Sie verändern wollen, und sich Zugang zu Trainingsdaten verschaffen, also zu Tausenden Bildern des Gesichts, das sie einbauen wollen. Und das alles nur, um ein Gesicht in einen fremden Körper einzuwechseln. Wenn Sie etwas noch Überzeugenderes basteln und etwa die Tonspur eines Videos verändern wollen, brauchen Sie wieder andere Software. Und dann müssen Sie beides verschmelzen, Bild und Ton. Das alles funktioniert also nach wie vor nicht auf Knopfdruck. Aber die Manipulationen werden immer besser.

Welche Gefahren für die Gesellschaft gehen von dieser Technik aus?

Früher waren nur staatliche Akteure in der Lage, überzeugende Fälschungen zu produzieren. Wenn die Entwicklung so weitergeht, dann können das bald Einzelne von zu Hause aus tun. Und sie müssen nicht mal politische Ziele verfolgen. Denken Sie an Menschen, die nach einem Unfall den Schaden an ihrem Auto mit so einer Technik manipulieren. Oder ein Produktfoto, das sie dann auf Ebay stellen.

Was ist mit persönlichen Vendettas?

Wir sehen, dass Menschen Bilder anderer Personen manipulieren, um sie in kompromittierenden Stellungen zu zeigen und so Rufmord an ihnen zu begehen.

Will Ihr Arbeitgeber, das US-Verteidigungsministerium, dass Sie Deepfakes für die Vereinigten Staaten erstellen?

Nein, MediFor konzentriert sich nur auf Erkennungstechnik.

Wie gehen Sie dabei vor?

Wir haben das Problem in drei Ebenen zerlegt: Zunächst schauen wir, ob es digitale Anzeichen für Manipulation gibt, etwa Inkonsistenzen in der Kompression eines Bildes oder Videos. Wenn Sie ein Bild im Gif- oder JPEG-Format speichern, wird es komprimiert, um Platz zu sparen. Digitale Fingerabdrücke verraten, wie das gemacht worden ist. Wir können analysieren, ob sie im ganzen Bild gleich sind oder ob Pixel aus einem anderen Bild stammen. Diese subtilen Anzeichen können Menschen nicht erkennen, aber es ist relativ einfach für automatisierte Systeme. Tatsächlich nutzen wir dafür einige derselben Deep-Learning-Techniken, die eingesetzt werden, um Bilder zu fälschen.

Und die zweite Ebene?

Ist die physikalische. Passen die Schatten im Bild zu den Lichtquellen? Passt die Geometrie der gezeigten Szene zu dem, was wir über die benutzte Kamera wissen? Wenn Sie ein Foto machen, bestimmen Optik und Konfiguration des Sensors, wie Objekte in der Szene erscheinen. Diese Information können wir herausziehen und sehen, ob sie sich konsistent durch die ganze Szene zieht. Die physikalische Ebene bezieht sich eher auf den Inhalt des Bildes selbst als auf die digitalen Fingerabdrücke der ersten Ebene. Diese Dinge können Sie als Mensch sehen, wenn Sie dafür trainiert wurden. Dann können Sie etwa merken, ob zwei Gesichter aus demselben Winkel beleuchtet werden.

Welche Fehler können Fälscher noch machen?

Die dritte Ebene sind semantische Informationen. Wir vergleichen das, was wir im Video sehen, mit anderen Fakten, von denen wir wissen, dass sie stimmen. Wenn ein Foto im Freien gemacht wurde, schauen wir, wie das Wetter am Aufnahmeort war, als das Bild angeblich gemacht worden ist. Steht die Sonne richtig? Unser Ziel ist eine Technologie, die die drei Ebenen verschränkt und große Sammlungen von Bildern und Videos durchsuchen kann.

Wenn Ihre Gegner Ihre Technik kennen, könnten sie dann ihre Manipulationen anpassen?

Ja, es gibt einen Zielkonflikt. Je mehr ein Gegner über das weiß, was wir tun, desto leichter kann er es umgehen. Aber einer der Vorteile unserer offenen Forschung ist, dass sie ein breites Interesse an automatischen Erkennungssystemen in der Forschungsgemeinde entzündet. Wir haben mehr als 70 Publikationen über unsere Arbeit veröffentlicht, immer mehr Forscher arbeiten nun an Fragen der Medien-Forensik. Das ist ein Gegengewicht innerhalb der Forschung, denn momentan arbeiten mehr Menschen an Technik, die für Manipulationen missbraucht werden kann, als an Erkennungsmechanismen.

Wie schützen Sie sich davor, dass Ihre eigene Software missbraucht wird?

Es ist nicht so einfach, unsere Detektoren in Angriffsabläufe einzubinden. Die GANs sind sehr schwer zu optimieren. Wir versuchen, es Fälschern noch schwerer zu machen, etwa indem wir bestimmte Signale aus unseren selbstlernenden Netzwerken so bauen, dass sie schwieriger zu übernehmen sind, zum Beispiel Informationen über den Farbverlauf in einer Aufnahme.

Was haben die immer perfekteren Manipulationen für Konsequenzen für unsere Wahrnehmung der Realität?

Ich habe viel darüber nachgedacht. Genau wie meine Kinder heute wegen der sozialen Medien eine andere Einstellung zur Privatsphäre haben, als ich sie früher hatte, glaube ich: In der Zukunft werden die Menschen eine andere Einstellung zu Videos und Fotos haben. Sie werden ihnen weniger vertrauen.

Was sind die beeindruckendsten Deepfakes, die Sie gesehen haben?

Es gibt sehr interessante Filmsequenzen, in denen Nicholas Cage auftaucht, obwohl er in den Filmen gar nicht mitgespielt hat ...

... Nicholas Cages Kopf ist darin auf fremde Körper montiert. Aber kann solche Videos bald jeder einfach basteln?

Eine überzeugende Manipulation herzustellen, ist nach wie vor ziemlich aufwendig. Deepfakes funktionieren am besten, wenn das Gesicht, das Sie einsetzen, dem Gesicht ähnelt, dass Sie ersetzen. Wenn es die gleiche Form hat, den gleichen Hautton. Beide müssen unter ähnlichen Lichtbedingungen aufgenommen worden sein. Das sind derzeit die Grenzen automatisierter Deepfake-Technologie.

Warum taucht ausgerechnet Nicholas Cage so häufig in den Deepfakes auf?

Manchmal frage ich mich, ob der Fälscher es vielleicht auch mit anderen Schauspielern versucht hat und ob es dann einfach nur besser funktioniert hat mit Nicholas Cage. Möglicherweise hat Cage ein Schauspieler-Durchschnittsgesicht, und das hat das Face-Swapping erleichtert. Es kann aber auch sein, dass die Person, die dahintersteckt, einfach ein riesengroßer Nicholas-Cage-Fan ist. (Anm. d. Red.: Eine Rolle dürfte dabei auch das beliebte Mem "Caging" spielen)

Korrektur: In einer ersten Version war der Name des Darpa-Programmes "MediFor" falsch geschrieben. Wir haben das korrigiert.