Gestern erschien der Abschlussbericht der Bundespolizei zum Projekt „Biometrische Gesichtserkennung“, das am Berliner Südkreuz durchgeführt wurde. Die zugehörige Pressemitteilung bezeichnet das Projekt als „erfolgreich“, die Systeme hätten „sich bewährt“, die Bundespolizei befürwortet, diese flächendeckend einzuführen. Diese Einschätzung wird von Medien, die in meine Timeline gespült worden, entweder unwidersprochen geteilt oder es wird ein wenig rumgemäkelt, dass die Ergebnisse ja nun nicht so gut seien. Der aktuelle Bundesinnenminister gibt sich allerdings mindestens so überzeugt wie sein Vorgänger vor einem Jahr:

Testergebnisse zur #Gesichtserkennung am Bahnhof #Südkreuz veröffentlicht. #Seehofer: Systeme haben sich in beeindruckender Weise bewährt, so dass breite Einführung möglich ist. Können damit die Sicherheit für Bürgerinnen & Bürger verbessern.

Zum Bericht: https://t.co/OckZqvXZnu — Bundesministerium des Innern, für Bau und Heimat (@BMI_Bund) October 11, 2018

Beim Zwischenbericht, der vor etwa einem Jahr veröffentlicht wurde, waren die Ergebnisse so katastrophal, da es sehr viele Missverständnisse bezüglich der Interpretation der vom Bundesinnenministerium genannten Zahlen gab, hatte ich dazu schon einen längeren Blogpost geschrieben. Hat sich das in der zweiten Testphase jetzt eklatant geändert? Damals habe ich errechnet, dass von 100 vom System erkannten Personen mehr als 99 gar nicht vom System erkannt werden sollten. Jetzt behauptet unter anderem Fefe, dass von 5 nur noch einer falsch erkannt wird (80/100), was er noch für zuviel hält. Doch wenn das stimmt, wäre das System binnen Jahresfrist drastisch verbessert worden.

Obwohl ich eigentlich anderes zu tun habe, musste ich jetzt doch einen Blick in den Abschlussbericht des BMI / der BuPol werfen. In der Pressemitteilung stechen vor allem zwei Zahlen hervor: 80% Trefferrate und unter 0,1% Falschtrefferrate, ein Wert, der „sich aber durch

Kombination verschiedener Systeme technisch auf bis zu 0,00018% und

damit auf ein verschwindend geringes Maß reduzieren“ ließe. „Die Systeme haben sich damit für einen Einsatz im Polizeialltag bewährt.“

Aha, das liest sich nun wirklich gut, vor allem, wenn man nicht genau weiß, was (Falsch)Trefferrate heißt und man den Satz von Bayes nicht kennt. Nach Studium des Abschlussberichts bin ich auch schlauer, was die Interpretation der Begriffe Trefferrate und Falschtrefferrate angeht. Trefferrate gibt die Wahrscheinlichkeit an, mit der eine gesuchte Person vom System als eine solche identifiziert wird (hier: 80%, also werden 4 von 5 gesuchten Personen auch tatsächlich gefunden). Falschtrefferrate gibt die Wahrscheinlichkeit an, dass eine nicht gesuchte Person fälschlicherweise vom System als eine gesuchte identifiziert wird (unter 0,1%, also nur einer von 1000). Wie gut diese Zahlen sind, kann man aber leider erst sagen, wenn man die Zahl der vom System eigentlich Gesuchten kennt. Ich bin für meine Beispielrechung im letzten Jahr von einem Land ausgegangen, in dem die BuPol eine flächendeckende Massenüberwachung eingerichtet hat, um 800 aus welchem Grund auch immer Gesuchte aufzufinden. Alle Bürger geraten pro Tag einmal ins Visier einer Überwachungskamera. Schauen wir, was das Gesamtsystem daraus macht:

TRUE POSITIVES (gesucht, identifiziert) 640 FALSE NEGATIVES (gesucht, nicht identifiziert) 160 FALSE POSITIVES (nicht gesucht, identifiziert) 79.999 TRUE NEGATIVES (nicht gesucht, nicht identifiziert) 79.919.201

640 identifizierten Zielpersonen stehen also knapp 80.000 Fehlalarme (täglich!) gegenüber. Das ergibt eine Precision von knapp 0,79 Prozent. Das heißt, weniger als jede hundertste vom System verdächtigte Person ist tatsächlich auch eine Zielperson. Oder: 99 von 100 verdächtigten Personen sind nicht gesucht.

Wesentlich besser wird das Ergebnis, wenn man für die Falschtrefferrate den anderen, niedrigeren Wert aus der Presseerklärung einsetzt (0,00018%), der zustande kommen soll, wenn man zwei Systeme arbeiten lässt und beide anschlagen müssen, damit das Gesamtsystem eine Zielperson gefunden haben will. Erstens allerdings verschweigt die Pressemitteilung, dass damit auch die Trefferquote sinkt (der Abschlussbericht bringt Aufklärung: auf 68%). Zweitens wird diese Zahl lediglich in der Zusammenfassung genannt und nicht in dem unfangreicheren Daten-Kapitel, so dass mir sehr unklar ist, wie sie zustande kommt. Das sollte das BMI oder die BuPol bitte noch einmal erklären. Schließlich hätten wir es, wenn diese Zahlen tatsächlich stimmen, mit 144 statt 80.00o Fehlalarmen täglich zu tun. Da finde ich es sehr strange, dass die BuPol dieses nur in einem Nebensatz feiert.

Nachtrag 13.10.2018

Das Thema generiert – wie beim ersten Post auch – eine Menge Aufmerksamkeit. Kurz nachdem ich Fefe verlinkt habe, setzte er auch einen Link auf TEXperimenTales, allerdings nicht auf diesen aktuellen, sondern den Vorgängerpost aus dem letzten Jahr.

Auf Twitter war den ganzen Tag über was los, ans Herz gelegt sei den geneigten Lesern |innen der Thread von Florian Gallwitz, der auf diverse Aspekte des Bundespolizeiberichts eingeht und mit diesem Tweet startet:

Ein paar Bemerkungen zum Südkreuz-Abschlussbericht als Thread https://t.co/CCowhNXuCQ — Florian Gallwitz (@FlorianGallwitz) October 12, 2018

Etwas verwundert war ich, als mir die CSU-Politikerin Monika Hohlmeier mangelnde Mathematik-Kenntnisse unterstellte. Aber Twitter ist halt immer für eine Überraschung gut.