Anonyme Daten sind oft gar nicht wirklich anonym, in vielen Datensätzen können Einzelne auch ohne Namen eindeutig identifiziert werden. Mit welcher erstaunlicher Präzision das geht, verdeutlicht eine neue Studie. Viele Firmen und Datenbanken unterlaufen die Datenschutzgrundverordnung.

Nicht überall, wo anonym drauf steht, ist auch anonym drin. Das verdeutlicht eine Studie in der Wissenschaftlichen Fachzeitschrift „Nature“. Die Forscher können 99,98 Prozent der US-Amerikaner in jedem Datensatz identifizieren, mit nur 15 Merkmalen wie Alter, Wohnort oder Nationalität.

Das Beispiel der Wissenschaftler: Ein günstige Krankenkasse verkauft Kundendaten, aber nur „anonym“ und nur von einem Bruchteil der Datenbank. Die Studie stellt klar: Das ist keine echte Anonymität, die Daten sind nicht sicher. Menschen sind einfach zu einzigartig, um sich in Datenbanken zu verstecken. Eine Entfernen von Namen macht Datensätze nur pseudonym, nicht anonym. Mit einem Online-Tool kann jede selbst die De-Anonymisierung nachvollziehen.

Die Autoren schreiben, „dass selbst stark zerlegte anonymisierte Datensätze den modernen Anonymisierungsstandards der Datenschutzgrundverordnung nicht gerecht werden“. Ihre Ergebnisse hinterfragen „die technische und rechtliche Angemessenheit“, einfach nur unmittelbar identifizierende Datentypen zu streichen und sich über eine Identifizierbarkeit anhand anderer Datentypen keine Gedanken zu machen.

Daten sind nie vollständig anonym

„Die Studie zeigt einmal mehr sehr schön, was wir schon lange wissen“, sagt der Datenschutzforscher Wolfie Christl zu netzpolitik.org. „Solange Datensätze verarbeitet werden, die sich auf Einzelpersonen beziehen, kann keine Art der Anonymisierung mit vollständiger Sicherheit verhindern, dass Einzelpersonen reidentifiziert werden können.“

Es gibt zwar fortgeschrittene Methoden der Anonymisierung, die ein Erkennen von Einzelpersonen erschweren. Vollständige Sicherheit kann es aber nie geben. „Individualisierte ‚digitale Selbstverteidigung‘ oder rein technischer Datenschutz helfen deshalb nur sehr begrenzt“, so Christl. Stattdessen müsste die Datenschutzgrundverordnung als Ausgangsbasis dienen, um Rechte und Freiheiten zu schützen.

Dort liegt aber auch das Problem: Die DSGVO unterscheidet, ob Daten personenbezogen sind oder nicht. Die aktuelle Forschung zeigt erneut, dass genau diese Unterscheidung oft willkürlich ist. Christl fordert, die DSGVO endlich konsequent durchzusetzen und die Verarbeitung personenbezogener Daten im kommerziellen Massen-Datenmissbrauch zu stoppen: „Unternehmen sprechen etwa oft komplett irreführend von ‚anonymisierten‘ Daten, wo in Wirklichkeit pseudonymisierte – und damit eindeutig personenbezogene – Daten verarbeitet werden.“

Kein Massenleak, sondern öffentliche Daten

Das ist aber auch bei staatlichen oder universitären Datensätzen oft der Fall, auch in der aktuellen Studie. Neben einem Leak der nationalen türkischen Identifikationsnummer (eine Datenschutz-Katastrophe) benutzten die Forscher einen US-Zensus und frei zugängliche Umfragen von Universitäten, die angeblich anonym waren. Und immer mehr Daten werden öffentlich.

Schon als Großbritannien vor sieben Jahren 52 Millionen Krankenakten zusammenlegte, wurden Bedenken laut. Eine Studie der Royal Society kam schon damals zu dem Schluss, „dass die Sicherheit von persönlichen Daten in Datenbanken durch Anonymisierung nicht garantiert werden kann, wenn aktiv nach Identitäten gesucht wird.“ Und 2015 reichten in einer Studie zu anonymisierten Transaktionen mit Kreditkarten vier Transaktionen, um 90 Prozent der Personen wiederzuerkennen.

Eine Lösung wäre zum Beispiel, derartige Datensätze zu aggregieren, also Personen zu Gruppen zusammenzufassen. Durch diese Unschärfe wird die Wiedererkennung von Individuen so gut wie unmöglich gemacht. Die Langzeitstudie der „Nationalen Kohorte“, an der 200.000 Deutsche teilnehmen, wendet dieses Verfahren bereits an: Dort werden Adressen nur so angegeben, dass sie mindestens 50 Personen umfassen.

Bis solche Verfahren aber umfassend angewendet werden, sind angeblich anonyme Datensätze, Umfragen und Studien ein Datenschutzrisiko. Und dieses Risiko wird mit steigender Rechenkapazität und genaueren Algorithmen nur noch größer werden.