Ein kürzlich veröffentlichter Forschungsartikel zeigt, wie schnell und weitreichend Nutzungsdaten im undurchsichtigen Netzwerk der Online-Werbeindustrie verbreitet werden. Das hat auch Folgen für die Wirksamkeit von Adblockern: In Sachen Datenschutz können sie großen Tracking-Akteuren wie Google und Co. nicht viel entgegensetzen.

Über die letzten zwei Jahrzehnte ist rund ums Online-Marketing eine hochentwickelte Industrie entstanden, die große Gewinne aus der Extraktion und Analyse von User-Daten schöpft. Doch wo diese Datenströme fließen und wer sich Daten abzwackt, ist für Außenstehende völlig intransparent. Zwei Forscher an der Northeastern University in Boston haben nun versucht, das komplexe Firmengeflecht der Online-Werbung nachvollziehbar zu machen. Ihre Studie [pdf] liefert spannende Einsichten in den Aufbau und die internen Abläufe der Online-Werbeindustrie.

Besonders beunruhigend sind die Ergebnisse mehrerer Simulationen, mit denen die Wirksamkeit von fünf Adblocking-Strategien im Hinblick auf die Privatsphäre von Nutzer*innen getestet wurde. Die populäre Browser-Erweiterung Adblock Plus etwa verhindert in der Standardeinstellung die Verbreitung der Daten ihrer Nutzer*innen nicht, weil wesentliche Werbebörsen aufgrund der Sonderregeln für akzeptable Werbung nicht blockiert werden: „Adblock Plus hat überhaupt keinen Effekt, es ist kein Stück besser als gar nicht zu blocken“, so Muhammad Ahmad Bashir, Co-Autor der Studie, kürzlich in einem Vortrag. Die besten Ergebnisse wurden mit Disconnect erzielt, das die Privatsphäre deutlich erhöht. Trotzdem: Auch die stärksten Blocking-Strategien verhindern der Studie zufolge nicht, dass Personen in 40-80 Prozent der Fälle zumindest von den einflussreichsten Unternehmen beobachtet werden, wenn sie eine Webseite besuchen.

Datenschleuder Echtzeit-Auktion

Die beiden Forscher aus Boston führen dies auf die Effekte von Echtzeit-Auktionen (engl. Real Time Bidding) an Werbebörsen (engl. Ad Exchange) zurück. Diese Werbebörsen funktionieren prinzipiell so: Eine Herausgeberin einer Webseite möchte mit Werbung Geld verdienen und wendet sich daher an eine Werbebörse (oder wird durch eine Demand-Side-Plattform an eine solche vermittelt). Sie implementiert einen JavaScript-Tracker der Werbebörse auf ihrer Webseite. Wird die Webseite von einer Person besucht, lädt sich die Werbebörse in Echtzeit die über ihren Tracker abgegriffenen User-Daten herunter. Diese können Informationen wie beispielsweise Alter, Geschlecht, besuchte Webseiten oder Interessen umfassen. An der Börse können Werbetreibende dann an einer Echtzeit-Auktion (engl. Real Time Bidding) um den Werbeplatz auf der Seite der Herausgeberin teilnehmen. Wer am meisten bietet, kann der Person mit dem gewünschten Profil eine Anzeige schalten.

Damit die Echtzeit-Auktionen an Werbebörsen funktionieren, müssen alle Beteiligten auf dem gleichen Informationsstand sein. Denn wenn an der Werbebörse ein Slot für die Schaltung einer Werbeanzeige an eine bestimmte Person verkauft wird, können nur diejenigen wissen, um was für eine Person es sich handelt, die ihre eigenen Tracking-Identifikationsnummern für diese Person mit der Werbebörse abgeglichen haben. Dieses Abgleichen wird auch Cookie-Matching genannt.

Der springende Punkt: Alle, die an der Auktion teilnehmen und ihre Tracking-Cookies abgeglichen haben, erhalten Informationen über die Person – auch die Akteure, die die Auktion nicht gewinnen und ihre Werbeanzeige nicht ausstrahlen. Die Daten über den Besuch der Webseite fließen also nicht nur an diejenigen, die direkt an der Schaltung der Werbeanzeige beteiligt sind, sondern auch an diverse andere Akteure. Das Modell der Forscher aus Boston ist das erste, das diese Effekte von Echtzeit-Auktionen auf die Privatsphäre der User einbezieht.

Test mit zwei Millionen Werbeanzeigen

Für ihre Forschungszwecke haben die Forscher ein Netzwerk konzipiert, das die verschiedenen Akteure (Werbetreibende, Werbenetzwerke, Werbebörsen, Herausgebende, etc.) und ihre Verflechtungen darstellt. Die Werbeunternehmen wurden als Knoten dargestellt. Dort, wo zwei Knoten mit einer Kante verbunden sind, fließen Daten.

Die Informationen für das Netzwerk wurden über einen Webcrawler gesammelt, mit dem systematisch und automatisiert Produkte auf prominenten Online-Handelsplattformen (z.B. Amazon) aufgerufen wurden. Im Anschluss beobachteten die Forscher auf Plattformen wichtiger Herausgeber (z.B. CNN), ob Re-Targeting-Anzeigen für die jeweiligen Produkte erscheinen. So wurden etwa 2 Millionen Schaltungen von Werbeanzeigen herbeigeführt.

Auf diese Weise wurden praktisch Datenströme über das Nutzerverhalten des Webcrawlers aktiviert. Um diese Ströme abzubilden, wurde jede einzelne durch den Crawler aufgerufene Webseite genau untersucht. Dabei wurden die einzelnen Webseiten-Elemente im Quellcode auf ihren Ursprung zurückgeführt. Dies ermöglichte die Konstruktion des Netzwerkes: Ein Skript zum Tracken von Nutzer*innen der Firma Google, das erst während des Durchlaufens des Quellcodes einer Webseite, zum Beispiel eBay, ausgeführt wird, wurde letzterer im Netzwerk untergeordnet. Dargestellt wird dieser Datenfluss als Pfeil des Knotens eBay zum Knoten Google.

Das so entstandene Netzwerk enthält nachweislich 99 Prozent der 150 gängigsten Akteure in der Online-Werbeindustrie. In den letzten Durchläufen des Crawls wurden nur noch wenige weitere gefunden, was für die Repräsentativität des Netzwerkes spricht.

Freier Datenfluss zwischen dutzenden Firmen

Die Berechnung einiger Standardmaße zur quantitativen Beschreibung der Netzwerkstruktur erlaubt interessante Rückschlüsse über das Ökosystem der Online-Werbung. Das nachgezeichnete Netzwerk setzt sich aus 1917 Knoten (Werbeakteuren) und 26099 Kanten (Datenströmen) zusammen. Bis auf sehr wenige Ausnahmen ist das Netz eng zusammenhängend: Der Grad der Vernetzung der einzelnen Akteure in der Online-Werbeindustrie ist sehr hoch. Nutzer*innen-Daten können also grundsätzlich von jeder Werbefirma zu jeder anderen fließen.

Der Grad eines Knotens gibt an, mit wie vielen Kanten er verbunden ist. Durchschnittlich haben die Knoten im Modellnetzwerk 13,6 ein- oder ausgehende Verbindungen. Einige Datenfirmen stechen jedoch als zentrale Stellen hervor: Knapp 7 Prozent der Knoten haben einen Grad größer 50. Hinter dieser kleinen Anzahl hochgradiger Knoten stecken wichtige Werbebörsen und Netzwerke, aber auch Amazons Cloudfront Delivery Network oder Tracker wie Google Analytics, ohne die in der Online-Werbewelt derzeit nichts geht.

Durchschnittlich hat der kürzeste Weg zwischen zwei Knoten eine Länge von 2,7. Es müssen also in der Regel nur 2 bis 3 Knoten überquert werden, um von einem beliebigen Akteur zu einem beliebigen anderen zu gelangen. Weiterhin ist die Cliquenbildung (messbar über den globalen Clusterkoeffizienten) sehr ausgeprägt. Cliquen sind besonders dichte Teilbereiche des Netzwerks, in denen alle Akteure direkt miteinander verbunden sind. Diese Ergebnisse sind der Studie zufolge besonders besorgniserregend: Kurze Wege und ein großer Grad von Cliquenbildung lassen darauf schließen, dass getrackte User-Daten eines Akteurs schnell an alle anderen Mitglieder des Ökosystems gelangen. Diese schnelle Ausbreitung wird durch die wenigen wichtigen Schnittstellen im Netzwerk unterstützt.

Google besetzt die wichtigsten Knoten im Datennetzwerk

Die Rolle dieser wenigen Firmen, die zentrale Schnittstellen im Werbenetzwerk darstellen, haben die Forscher noch einmal gesondert untersucht. Welche Bedeutung einzelne Knoten im Netzwerk haben, kann durch die Berechnung verschiedener Zentralitätsmaße analysiert werden. Ist ein Knoten eine zentrale Schaltstelle, über die viele kürzeste Wege zwischen zwei Knoten führen, so hat er eine hohe Betweenness-Zentralität. Solche Knoten sind in der Online-Werbung wichtig zur Weiterleitung von beispielsweise Tracking-Informationen. Die entsprechenden Unternehmen leiten besonders viele Daten an andere Akteure weiter, können also besonders viele Informationen einsehen.

Der PageRank-Algorithmus, der ursprünglich von den Google-Gründern Page und Brin zur Sortierung von Suchergebnissen entwickelt wurde, wurde in der Studie zur Analyse der Relevanz einzelner Akteure herangezogen. Die Methode gewichtet die Knoten dahingehend, wie viele „wichtige Freunde“ sie haben. Hat ein Knoten besonders viele eingehende Kanten von Knoten, die selbst viele eingehende Kanten haben, rutscht er auf der PageRank-Skala nach oben. Ein hoher PageRank weist darauf hin, dass das entsprechende Unternehmen besonders viele User-Informationen erhält, oder viele Auktionen an Werbebörsen gewinnt.

Unter den 20 Akteuren mit den höchsten Betweenness-Werten und PageRanks finden sich prominente Online-Werbeunternehmen wie AppNexus (adnxs), Facebook und Integral Ad Science (adsafeprotected). Die wichtigsten Plätze nimmt jedoch Google mit seinen verschiedenen Domains (inklusive DoubleClick und 2mdn) ein. Der kalifornische Datenkonzern ist damit der unangefochtene Tracking-König. Dadurch, dass das Unternehmen gleich mehrere zentrale Knotenpunkte stellt, gibt es an ihm praktisch kein Vorbeikommen.

Gängiges Adblocking schützt nicht vor den Big Playern

Neben der Analyse der Netzwerkparameter wurden verschiedene Szenarien auf dem Netzwerk simuliert. Die Szenarien unterschieden sich darin, dass unterschiedliche Annahmen über den Datenaustausch zwischen den einzelnen Akteuren getroffen wurden. Das Ziel der Simulationen: Herauszufinden, wie sichtbar ein User für verschiedene Akteure der Werbeindustrie ist und wie viel er diesen durch Adblocking entgegensetzen kann.

In Simulationen ohne Adblocking konnten 52 Unternehmen jeweils in mindestens 91% der Fälle beobachten, wenn ein durchschnittlicher User eine Webseite besucht (gemessen wurde die Sichtbarkeit von Ad Impressions im Netzwerk). 636 Unternehmen beobachteten mindestens 50% der Webseitenbesuche. Selbst im Szenario mit den strengsten Annahmen über den Datenaustausch erreichten die 10 größten Unternehmen 89-99% der Ad-Impressions. Fast alle Informationen darüber, welche Webseiten im Internet aufgerufen werden, erreichen also die großen Werbefirmen.

Für die Simulationen mit Adblockern wurden verschiedene Knoten im Netzwerk blockiert. Der Marktführer Adblock Plus wurde mithilfe der Acceptable-Ads-Whitelist (.txt) und der EasyList-Blacklist (.txt) imitiert. In allen drei Szenarien unterschieden sich die Ergebnisse für Adblock Plus nur unwesentlich von der No-Blocking-Simulation. Disconnect und Ghostery schnitten deutlich besser ab, aber gegen einige Unternehmen können auch sie nicht viel ausrichten. 40-80% des Browsing-Verhaltens bleiben ungeschützt, je nach Adblocker und Vorannahmen im Szenario.

Auf unsere Nachfrage hin bezog Eyeo, die Firma hinter Adblock Plus, Stellung zu den Ergebnissen der Studie: „Die Studie wurde durchgeführt bevor es die Option gab, Acceptable Ads ohne Tracking zu nutzen.“ Die beiden Autoren der Studie hätten bereits zugesagt, in den nächsten Tagen eine weitere Simulation unter Berücksichtigung dieser neuen Option (keine Standardeinstellung!) bei Adblock Plus durchzuführen.

Fazit: Viele Auswege bleiben nicht

Obwohl das Modell nur eine Annäherung darstellt und bisher nicht genauer untersucht wurde, welche Art von User-Daten konkret über das Netzwerk verteilt wird, zeigt all dies bereits: Die einzelnen Akteure der Online-Werbeindustrie sind extrem gut vernetzt. Die wichtigsten unter ihnen erhalten Informationen über das Surf-Verhalten, auch wenn Adblocker verwendet werden. In ihrem Artikel empfehlen die beiden Forscher deshalb, JavaScript entweder mittels Browser-Erweiterungen wie uMatrix komplett zu deaktivieren, oder Tools wie EasyList oder EasyPrivacy einzusetzen.

Die Studie zeigt, dass ein wirksamer Selbstschutz gegen Tracking kaum möglich ist, ohne schwere Einbußen im Hinblick auf die Funktionalität (z.B. JavaScript) hinzunehmen. Einmal mehr wird deutlich, dass es endlich einer besseren gesetzlichen Regulierung von Online-Tracking bedarf. Tatsächlich wird dies in der EU seit langem diskutiert: Das EU-Parlament möchte mit der ePrivacy-Verordnung erreichen, dass Tracking nur mit expliziter Zustimmung der Nutzer*innen erlaubt sein soll und entsprechende Einstellungen in Browsern standardmäßig den Schutz der Privatsphäre beim Surfen garantieren. Unter Dauerfeuer der vereinigten Datenlobby rückt eine tatsächlich Verabschiedung der Verordnung derzeit aber in immer weitere Ferne.

Die Rohdaten, der Quellcode sowie die Netzwerkdaten (.graphml) sind öffentlich zugänglich. Muhammad Ahmad Bashir stellte die Arbeit kürzlich im Rahmen eines Vortrags auf dem diesjährigen Privacy Enhancing Technologies Symposium vor (ab 00:50:00):