Beim 33C3 wurde heute eine Datenanalyse von Spiegel Online gezeigt: David Kriesel hat über knapp zwei Jahre hinweg alle Artikel heruntergeladen und ausgewertet. Mit Data-Science-Werkzeugen veranschaulichte er nun die gewonnenen Informationen. Wie oft kommt es etwa zur Sperrung der Kommentarfunktion – und bei welchen Themen?

„Big Data“ mal anders: In seinem Vortrag beim Chaos Communication Congress [Video] hat David Kriesel heute gezeigt, welche Möglichkeiten eine Datenauswertung über die Zeit für eine große Menge Artikel bietet – und einen interessanten Überblick über das publizistische Wirken von Spiegel Online gegeben. Der Informatiker hat über viele Monate hinweg alle Artikel Deutschlands meistgelesener Nachrichtenseite automatisiert runtergeladen und danach Metadaten und Inhalte analysiert.

Spiegel-Online hat in den letzten beiden Jahren knapp einhunderttausend Artikel veröffentlicht, die von Kriesel mit Data-Science-Techniken bearbeitet werden. Er wertet die Artikel nach Rubriken und Ressorts aus, berechnet statistische Angaben über Veröffentlichungshäufigkeiten und Verschlagwortung, baut Autorenlandkarten und setzt sich mit der Frage auseinander, bei welchen Themen Kommentare zugelassen werden und bei welchen Kommentarsperrungen typisch sind.

Die von Kriesel gesammelten Artikel sind anfangs viermal pro Stunde, später alle fünf Minuten runtergeladen worden. Das macht es auch möglich, über den Zeitraum von zwei Jahren Korrekturen und Veränderungen in den Artikeln zu überschauen. Denn von den meisten erschienenen Stücken hat Kriesel mehrere Versionen eingefangen.

Die einfachen Auswertungen sind aber zunächst die Zuordnungen der Artikel in ihre Themenbereiche, um die Anzahl zu bestimmen. Die nebenstehende Visualisierung zeigt dann einen Überblick: Die Größe der Kreise gibt die Artikelanzahl pro Rubrik wieder. Es wird sichtbar, dass „Panorama“, „Politik“ und „Sport“ zusammen etwa die Hälfte aller veröffentlichten Artikel in dem erfassten Zeitraum von 2014 bis heute waren.

Im Schnitt 100 Artikel pro Tag

Kriesel betrachtet auch die einzelnen Rubriken im Zeitverlauf. Dabei stellt er fest, dass beispielsweise die Wissenschaftsberichterstattung ist in der Tendenz abnehmend ist.

Kriesel zeigt einfache zeitliche Analysen nach Wochentag und Uhrzeit. Das Ergebnis ist erwartbar: Die Häufigkeit der Veröffentlichungen ist wochentags höher als wochenends und über den Tag natürlich nicht gleichverteilt, sondern im Zeitraum von 5 bis 20 Uhr konzentriert. An den Wochenenden erscheinen etwa halb soviel Artikel wie in der Woche.

Spiegel-Online veröffentlicht durchschnittlich siebenhundert Artikel pro Woche, also etwa einhundert Artikel jeden Tag. Kriesel versucht, die Auswertungen der großen gewonnenen Datenmenge möglichst anschaulich visuell darzustellen und quasi „Big Data“ greifbar zu machen. Er erstellt Übersichten und auch riesige Landkarten aus den gesammelten Informationen.

Eine der Landkarte stellt er mit Erläuterung auch zur Verfügung, um weitere Forschung zu ermöglichen. Außerdem forderte er die Zuhörer auf, mit neuen Auswertungsideen gern auf ihn zuzukommen. Kriesel rief dazu auf: „Ideen her!“

Das Jahr in Schlagworten: Geflüchtete, Syrien, Trump

Die Analyse widmet sich auch der Verschlagwortung, die eine inhaltliche Analyse erleichtert. Bei Spiegel-Online werden jeweils durchschnittlich etwa zehn Keywords den Artikeln zugeordnet, die auch mehrere Worte umfassen können. Seit 2016 hat sich die Anzahl der Keywords allerdings verringert, pro Artikel sind es derzeit nur noch etwa fünf.

Die blanken Zahlen sind beeindruckend: Allein 65.000 verschiedene Keywords waren auszuwerten und in Keyword-Graphen einzubauen. Darüber lässt sich auch ermitteln, welche Themen inhaltlich verwandt sind.

Die Tags erlauben zudem einen anschaulichen Überblick über die mediale Agenda. Lässt man die Rubriken, Überbegriffe der Themen und Sport außen vor, waren die am häufigsten verwendeten Schlagworte im Jahr 2016: Geflüchtete (1.887), Syrien (1.280), Donald Trump (1.007), Islamischer Staat (853), Angela Merkel (810), US-Präsidentschaftswahl 2016 (789) und Recep Tayyip Erdogan (634).

Kommentarbereich immer öfter gesperrt

Im Durchschnitt sind etwa 70 Prozent der Spiegel-Online-Artikel kommentierbar. Seit der zunehmenden medialen Aufmerksamkeit für Geflüchtete wird eine Sperrung der Kommentarfunktion von der Redaktion jeweils mit einem kleinen Text begründet.

Ein typisches Beispiel, das Kriesel nennt, ist die Justizberichterstattung. Geht es um Morde, Attentate oder generell um Kriminalität, darf nur selten kommentiert werden. Für andere Themenbereiche, beispielsweise den Brexit oder allgemein bei der Berichterstattung über Großbritannien, sind keine Kommentarsperrungen üblich. Generell zeigt aber die zeitliche Entwicklung, dass die Kommentierbarkeit in der Tendenz eher abnimmt.

Bei welchen Themen ein Kommentar erlaubt bleibt, ist durchaus ein Politikum, wie Kriesel an vielen Beispielen zeigt. Etwa zu Fragen des Nahostkonflikts und zu Israel sind so gut wie alle Artikel mit Kommentarsperrungen versehen. Wenn es beispielsweise um Frankreich geht, waren Kommentare so lange erlaubt, bis es zu dem Anschlag in Paris kam: Ab November 2015 wurden dann die meisten Frankreich-Artikel unkommentierbar.

Kriesel hat weitere solcher Beispiele analysiert, die auch zeigen, bei welchen Themen Kommentarsperrungen gerade nicht erfolgen. Wer dazu mehr wissen will und sich gleichzeitig über das Auswerten und die Visualisierung großer Datenmengen informieren möchte, sollte sich den Vortrag ansehen.