Big Data

Von Sibylle Anderl

- 09:00

Welche Parameter bestimmen den Erfolg von Nachwuchswissenschaftlern? Die „Science of Science“ sucht nach Antworten. Bild: ZB

Auf der Grundlage ungeheurer Datenmengen wird heute Forschung selbst zum empirischen Forschungsobjekt gemacht. Doch wie vorhersagbar ist Wissenschaft?

Wer wüsste nicht gerne, wann wir mit dem nächsten großen wissenschaftlichen Durchbruch zu rechnen haben? Welcher Wissenschaftler das Potential für revolutionäre Ideen mitbringt und welcher nicht? Wie die Milliarden Forschungsgelder so verteilt werden können, dass sie optimalen Nutzen erzielen können? Antworten auf diese und ähnliche Fragen erfordern ein tiefes Verständnis derjenigen sozialen, politischen, wirtschaftlichen und erkenntnistheoretischen Prozesse, die den Wissenschaftsbetrieb prägen und bestimmen. Generationen von Wissenschaftshistorikern, -soziologen und -philosophen haben aus verschiedenen Perspektiven zu diesem Verständnis beigetragen.

All diese reflektierenden Tätigkeiten sind allerdings nicht gemeint, wenn heute zunehmend die Rede ist von der vergleichsweise jungen Disziplin der „Science of Science“ – der Wissenschaft der Wissenschaften –, die uns helfen soll, Fragen wie die eingangs genannten zu beantworten. Diese Forschungsrichtung, der in der Zeitschrift „Science“ Anfang dieses Monats ein umfangreicher Überblicksartikel gewidmet war, teilt gleichwohl viele ihrer Themen und Ziele mit ihren älteren geistes- und sozialwissenschaftlichen Schwestern. Insbesondere versucht sie, die Struktur und Entwicklung der Wissenschaft zu verstehen, so die Autoren um Santo Fortunato von der Universität Indiana. Das neue Wissen könne als Grundlage dafür dienen, Werkzeuge und Strategien zur Verbesserung und Beschleunigung wissenschaftlicher Forschung zu entwickeln, um damit schließlich auch gesellschaftliche Probleme effizienter zu lösen.

Die Wissenschaft als Datenfabrik

Der entscheidende Unterschied, der die „Science of Science“, kurz „SciSci“, gegenüber den traditionellen Disziplinen auszeichnet, ist ihre datenbasierte Arbeitsweise. Durch die heute weit fortgeschrittene Digitalisierung wissenschaftlicher Veröffentlichungen und ihre zumindest teilweise freie Verfügbarkeit in umfangreichen Datenbanken wie Scopus, PubMed, Jstor oder Google Scholar ist der Zugriff auf Millionen von „Datenpunkten“ wissenschaftlicher Produktivität möglich geworden, die ein komplexes Netzwerk von Wissenschaftlern, Projekten und Ideen offenlegen. Auf dieser Grundlage können transdiziplinär auf Big Data beruhende Analysewerkzeuge entwickelt werden, die Muster innerhalb dieses Netzwerkes aufspüren und zur Diskussion stellen können.

Die grundsätzliche Idee dazu entstand freilich bereits lange vor dem Siegeszug von „Big Data“. Als Vater der „Wissenschaft der Wissenschaft“ gilt der Physiker und Wissenschaftshistoriker Derek de Solla Price, der Anfang der 1960er Jahre die erste quantitative Analyse wissenschaftlicher Publikationstätigkeit durchführte und dabei unter anderem fand, dass die Anzahl wissenschaftlicher Zeitschriften und Veröffentlichungen im Laufe der Zeit exponentiell wächst. Im Vorwort zu seinem 1963 erschienenen Buch „Little Science, Big Science“ beschreibt er die Grundidee seiner Herangehensweise: „Warum sollten wir nicht die Werkzeuge der Wissenschaft auf die Wissenschaft selbst anwenden? Warum nicht messen und verallgemeinern, Hypothesen aufstellen und Schlüsse ziehen?“ Price musste dafür noch auf von Menschen mühevoll zusammengetragene Daten zurückgreifen, wie beispielsweise auf die vom Mathematiker Thomas Muir zwischen 1906 und 1930 erstellte Auflistung aller mathematischen Veröffentlichungen im 18. und 19. Jahrhundert, die sich mit Muirs eigenen Forschungsfeld, dem Konzept der Determinante, beschäftigt hatten. Von den heutigen Möglichkeiten des problemlosen Zugriffs auf umfangreiche Datenquellen konnte Price freilich nur träumen.

Publikationsdatenbanken mit ihren vielfältigen internen Quervernetzungen und reichhaltigen Metainformationen erlauben heute nicht nur eine erheblich präzisere Zählung der Publikationen in verschiedenen Feldern, sondern anhand von Textanalyse auch gewisse inhaltliche Schlüsse. Der Informatiker Staša Milojevic etwa wertete 2015 Ausschnitte aus 20 Millionen Veröffentlichungen der Physik, Astronomie und Biomedizin in Hinsicht auf die darin verwendeten Begriffe aus. Seine Analyse zeigt: Anders als das Wachstum der Publikationszahlen wächst der begriffliche, „kognitive“ Rahmen sehr viel schwächer, nämlich linear. Studien ähnlicher Art ermöglichen es auch, die Entstehung neuer Gebiete und ganze Begriffsgeschichten nachzuvollziehen. Christian Vincenot von der Universität Kyoto konnte so beispielsweise in einer aktuellen Arbeit verfolgen, wie eine bestimmte Methode – die agentenbasierte Modellierung komplexer Systeme – unter verschiedenem Namen sowohl in den Natur- als auch in den Sozial- und Ingenieurswissenschaften genutzt wurde, und wie sich erst allmählich das Wissen über die Arbeiten der jeweils anderen Community durchsetzte.

Werden bessere Artikel öfter zitiert?

Wissenschaftspolitisch interessant sind aber insbesondere diejenigen datenbasierten Untersuchungen, die etwas über den Erfolg und die zukünftige Entwicklung von Wissenschaft auszusagen versuchen. Viele Studien widmen sich dabei der Sichtbarkeit von Forschungsergebnissen – ausgedrückt darin, wie oft die jeweiligen Arbeiten zitiert werden. Diese Zahl spielt für die wissenschaftsinterne Bewertung von Forschung schon länger eine außergewöhnlich große Rolle. Bereits de Solla Price beschrieb aber, dass diese Kennzahl keineswegs nur vom wissenschaftlichen Inhalt bestimmt wird. Tatsächlich gibt es hier einen positiven Verstärkungseffekt, der auch durch zufällige Anfangsimpulse in Gang gesetzt werden kann: Oft zitierte Artikel werden als wichtig angesehen und daraufhin noch mehr zitiert. Gleichzeitig gibt es aber auch das Phänomen der „schlafenden Schönheiten“ – Artikel, deren Relevanz erst lange nach dem Zeitpunkt ihrer Veröffentlichung erkannt wird. Während solche „Spätzünder“ datenbasiert unvorhersagbar sind, lässt sich die Zitationsdynamik von Veröffentlichungen im Allgemeinen erstaunlich gut prognostizieren. So weisen Studien beispielsweise darauf hin, dass die Kombination bisher unverbundener Ideen und Ergebnisse, die bestimmte Erwartungen entkräften, besondere Wirkung besitzen. Auch Veröffentlichungen großer Gruppen von Forschern werden stärker zitiert als die Forschung einzelner.

Deutlich schwieriger gestaltet sich die Vorhersage des Erfolgs individueller Wissenschaftler – nicht nur aufgrund der schlechteren Verfügbarkeit von Daten, die Aufschluss über Karriereverläufe, Stipendien, Projektfinanzierungen, aber auch Teamkommunikation und gescheiterte Projekte geben, sondern auch, da davon auszugehen ist, dass grundsätzlich nicht messbare Faktoren eine wichtige Rolle spielen. Unabhängig davon können datenbasiert aber interessante Aussagen über herrschende Bias-Effekte in der Forschung oder allgemeine Eigenschaften wissenschaftlicher Karrieren, wie den zeitlichen Verlauf der Produktivität, gemacht werden.

Solche Befunde können Anlass für fruchtbare Diskussionen und Analysen sein. Für eine wissenschaftspolitische Anwendung ist allerdings eines im Auge zu behalten: dass der Schluss von aufgespürten Korrelationen auf Ursache-Wirkung-Beziehungen alles andere als trivial sein kann – insbesondere auch aufgrund der zahlreichen im System enthaltenen selbstverstärkenden Schleifen, die beispielsweise Förderung und Erfolg wechselseitig kurzschließen. Dadurch werden nicht nur selbsterfüllende Prophezeiungen erzeugt, es droht auch die Ausbremsung von Innovation und die Verstärkung bestehender Ungleichheiten. Wissenschaftler um Aaron Clauset regten daher 2017 in einem Übersichtsartikel in „Science“ an, der datenbasierten Methode kontrollierte Experimente zur Seite zu stellen, um kausalen Mechanismen auf die Spur zu kommen. Das Ziel solle dabei schließlich sein, die mächtige Methode der „Science of Science“ zur gezielten Erzeugung eines „gesunden Ökosystems von Wissenschaftlern“ zu nutzen.

Mehr zum Thema

Ob das so gelingen kann? „Mit Sicherheit werden wir einige kostbare Dollar verschwenden. Was aber unendlich wichtiger ist, dass wir den menschlichen Geist seiner Fesseln berauben werden und ihm die Freiheit für Abenteuer gewähren“, hatte Abraham Flexner, Gründungsvater des für seine Innovationskraft bekannten Institute for Advanced Study in Princeton, 1939 in seinem wegweisenden Aufsatz „The Usefulness of Useless Knowledge“ appelliert. Ein Appell, der sich heute wie ein Aufruf gegen jede erfolgsorientierte Form von Metrisierung der Forschung lesen lässt. Es wird sich zeigen, inwiefern der Ansatz der „Science of Science“ mit der Schaffung derjenigen Bedingungen, die solche Freiheit ermöglichen, in Konflikt steht.