Zuerst erschienen auf WIRED.de

Die Forscher hatten vorhandenes Datenmaterial nachanalysiert und dabei festgestellt, dass die gängigsten Programme sehr viele sogenannte falsche Positive generiert haben – also Aktivität im Gehirn feststellten, wo gar keine war.

Das Problem klingt banal, hat aber weitreichende Auswirkungen. Denn bei einer Magnetresonanztomographie (MRT) wird nicht einfach ein Bild des Gehirns aufgenommen. Um von einer magnetischen Resonanzaufnahme Rückschlüsse auf das zu schließen, was in dem Gehirn gerade vorgeht (Glück? Trauer? Der Versuch einzuparken?), müssen die Daten interpretiert werden – und das übernimmt eine Software.

Das Gehirn wird dazu in so genannte Voxels eingeteilt, die dreidimensionale Entsprechung eines Pixels, also eines Bildpunktes. Diese Voxels werden dann von einer Statistik-Software zu einem Gesamtbild verarbeitet.

Wenn Hirnforscher uns später Erkenntnisse vorstellen, wie etwa „Die Gehirne von Männern und Frauen sind gar nicht so unterschiedlich wie man annahm!“, dann berufen sie sich auf diese Bilder. Also auf das, was ihre Analyse-Software ausgespuckt hat.

+++ Mehr von WIRED regelmäßig ins Postfach? Hier für den Newsletter anmelden +++

Wenn sich jetzt herausstellen sollte, dass wichtige Programme, die bei dieser Analyse eingesetzt worden sind, seit 20 Jahren falsche Ergebnisse liefern, dann wirft das, gelinde gesagt, einen Schatten auf die Qualität der bisherigen Untersuchungen (schätzungsweise 40.000 Studien, schreiben die Autoren). Oder anders gesagt: Das ist eine neurowissenschaftliche Vollkatastrophe.

Genau das behaupten die drei Autoren des Ende Juni im Online-Journal PNAS veröffentlichten Papers: Um die Fehlerquote der drei gängigen verwendeten Software-Pakete zu überprüfen, werteten sie die MRT-Daten von 499 gesunden Kontrollpersonen im Ruhezustand aus. Aus diesem Pool generierten sie per Zufall zwei Kontrollgruppe und verglichen sie miteinander.

Die Null-Hypothese wäre in diesem Fall, dass die Gehirnaktivität der beiden Gruppen nicht voneinander abweichen sollte. Stattdessen, so schreiben die Forscher, haben die verwendeten Programme bis zu 70 Prozent falsche Positive festgestellt, also Ereignisse erkannt, wo keine stattfanden. „Theoretisch sollten wir fünf Prozent falsche Positive finden“, schreiben die Forscher.

Möglich wurde die Überprüfung der statistischen Methoden, weil die Wissenschaftler auf offene Daten aus der neurowissenschaftliche Community zurückgreifen konnten. Die Bereitschaft, zu archivieren und zu teilen, scheint allerdings nicht besonders groß zu sein. Am Ende ihrer Analyse kritisieren die Forscher, dass zu wenige der veröffentlichten Studien neben ihren Ergebnissen auch ihr Datenmaterial offenlegen. Auch werde das Material nicht archiviert.

Da „keine Analysemethode perfekt“ sei und in der Zukunft vermutlich weitere Fehler im Verfahren entdeckt werden, sei das aber unabdingbar. Nicht nur, um die Methoden kritisch überprüfen zu können, wie es jetzt geschah. Sondern auch, um die wissenschaftlichen Ergebnisse auch Jahre später nachprüfen zu können – mit den dann neuen, verbesserten Methoden. Für die meisten der 40.000 bisherigen Untersuchungen kommt diese Warnung aber ohnehin zu spät: Die Originaldaten sind nicht mehr vorhanden.