Nun sag, wie hast du’s mit der Statistik?
Die Gretchenfrage der Wissenschaft

Trump hat das postfaktuelle Zeitalter eingeläutet. Klimaleugner, «Fake news» und «alternative Fakten» waren Begriffe, die gleichbedeutend mit Aluhütchen und Verschwörungstheorien waren. Heute ist Trump Präsident, eine Diskussion über die amerikanische Politik ist ohne dieses Vokabular undenkbar und wissenschaftliche Fakten sind debattierbar. Und das ist gut so, denn der Skeptizismus fordert Forschende auf, sich aktiv am politischen Gespräch zu beteiligen, um Forschungsergebnisse korrekt darzustellen. Zudem hinterfragt der populäre Wissenschaftsskeptizismus meist nicht den Wahrheitsgehalt eines Befunds, sondern ob der Quelle vertraut werden kann und somit die Schlussfolgerungen korrekt sind.
Von Colin Simon
Lektoriert von Marie Reinecke und Lisa Makowski
Illustriert von Selina Landolt
Politiker sind geneigt, der eigenen Partei zu vertrauen und allen anderen zu misstrauen. Für uns Wissenschaftler ist es eine Frage der Statistik. Dabei gibt es zwei Fragen, die wir beantworten müssen: Vertrauen wir unseren Statistikkenntnissen genug, um Fehler bei anderen zu entdecken? Oder vertrauen wir anderen Forschen genug, ihre Daten sorgsam zu erheben und schlüssige Statistik zu betreiben? Die erste Frage wird zumindest in der Psychologie sehr direkt adressiert, zum Studium der Psychologie gehört eine saftige Portion Statistik. Aber die zweite Frage ist schwer zu beantworten, denn wie ehrlich Wissenschaft betrieben wird, weiss nur der Forschende selbst. Forschungsergebnisse können also nur so sicher sein, wie die eigenen Statistikkenntnisse und die Ehrlichkeit des Forschenden.
«Vertrau keiner Statistik, die du nicht selbst gefälscht hast», Deutsche Rundschau, 1946
Ein Problem ist dabei, dass Statistik nicht intuitiv ist, wie zum Beispiel das Geburtstagsparadox klarmacht (Hemmerich, o. D.). Wie kann man intuitiv erklären, dass in einem Raum mit 23 Menschen die Wahrscheinlichkeit, dass sich zwei ein Geburtsdatum teilen, höher als 50 Prozent liegt? Ein anderes Beispiel ist das Monty-Hall-Dilemma, wo ein Spieler sich zwischen drei Türen entscheiden muss, von denen eine zum Erfolg und die anderen zu Ziegen führen (Pachhai, 2018). Nach der ersten Wahl öffnet der Moderator eine Ziegentür. Der Spieler erhält daraufhin die Möglichkeit, die gewählte Tür zu ändern. Verbleibt der Spieler auf seiner Wahl, ist seine Gewinnchance 1/3, wählt er die neue Tür steigt sie auf 2/3. Besonders das Monty-Hall-Dilemma löste eine grosse Debatte aus. Das ist nicht weiter verwunderlich, denn jedes Forschungsgebiet wird abstrakt und nicht mehr intuitiv, wenn man genug ins Detail geht. Man darf es also Laien nicht vorwerfen, sollten sie nicht so gewieft sein mit der Statistik wie Forschende.
Experten der Statistik?
Wenn es also um die Interpretation von Statistiken geht, sollte man sich auf das Urteil der Experten verlassen können. Nur sind die Experten, in diesem Falle Forschende, sich selten einig, was denn gute Statistik überhaupt ist. Dabei ist weniger die Frage was gute Statistik ausmacht, sondern eher die Frage, wo gute Statistik aufhört.
Bei der Eröffnungskonferenz des Centers for Reproducible Science (CRS) der Universität Zürich letzten September war man sich zwar einig, dass der p-Wert nicht mehr dem Stand der Wissenschaft entspricht, was ihn allerdings ersetzen soll ist unklar. Benjamin, Berger, Johanesson, Nosek, Wagenmakers und Tingley (2018) haben drei Vorschläge vorgestellt. Der erste ist, den p-Wert für neue Entdeckungen von 0.05 auf 0.005 zu senken. Das hat den Vorteil, dass ein Werkzeug gebraucht wird, das alle kennen und verstehen. Der Nachteil ist, dass immer noch der p-Wert gebraucht wird. Der p-Wert ist problematisch, weil sich Forscher stark darauf konzentrieren und andere statistische Aspekte vernachlässigen, wie beispielsweise die Power eines statistischen Tests (Benjamin et al., 2018). Die Aussagekraft des p-Werts wird zum Teil missverstanden, was zu Fehlaussagen führt.
Der zweite Vorschlag ist, den Bayes Faktor zu berichten, denn der p-Wert sagt lediglich, wie wahrscheinlich die Datenverteilung unter Annahme der Nullhypothese ist (Benjamin et al., 2018). Der Bayes Faktor sagt hingegen, wie viel wahrscheinlicher die Datenverteilung unter der neuen Hypothese im Vergleich zur Nullhypothese ist. Der Faktor löst das Problem der vielen falsch-positiven Resultate nicht. Das sind Studienergebnisse, die durch Zufall oder Manipulation signifikant sind, ohne dass ein Effekt dahintersteckt.
Der dritte Vorschlag löst das Problem der Falschpositivität, indem man Studienergebnisse (z. B. den Bayes Faktor) mit der Wahrscheinlichkeit multipliziert, mit der reproduzierbare Ergebnisse im jeweiligen Forschungsfeld zu finden sind. Für die Psychologie sind zwischen 62 (Camerer et al., 2018)und 24 Prozent (Benjamin et al., 2018). Das ist ein Problem, das nicht nur die Psychologie betrifft. Fast alle Forschungszweige sind betroffen, wie Malcom MacLeod in seinem Vortrag zur Eröffnung des CRS erklärte.
In der Biologie und Medizin werden Tierversuche streng reguliert. Das führt zu multiplen Experimenten mit kleinen Stichproben, die nicht aussagekräftig sind. Die Stichprobengrösse ist allerdings nicht das einzige Problem, das Forschende plagt. Auch HARKing, p-Hacking und der Publication Bias machen ihnen zu schaffen, erklärte Malcolm MacLeod. p-Hacking kann auch ohne Absicht passieren, deswegen präsentierte Marjane Bakker von der Tilburg Universität eine Liste von Handlungen die p-Hacking ausmachen (Bakker, van Dijk, & Wicherts, 2012). Das Team der niederländischen Universität hat zudem auf http://statcheck.io/ ein Hilfsmittel veröffentlicht, das statistische Werte überprüft. Der Aufwand bringt aber natürlich wenig, wenn wir erst im Nachhinein unsere Hypothesen festlegen.
Eine Möglichkeit dies zu umgehen bietet das Open Science Framework, es hilft Forschenden ihre Studien besser zu dokumentieren und zu teilen. Ein Vorteil von guter und öffentlicher Dokumentation ist, dass HARKing verhindert werden kann, indem man die Hypothesen formuliert und veröffentlicht, bevor das Experiment beginnt. Ein ähnliches Vorgehen bieten gewisse Journals an: Man kann den Theorie- und Methodenteil einschicken, bevor die Datenerhebung anfangen. Wird die Studie akzeptiert, wird beim Peer-review nur noch überprüft, ob man sich an den Methodenteil gehalten hat und somit wird die Studie zur Publikation akzeptiert. Um Open Science zu stärken, führt das Quest Center Berlin eine Liste der Open Science positiv gesinnten Journals und bewertet diese nach verschiedenen Aspekten.
Als Psychologen sind wir an einer interessanten Schnittstelle: Unser Untersuchungsobjekt ist genug kompliziert und die Effektgrössen klein genug, dass wir für gute Studien viel methodisches und statistisches Wissen brauchen. Diese Kenntnisse haben wir vielen anderen Forschungsfelder voraus, eine Qualität, die wir wahren sollten. Mit diesen Instrumenten ausgerüstet, sollten wir stärker für replizierbare Wissenschaft einstehen, und auch stärker in nicht wissenschaftlichen Kreisen die Errungenschaften der Wissenschaft propagieren. Erst wenn Effekte wiederholt auftreten, wird für alle klar, was Fake Science ist und was nicht.
HARKing:Steht für Hypothesizing After Results are Known. Das erhöht die Chance, einen Effekt durch statistischen Zufall zu finden und verzerrt Interpretationen.
p-Hacking: Wenn Forschende ihre Daten so lange zurechtbiegen, bis ein signifikantes Ergebnis herauskommt. Zum Beispiel in einem Datensatz die Ausreisser so zu bestimmen, dass ein Effekt entsteht.
Publication Bias: Signifikante Resultate werden häufiger publiziert als nicht signifikante.
Zum Weiterlesen
Bakker, M., van Dijk, A., & Wicherts, J. M. (2012). The Rules of the Game Called Psychological Science. Perspectives on Psychological Science, 7(6), 543–554. doi: 10.1177/1745691612459060
Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E., & Tingley, D. (2018). Redefine Statistical Significance. Nature Human Behaviour, 2(1), 6. doi: 10.17605/OSF.IO/MKY9J
Quest Center. (2019). Open Access Journal Whitelist. Abgerufen am 01. Februar 2019 von http://s-quest.bihealth.org:3838/OAWhitelist/
Literatur
Camerer, C. F., Dreber, A., Holzmeister, F., Ho, T.-H., Huber, J., Johannesson, M., … Wu, H. (2018). Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour, 2. doi: 10.1038/s41562-018-0399-z
Hemmerich, W.A. (o. D.). Geburtstagsproblem. Abgerufen am 01. Februar 2019 von https://matheguru.com/stochastik/geburtstagsproblem.html
Pachhai, S. (2018). Monty Hall Problem using Python. Abgerufen am 01. Februar 2019 von https://towardsdatascience.com/monty-hall-problem-using-python-ccd5aadc5921