czwartek, 10 września 2015

Crisis on Infinite Theories

ResearchBlogging.orgWTEM! Wszystkie badania psychologiczne są nieprawdziwe a miejsce podręczników do psychologii jest w koszu (koniecznie z makulaturą, można też przekazać mi)! Ponieważ już za miesiąc wracam do studentów, którzy zdecydowali się poświęcić najpiękniejsze lata swojego życia na zgłębianie tej dziedziny wiedzy, powinienem mieć w zanadrzu kilka odpowiedzi. Choćby na potrzeby swojego spokoju ducha ponieważ ja te lata mam już za sobą. Poza tym, obiecałem kilku osobom, że coś w końcu napiszę. Dla przypomnienia:

U mnie działa


Zespół ponad 270 badaczy z całego świata, kierowany przez Briana Noseka z University of Virginia od 2011 r., przeprowadził Reproductibility Project: Psychology, Wielką Replikację - szeroko zakrojony projekt mający na celu powtórne uzyskanie wyników 100 badań opublikowanych w trzech wiodących czasopismach naukowych z dziedziny psychologii. Jedną z kluczowych idei w nauce jest bowiem replikowalność badań - wyniki uzyskiwane przez jednych badaczy powinny być powtarzalne jeśli podobne doświadczenie przeprowadzi inny zespół w takich samych warunkach. Jest to o tyle ważne, że dzięki temu wiemy np., że woda nie ma pamięci, mimo, że niektórym tak wychodziło a do zimnej fuzji wciąż jeszcze długa droga, choć niektórzy myślieli, że już tam są. Swego czasu opublikowano też na przykład sfabrykowane badania wykazujące nieistniejący związek między pewnymi składnikiem szczepionek a pojawianiem się u dzieci autyzmu. Tezę tę dawno już zweryfikowano negatywnie ale problem pozostał a nawet narasta.

Przykłady te pochodzą z nauk ścisłych, gdzie wyniki są powtarzalne w dość wysokim stopniu. Pamięć wody nie zależy od polityki historycznej danego państwa (choć np., naukowcom chińskim częściej udaje się wykazać, że akupunktura działa, tu mówimy jednak o badaniu czegś znacznie bardziej subiektywnego - ludzkiego samopoczucia). Oczywiście w psychologii nie ma mowy o tak klarownej sytuacji. Podstawowy obiekt zainteresowania psychologów jest bardzo niewdzięczny jeśli chodzi o powtarzalność badań. Nie od dziś wiemy, że typowy obiekt badawczy psychologii - larwalne stadium psychologa zwane ZWUBLem (z ang. WEIRD) jest absolutnie atypowym przedstawicielem ludzkości. Studenci psychologii różnią się od reszty ludzkości (everyman to 28-letni mężczyzna z Chin) tak bardzo jak to tylko możliwe, co psychologowie wykazali już dawno temu (Henrich, Heine, Norenzayan, 2010). W zachowaniach społecznych człowieka - a m.in. te bada psychologia - ogromną rolę odgrywa np. kultura, w której dany człowiek wzrasta, na wyniki badań wpływ zaś np. to, czego spodziewa się po badaniu. Kiedy z kolei pytamy osoby badane o to, jak zachowałyby się w danej sytuacji, w zasadzie nie mamy co liczyć na wiarygodną odpowiedź. Z jednej strony wykazano, że w dużej liczbie sytuacji jesteśmy zupełnie ślepi na czynniki, które wpływają na nasze decyzje, z drugiej strony, kwestionariusze samoopisowe nie pozwalają na szczególnie skuteczne przewidywanie zachowania.

Wielka Replikacja (lub jej brak)


Ku zaskoczeniu nikogo, zreplikować udało się niewielki odsetek badań. Raptem 35 z nich powtórzono z wynikiem wskazującym na podobną istotność statystyczną wyniku jak za pierwszym razem. Test istotności statystycznej pozwala na oszacowanie prawdopodobieństwa uzyskania podobnych zależności w sytuacji, gdyby wynik był dziełem przypadku. W naukach społecznych uznaje się, że wartością graniczną od której mówimy o akceptowalnym prawdopodobieństwie jest 0,05 (i mniej). Mówimy więc o szansy 1 na 20 że stwierdzamy istnie zależności, której nie ma. Jeśli zbadamy dostatecznie dużą liczbę hipotez, by dało się znaleźć wśród nich dwadzieścia błędnych, przyanajmniej jedna z nich nie zostanie wyłapana. Wykazywano już wielokrotnie, że podobny wynik można podkręcić, odpowiednio dzieląc grupy, które porównujemy lub wyłączając z badania osoby których wyniki uznajemy za zbyt odstające. Świadomie lub nie, można w ten sposób uzyskać wyniki zgodne z naszymi oczekiwaniami. Na przykład to, że ludzie, których losowo przydzieliliśmy do dwóch grup byli młodsi jeśli później wysłuchali When I'm Sixty Four Beatlesów. Trzeba również odróżnić istotność statystyczną od siły efektu. Istotne statystycznie wyniki nie oznaczają silnych zależności i związków, te mierzy się w inny sposób.

Sprawa nie jest do końca jasna - możliwe, że prawdziwym
powodem jest żywność organiczna. Źródło.
Warto zauważyć, że od dłuższego czasu w psychologii mówi się o tym, że nie jest to szczególnie skuteczna metoda. Szczególnie jeśli jest stosowana bezmyślnie w wypadku korelacji. Jeśli dobrze pogrzebać w danych, można uzyskać piękny wykres pokazujący nieistniejące zależności.

Nie oznacza to oczywiście, że pierwotne wyniki zostały sfałszowane. Istnieją różne powody, dla których nie udało się ich potwierdzić. Mógł to być wynik przypadku, poza prawdopodobieństwem popełnienia błędów pierwszego rodzaju (fałszywie pozytywnych) jest też szansa popełnienia błędu drugiego rodzaju (fałszywie negatywnych). Przyczyną mogły być też drobne różnice w planie badań czy okolicznościach (ważne wydarzenia, które miały wpływ na jedną społeczność a na inną nie). Wreszcie, pierwotne badanie mogło być już na wstępie owym fałszywym pozytywem. Odsetek niezreplikowanych badań jest jednak zbyt duży, by zignorować wyniki badania.

Co się właściwie stało?


Bąki psychologii. Wykresy pokazujące rozkład wartości p (istotność statysyczna) (B) i rozkład wartości siły efektu (B). W pierwotnych badaniach większość wartości p mieściła się poniżej ulubionej przez badaczy wartości granicznej 0,05. Wyników nieistotnych statystycznie prawie nie było. Pierwotne badania pokazywały też silniejsze efekty niż replikacje. Źródło
Ze pierwotnych badań aż 79% osiągnęło istotność statystyczną. W replikacji dotyczyło to tylko 36%. "Zbiorczy" efekt wszystkich wyników replikacji był o połowę mniejszy niż zbiorczy wynik pierwotnych badań. Analiza korelacji różnych czynników związanych z badaniami pozwala przypuszczać, że lepiej replikowały się te badania, które na starcie miały silniejszy efekt. Innymi słowy, czynniki zewnętrzne (np. doświadczenie zespołu badawczego) miały mniejsze znaczenie.

Psychologia (i nie tylko) jest w "kryzysie" nie od dziś i nie tylko z tego powodu


Wielu Czytelników i Czytelniczek bloga pamięta pewni aferę wywołaną przez Diederika Stapela. Okazało się, że ten uznany w swojej dziedzinie badacz przez wiele lat fabrykował dane i publikował wyniki nigdy nie przeprowadzonych badań w czołowych czasopismach. Sprawa przetoczyła się jak burza przez środowisko psychologów społecznych i nie tylko, poważnie podkopując zaufanie do badań w tej dziedzinie. Wycofanych zostało 55 artykułów z najbardziej prestiżowych czasopism. Stapel dobrowolnie poddał się karze, skutkiem czego konsekwencje, które go spotkały były dość łagodne. Oczywiście napisał ksiązkę. Unaocznił jednak dość istotny problem - mechanizm peer review stanowiący jeden z fundamentów współczesnej nauki, przez wiele lat nie zdołał wykryć działalności sprytnego oszustwa. A przecież, jeśli wierzyć psychologii ewolucyjnej, mamy być na to szczególnie wyczuleni! Głos w sprawie zabrał nawet Daniel Kahneman, jeden z pionierów ekonomii behawioralnej, pisząc list otwarty do badaczy zajmujących się social priming, czyli dziedziną, którą zajmował się Stapel. Chodzi tu o badanie subtelnego wpływu jaki zewnętrzne czynniki mają na nasze myśli i zachowanie. Efekty te mają pozostawać poza naszą świadomością, będąc ledwie uchwytnymi. Wydaje się, że szczególnie łatwo tu o fałszywe pozytywy. Stapelowi udało się "wykazać" np. że ludzie nieświadomie zwalniają kroku jeśli posłuchają muzyki przywodzącej na myśli podeszły wiek (skojarzenia ze wspomnianym na początku badaniem zapewne uzasadnione).

Hierarchia nauk jest już oficjalna. Pewne dziedziny
mają większe problemy z przejrzystością (choć mają
 je wszystkie) - im bardziej miękka nauka tym więcej
uzyskuje podejrzanie pozytywnych wyników
 CC BY 3.0 Daniele Fanelli, źródło
Oczywiście tego typu wpadki zdarzały się też innym dziedzinom nauki. Zasadniczo bardziej znane są oszustwa z dziedziny nauk biomedycznych (pamiętacie doniesienia o sklonowaniu człowieka?) i fizyki. Niedawno przeprowadzona analiza, oparta o bazę publikacji okołomedycznych PubMed, wykazała ponad 800 prac wycofanych w latach 1973-2012 z powodu oszustwa. A zakrojona na nieco mniejszą skalę próba replikacji badań nad lekami pozwoliła na replikację tylko ok. 25% wyników.

W międzyczasie okazało się jeszcze, że w porównaniu z innymi dziedzinami nauki, psychologia ma podejrzanie dużo pozytywnych wyników. Co oznacza, że jest duża szansa, że te negatywne - szczególnie istotne - są zamiatane pod dywan; niekoniecznie z premedytacją ale w wyniku odmowy ich publikacji przez redakcje czasopism. W 2011 roku sprytnie wykazano również jak łatwo jest osiągnąć wynik fałszywie pozytywny nie robiąc niczego z definicji złego, o czym pisałem na początku. W każdym badaniu dokonuje się wyborów dotyczących doboru próby, podziału grup i wyłączania pewnych osób, co nie pozostaje bez wpływu na uzyskane wyniki.

Wreszcie, już w 2005 roku zwracano uwagę, że pewne mniej lub bardziej powszechne braki metodologiczne mogą powodować, że teoretycznie większość opublikowanych pozytywnych wyników badań może być fałszywa. Przyczyniają się do tego małe próby, małe wielkości efektów (wskazujące na to, jak duże są dane różnice w kontekście zmienności danych cech w danej próbie) ale też i finansowe zyski płynące z uzyskania pozytywnych wyników lub nośność danego tematu. To oczywiście nie koniec problemów z psychologią. Można o nich pisać rozprawy doktorskie (co Łukasz Budzicz, mój kolega z instytutu, zresztą zrobił*). Świetne książki pisze o tym również Tomasz Witkowski.

Nauka at its best

Cygnus atratus - oto i twoja refutacja. CC BY 3.0 Kiril Krastev

Co dalej z tą psychologią? W pewnym sensie, porażka Wielkiej Replikacji stanowi przejaw zdrowego działania mechanizmów korygujących nauki (szkoda, że mówimy o odosobnionej inicjatywie). Warto pamiętać, że w filozofii nauki przyjmuje się, że każdy wynik badania może posłużyć jedynie do uprawdopodobnienia danej hipotezy. Nigdy zaś nie może stanowić jej definitywnego potwierdzenia, o czym dobitnie mówił nam Karl Popper. Ten austriacki filozof wskazał na pewną asymetrię pomiędzy potwierdzaniem a falsyfikowaniem (wykazywaniem sprzeczności z rzeczywistością) dowolnego twierdzenia. Logicznie rzecz biorąc, nigdy nie uzyskamy dostatecznej liczby potwierdzeń dla danej hipotezy, żeby można o niej mówić, że jest na pewno prawdziwa. Choć jako ludzie mamy tendencję do preferowania potwierdzeń naszych przekonań, warto pamiętać, że wystarczy jedna ich refutacja, żeby stojąca za nimi hipoteza okazała się fałszywa. Jak w klasycznym przykładzie - może i wszystkie łabędzie, które widzieliśmy są białe ale to nie znaczy, że jest tak na całym świecie. Każda prawda nauki jest w pewnym sensie najmniejszym złem, najlepszym możliwym na daną chwilę przybliżeniem. Naszym, jako naukowców (nastoletni Michał miałby wypieki na twarzy wiedząc, że kiedyś napisze te słowa), zadaniem jest w pewnym sensie właśnie mozolne weryfikowanie wcześniejszych ustaleń w celu odsiewania ziaren od plew. Dopiero, kiedy dany efekt uda się osiągnąć wielokrotnie (przy odtworzeniu pierwotnych warunków), można mówić o wysokim prawdopodobieństwie danej hipotezy.

Dopiero duża próba pozwoli nam uzyskać wnioskować z dużym prawdopodobieństwem uniknięcia błędu (ale nigdy pewnością!). Jeśli na podstawie kilku przedstawicieli danej kategorii wnioskuję o całości grupy, łatwo o pomyłkę. Podobny błąd popełniają osoby wieszczące koniec globalnego ocieplenia na podstawie łagodnej zimy lub chłodnego lata. Pamiętacie ich jeszcze?

Warto zauważyć również, że samej publikacji towarzyszy ogromna ilość materiałów uzupełniających (których istnienie samo w sobie nie jest dziwne, często towarzyszą publikacjom naukowym), stanowiących techniczne "mięso" "tofu" publikacji. Autorzy stosują się do standardów, które sami testują i umożliwili pełną replikację swojego badania, łącznie z udostępnieniem danych surowych (gdzie można zobaczyć listę sprawdzanych publikacji) i skryptu służącego do policzenia wyników. Staje się to coraz powszechniejszą praktyką i umożliwia pełne realizowanie powtarzalności wyników. Dzięki temu każdy zespół badawczy na świecie może poprosić dyrektora swojego instytutu o trochę pieniędzy na papier ksero i upominki dla uczestników badań, celem podjęcia próby powtórzenia (lub nie) uzyskanych przez kogoś wyników.

Reasumując, próby replikacji stanowią fundament działania nauki jako procesu uzyskiwania jak najdokładniejszego przybliżenia rzeczywistości (a przecież mamy te całe mosty, które się nie zawalają, jesteśmy w stanie trafić lądownikiem w kometę, prawie wyeliminowaliśmy już kilka chorób, przywracamy słuch i z telefonu komórkowego mamy dostęp do całej wiedzy na świecie. Porażki replikacji są nam niezbędne byśmy wiedzieli lepiej. Jak w tym żarcie z neutrino**.

Co nam zostało z psychologii?


Przykładem badania, którego nie udało się zreplikować jest to, w którym czytanie fragmentu Zdumiewającej hipotezy Francisa Cricka powodowało, że ludzie byli bardziej skłonni do skorzystania z możliwości oszustwa przy rozwiązywaniu zadań matematycznych.
I całe szczęście, ktoś mógłby powiedzieć. Wiedza na temat neurobiologicznych podstaw świadomości staje się coraz powszechniejsza, co i rusz dowiadujemy się, że jesteśmy tylko pęczkiem neuronów a wolna wola jest wrażeniem wynikającym ze zwrócenia uwagi na stan aktywacji kory przedruchowej. Jeśli miałoby to powodować, że stajemy się coraz mniej empatyczni - dość szybko pojawiłyby się pytania o to, na ile powinniśmy upowszechniać wyniki badań w tym nurcie. Wiara w wolną wolę byłaby fundamentalna dla funkcjonowania społeczeństwa i a wiedza neurobiologiczna stałaby się tabu.

Uzyskane za drugim razem wyniki były zbliżone do pierwotnych ale zależność była znacznie mniej wyraźna. Było to zresztą najczęściej cytowane z badań które wzięto pod uwagę w projekcie. Nie oznacza to oczywiście, że badacze słafszowali wyniki lub zrobili kiepskie badanie. Warto jednak pamiętać, że znaczenie wyników podkreślały przede wszystkim media, różni badacze zaś zalecali daleko idącą ostrożność.

Reasumując


Już od jakiegoś czasu wiemy, że duża część badań psychologów pozostawia sporo do życzenia. Mankamenty publikacji z tej dziedziny nie są jednak ograniczone tylko do niej - problemy z replikacją mają również nauki ścisłe. Nie oznacza to, że z psychologią jest mniej źle, trudno jednak mówić o nagłym powrocie do stanu zupełnej niewiedzy. Projekt Replikowalność jest paradoksalnie przejawem tego, co w nauce najlepsze.

* Inny znajomy pisze pracę magisterską o problemach z mocą statystyczną badań psychologicznych, czekam, aż będę mógł podlinkować
** Szło to tak:
-Neutrino!
- Kto tam?

Literatura:
Open Science Collaboration (2015). Estimating the reproducibility of psychological science Science, 349 (6251) : 10.1126/science.aac4716