Uśmiech Zofii. Liczby = nauka = prawda
Liczby = nauka = prawda. Owóż nie. Zaraz uzasadnię.
Przez wieki całe badacze opisywali świat raczej jakościowo, no może oprócz astronomów. Od Odrodzenia, a zwłaszcza Oświecenia w naukach przyrodniczych stosuje się coraz więcej matematyki. Z początku dotyczyło to głównie fizyki i chemii, obecnie matematykę stosuje się praktycznie we wszystkich dziedzinach nauki. Wielu twierdzi, że nauka niewsparta matematyką nie jest poważną nauką. A gdy nie mamy solidnego modelu matematycznego, do akcji wkracza statystyka.
Dziś, gdy pamięć komputerowa i komunikacja są za półdarmo, występuje ona jako big data (wielkie dane). Weźmy przykład monitorowania zdrowia. Zastępy użytkowników obłożone miernikami sprawności, a przynajmniej z licznikami kroków w smartfonach, generują olbrzymie ilości danych. Poważne choroby również mogą być monitorowane zakładanymi i implantowanymi sensorami. Jest to użyteczne, gdy jest zintegrowane z normalną terapią: pacjent ma problemy z sercem — EKG i inne parametry są mierzone okresowo lub w sposób ciągły, dane są wysyłane do szpitala, ktoś je analizuje i wyciąga wnioski. Pół biedy, gdy użytkownicy wysyłają tony danych do swojego lekarza, który nie ma co z tym zrobić. Ważne, by nie tracił na to zbyt wiele czasu. Gorzej, gdy zabiorą się do tego analitycy i górnicy danych (data miners). Oczywiście nie wykluczam, że znajdą w tych danych coś ciekawego. Jeżeli jednak poszukuje się w danych korelacji bez rozumienia, o co chodzi, z entuzjastycznym nastawieniem „będziemy mieli dane — będziemy wiedzieć, jak jest”, to zalecam daleko posuniętą ostrożność.
Już w 1963 roku, gdy wielkie maszyny wymagały wzmocnionej podłogi i klimatyzacji, a były tysiąc razy słabsze od mojego telefonu, wprowadzono pojęcie GIGO: garbage in, garbage out. Jeżeli na wejściu mamy śmieci — nawet w dużej ilości — w wyniku otrzymamy śmieci. Mieszać dane nie jest trudno, a każdy algorytm, w którym nie występuje dzielenie przez zero i który się nie zapętli, z każdych danych wyliczy jakieś wyniki. Pytanie — co te wyniki są warte. Jeżeli mierzymy dostatecznie wiele parametrów, to zawsze coś z czymś będzie skorelowane. Strona Tylervigen [LINK] podaje wiele fascynujących przykładów korelacji, na przykład między częstością rozwodów w stanie Maine a spożyciem margaryny na głowę czy między liczbą lotów kosmicznych a liczbą doktoratów z socjologii.
Problem występuje również w badaniach naukowych. Opisał go John Ioannidis w brutalnie zatytułowanym artykule „Why most published research findings are false”. Występują tu różne mechanizmy. Na przykład w świecie nauki nie ma miejsca dla samotnych geniuszy, latami poszukujących prawdy. Obowiązuje zasada publish or perish — publikuj lub zgiń. A co można opublikować? Raczej coś, co jest publikowalne, spektakularne, a nie po prostu prawdziwe. Jeżeli przez rok poszukuję związku między A a B, ewentualnie A a C, a przynajmniej A a D i czasem gdzieś jest jakaś słaba korelacja, to tego mi nikt nie opublikuje. No może z wyjątkiem przypadku, gdy samo pytanie jest wystarczająco ważne i wielu się nim zajmuje, a moje badania mają solidną metodologię, dużą próbkę itp. Ale wtedy łatwo jest uznać, że jeżeli dziewięć razy nic nie znalazłem, to może źle szukałem, a ten jeden przypadek, gdy coś wyszło, jest decydujący. W ten sposób pomijamy wyniki negatywne, a opublikowany jest tylko ten jeden — pozytywny. Fachowo nazywa się to publication bias. Dalej — w fizyce powtarza się ważne eksperymenty wielokrotnie, z rosnącą precyzją. W medycynie i naukach społecznych pytań jest więcej i eksperymenty powtarzane są rzadko. Do tego elektrony są wszędzie takie same i niezmienne w czasie (a może jednak nie?), a powtórzenie eksperymentu socjologicznego jest trudne.
Ważne jest, kto za badania płaci. Ponieważ próby kliniczne medykamentu są niezmiernie drogie, najczęściej finansuje je producent. Nie mówię, że wszystkie są „podkręcane”, ale podświadomie wynik pozytywny wydaje się bardziej pożądany. Gdy porównujemy nasze lekarstwo z cudzym, możliwa jest taka manipulacja, że cudzego dajemy albo dawkę za małą — by zmniejszyć skuteczność, lub za dużą — by zwiększyć skutki uboczne. Podkreślam, że za liczbami stoją ludzie — świadomie źle leczeni pacjenci — i gdy usłyszałem o tym niedawno, reakcji mojej nie da się opisać cenzuralnie. W ekstremalnym przypadku dochodzi do ewidentnego sponsoringu, gdy wielka firma farmaceutyczna zaprasza na kongres na Hawajach lub Karaibach, gdzie są bezstronnie i obiektywnie przedstawiane zalety nowych terapii.
No i jeszcze trudno zaprzeczyć teorii, z której się żyje. Podobnie jak Watykan nie ogłosi nieistnienia Boga, Instytut Walki z Globalnym Ociepleniem uzna kilkuletnią stabilną temperaturę za przejściową fluktuację. Słyszałem rektora jednej ze szwajcarskich uczelni, gdy krytykował nadmierne upublicznianie danych jako ryzykowne, bo mogą one dać argumenty „ociepleniowym” sceptykom. Podobnie rozumowało Święte Oficjum w przypadku Kopernika.
Ale nawet bez świadomej złej woli możliwe są błędy metodologiczne. Cała statystyka opiera się na założeniu, że próba jest dobrym odzwierciedleniem całej populacji. Gdy badania przeprowadzamy na uniwersytecie, najłatwiej jest zaprosić studentów — są łatwo dostępni i potrzebują gotówki. Mają jednak odbiegający od normy przekrój wieku i wykształcenia. Gdy na studentach Harvardu zbadam ich stosunek do rewolucji seksualnej, nie mogę potem mówić Amerykanie uważają…, bo te wyniki nie przenoszą się na mieszkańców Kansas. Również trudno na nich testować leki na alzheimera. Nowe medykamenty można tanio testować w Afryce, bo za 50 dolarów łatwo znaleźć chętnych. Nie jest to zbyt etyczne, ale niekoniecznie też jest skuteczne. Fizjologia Nigeryjczyka jest podobna do fizjologii mieszkańca Manhattanu, ale nie jest identyczna. Klasycznym przykładem jest nietolerancja laktozy — w wielu regionach świata tylko dzieci do ok. 4 lat trawią laktozę w mleku, u starszych wywołuje ona biegunkę. Mutacja pozwalająca na trawienie mleka przez dorosłych powstała ok. 10 tysięcy lat temu wraz z rozpowszechnieniem się hodowli bydła. Problem wykryto, gdy w dobrej wierze wysyłano mleko do Afryki. Zawsze, gdy badania przeprowadzamy na innej grupie, możemy natrafić na podobną pułapkę.
Podobnie jak w poprzednim tekście, chciałbym więc i tu ostrzec przed nadmierną wiarą we wnioski wyliczane z big data. We wrześniu 2013 r., niedługo po historii z Edwardem Snowdenem i masywnymi podsłuchami przez National Security Agency (NSA), miałem przyjemność wysłuchać sesji na Politechnice Lozańskiej (EPFL) z referatami świetnych specjalistów. Jeden z nich, Jacob Appelbaum, w maskującym czarnym swetrze, dramatycznie opowiadał o swojej walce z NSA i o tym, jak się boi aresztowania, gdyby pojawił się w Stanach Zjednoczonych. Twierdził, że NSA ma zamiar przez 15 lat przechowywać listę połączeń telefonicznych i wyszukiwać w tych danych podejrzanych osobników. Wiedząc, jak wygląda typowa baza danych po 15 latach, zapytałem, czy nie zawali się ona pod ich ciężarem, czy nie zapanuje w niej totalny chaos. Appelbaum odpowiedział, że jeżeli będą szukać najbardziej niebezpiecznych terrorystów „do odstrzelenia z drona”, to gdy dane i algorytmy zawiodą, wtedy — jako że algorytm zawsze poda jakiś wynik — najwyżej zostanie zastrzelony ktoś inny.
I tym optymistycznym akcentem kończę i zapraszam na ciąg dalszy.
Jan Śliwa
Ioannidis, J.P., 2005, Why most published research findings are false, Chance, 18 (4), 40-47. By szybko zapoznać się z jakimś tematem, użyteczne są referaty dostępne na YouTube. Praktycznie zawsze, gdy słyszę o ciekawym naukowcu czy filozofie, mogę znaleźć wykład lub rozmowę i w godzinę poznać jego podstawowe idee.
Polecam:
John Ioannidis Keynote: Evidence-Based Medicine Has Been Hijacked [LINK]
Lessons and Pitfalls from Medical Research (John Ioannidis, Stanford School of Medicine) [LINK]
Harriet Hall: Science-Based Medicine — Pitfalls in Research [LINK]
Trish Greenhalgh: Real v Rubbish EBM [LINK]
Ben Goldacre: What doctors don’t know about the drugs they prescribe [LINK]