Żyjemy w czasach zdominowanych przez mnogość i wielorakość danych; dane są wszędzie, czy tego chcemy czy nie. I czy to jest Big Data czy nie, ustrukturyzowane czy nie, to jest duża szansa, że znamy sposób, żeby się do tych danych dostać i je w sensowny sposób przeanalizować.
Czy te dane mogą nam pomóc odkryć nowe zjawiska czy procesy, które dotąd były domeną nauk eksperymentalnych? Na przykład, ujawnić skutki uboczne interakcji dwóch leków, podczas gdy każdy lek z osobna nie przejawia takich skutków?
Byłam początkowo sceptyczna, bo jakby nie było ekperyment to ekperyment: randomizacja pacjentów, "ślepienie" próby, rygorystyczne porównywanie grup ekperymentalnych i kontrolnych, etc. to wszystko jest po coś! A dane nie-eksperymentalne niosą mnóstwo problemów i komplikacji: ukryte i nie-ukryte korelacje, często niemożliwe do udowodnienia związki przyczynowe, data noise, itede.
No to teraz zatrzymajcie się na chwilę i poświęćcie 15 minut na oglądnięcie tej prezentacji z TEDa.
Wow.
Russ Altman (et al.) wykazał, że paroksetyna (popularny lek antydepresyjny) oraz prawastatyna (lek obniżający poziom cholesterolu) stosowane razem mogą prowdzi do zaburzeń gospodarki glukozy, a tym samym prowadzić do cukrzycy. I to mimo, że żaden z tych leków stosowany osobne nie wykazuje takich skutków. Co jeszcze ciekawsze, wszystko to zostało dokonane bazując wyłącznie na medycznych bazach danych i słowach kluczowych wpisywanych w wyszukiwarkach internetowych, w połączeniu ze sprytnymi algorytmami uczenia maszynowego (machine learning).
WOW
Altman pokazuje jaki potencjał mają dane, które choć same w sobie niewiele znaczą, to mogą odkryć nowe związki i procesy w świetle dobrze zadanych pytań i mądrze przeprowadzanych analiz.
Źródło: flickr |
Wnioski z prezentacji i ich implikacje:
i. dane (nie tylko Big Data) kryją ogromny potencjał nowej wiedzy
(patrz: powyżej)
ii. by móc analizować dane, trzeba je mieć = dzielić
- patrz: mój wcześniejszy post na temat Open Data w odniesieniu do danych zdrowotnych.
- patrz: mój post o niebezpieczeństwach "nie-otwartych" danych zdrowotnych
- Przykład otwartego projektu z użyciem dostępnych danych i odrobiny data science, który (w teorii) mógłby zaoszczędzić NHS setki milionów funtów. Wszystko to przez zmianę rodzaju statyn przypisywanego pacjentom (z droższego na tańszy, bez istotnej różnicy w efektywności leku). Można to rozszerzyć na inne aspekty służby zdrowia, rzecz jasna
- Inicjatywa dzielenia danych podczas ostatniej epidemii Eboli - i to niejako wbrew obowiązującym standardom "publish or perish"; patrz też poniżej
- Czy dzielenie się danymi jest w nauce popularne? NIE! Na przykład, taki diamencik: #IAmAResearchParasite ("jestem naukowym pasożytem") to dobrze prosperujący hasztag nawiązujący do frazy użytej w styczniowym wydaniu NEJM (The New England Journal of Medicine), który ma opisywać naukowców używających cudzych danych dla własnych korzyści. Oczywiście takowi są be. BARDZO BE
iii. otwarte dane to więcej ludzi sprawdzających wykonane już analizy, ale też więcej pytań, więcej pomysłów, więcej testów i założeń
W związku z kryzysem //reproducible research// w psychologii czy ekonomii, szuka się teraz sposobów na przeprowadzanie bardziej rygorystycznej analizy danych. Jednym z problemów jest to, że naukowcy (chcąc nie chcąc) mają preferencje względem konkurujących hipotez, które mogą wyjaśnić dane zjawisko. Stąd przy analizie danych mogą paść ofiarą różnego rodzaju uprzedzeniom: mogą zwracać większą uwagę na dowody potwierdzające ich przekonania, na przykład. Albo bardziej rygorystycznie sprawdzać dane, które nie są w zgodzie z ich założeniami (zakładając, że istnieje w nich lub w stworzonym modelu błąd), ale nie wykonywać takich dodatkowych kontroli gdzie dane zdają się potwierdzać ich założenia, itd. Dlatego otwarte dane oznaczają nie tylko więcej par oczu szukających związków między zmiennymi, ale też więcej ludzi bardziej krytycznie testujących alternatywne hipotezy.
Dlatego kochajmy, wspierajmy, propagujmy i twórzmy otwarte dane. W dłuższej perspektywie, wszyscy na tym skorzystamy.