Google Website Translator

piątek, 17 czerwca 2016

OPEN DATA & DATA SCIENCE NA RATUNEK NASZEMU ZDROWIU?


Żyjemy w czasach zdominowanych przez mnogość i wielorakość danych; dane są wszędzie, czy tego chcemy czy nie. I czy to jest Big Data czy nie, ustrukturyzowane czy nie, to jest duża szansa, że znamy sposób, żeby się do tych danych dostać i je w sensowny sposób przeanalizować.

Czy te dane mogą nam pomóc odkryć nowe zjawiska czy procesy, które dotąd były domeną nauk eksperymentalnych? Na przykład, ujawnić skutki uboczne interakcji dwóch leków, podczas gdy każdy lek z osobna nie przejawia takich skutków?

Byłam początkowo sceptyczna, bo jakby nie było ekperyment to ekperyment: randomizacja pacjentów, "ślepienie" próby, rygorystyczne porównywanie grup ekperymentalnych i kontrolnych, etc. to wszystko jest po coś! A dane nie-eksperymentalne niosą mnóstwo problemów i komplikacji: ukryte i nie-ukryte korelacje, często niemożliwe do udowodnienia związki przyczynowe, data noise, itede.

No to teraz zatrzymajcie się na chwilę i poświęćcie 15 minut na oglądnięcie tej prezentacji z TEDa.





Wow.

Russ Altman (et al.) wykazał, że paroksetyna (popularny lek antydepresyjny) oraz prawastatyna (lek obniżający poziom cholesterolu) stosowane razem mogą prowdzi do zaburzeń gospodarki glukozy, a tym samym prowadzić do cukrzycy. I to mimo, że żaden z tych leków stosowany osobne nie wykazuje takich skutków. Co jeszcze ciekawsze, wszystko to zostało dokonane  bazując wyłącznie na medycznych bazach danych i słowach kluczowych wpisywanych w wyszukiwarkach internetowych, w połączeniu ze sprytnymi algorytmami uczenia maszynowego (machine learning).

WOW

Altman pokazuje jaki potencjał mają dane, które choć same w sobie niewiele znaczą, to mogą odkryć nowe związki i procesy w świetle dobrze zadanych pytań i mądrze przeprowadzanych analiz.

Źródło: flickr

Wnioski z prezentacji i ich implikacje: 


i.  dane (nie tylko Big Data) kryją ogromny potencjał nowej wiedzy

(patrz: powyżej)

ii. by móc analizować dane, trzeba je mieć = dzielić
  •  patrz: mój wcześniejszy post na temat Open Data w odniesieniu do danych zdrowotnych.
  •  patrz: mój post o niebezpieczeństwach "nie-otwartych" danych zdrowotnych
  • Przykład otwartego projektu z użyciem dostępnych danych i odrobiny data science, który (w teorii) mógłby zaoszczędzić NHS setki milionów funtów. Wszystko to przez zmianę rodzaju statyn przypisywanego pacjentom (z droższego na tańszy, bez istotnej różnicy w efektywności leku). Można to rozszerzyć na inne aspekty służby zdrowia, rzecz jasna
  •  Inicjatywa dzielenia danych podczas ostatniej epidemii Eboli - i to niejako wbrew obowiązującym standardom "publish or perish";  patrz też poniżej
  • Czy dzielenie się danymi jest w nauce popularne? NIE!  Na przykład, taki diamencik: #IAmAResearchParasite ("jestem naukowym pasożytem") to dobrze prosperujący hasztag nawiązujący do frazy użytej w styczniowym wydaniu NEJM (The New England Journal of Medicine), który ma opisywać naukowców używających cudzych danych dla własnych korzyści. Oczywiście takowi są be. BARDZO BE

iii. otwarte dane to więcej ludzi sprawdzających wykonane już analizy, ale też więcej pytań, więcej pomysłów, więcej testów i założeń

W związku z kryzysem //reproducible research// w psychologii czy ekonomii, szuka się teraz sposobów na przeprowadzanie bardziej rygorystycznej analizy danych. Jednym z problemów jest to, że naukowcy (chcąc nie chcąc) mają preferencje względem konkurujących hipotez, które mogą wyjaśnić dane zjawisko. Stąd przy analizie danych mogą paść ofiarą różnego rodzaju uprzedzeniom: mogą zwracać większą uwagę na dowody potwierdzające ich przekonania, na przykład. Albo bardziej rygorystycznie sprawdzać dane, które nie są w zgodzie z ich założeniami (zakładając, że istnieje w nich lub w stworzonym modelu błąd), ale nie wykonywać takich dodatkowych kontroli gdzie dane zdają się potwierdzać ich założenia, itd. Dlatego otwarte dane oznaczają nie tylko więcej par oczu szukających związków między zmiennymi, ale też więcej ludzi bardziej krytycznie testujących alternatywne hipotezy.

Dlatego kochajmy, wspierajmy, propagujmy i twórzmy otwarte dane. W dłuższej perspektywie, wszyscy na tym skorzystamy.

25 komentarzy:

  1. Czas na metanaukę. Klasyfikowalną jako "science". A później metameta... ;). Tylko kto będzie się tym zajmował?

    OdpowiedzUsuń
    Odpowiedzi
    1. Hm.. co masz na myśli przez 'meta' w tym przypadku? Podejrzewam, że w przyszłości, niezależnie od dyscypliny, naukowcy będą musieli być coraz lepiej zorientowani w kwestii nie tylko statystyki jako takiej (co obecnie ma miejsce) ile narzędzi i technik do ekstrakcji, manipulacji i analizy danych: małych, dużych, ustrukturyzowanych i nie. Albo będzie się coraz częsciej zatrudniało * data scientists * , nawet w środowisku akademickim. Tak się teraz ma rzecz z bio-statystykami (?) akademii, i ze wspomnianymi data scientists w biznesie

      Usuń
  2. Już chyba dwie dekady temu okazało się że pewne problemy może rozwiązać tylko zespół interdyscyplinarny - wcześniej były takie teamy postulowane w literaturze i filmach SF ale w życiu praktycznie nikt ich nie spotyka.
    Z wykorzystaniem Big Data interdyscyplinarny zespół może osiągnąć naprawdę niesamowite rezultaty - a przecież to w tej chwili dopiero powijaki metody!
    jak dla mnie fascynujące zjawisko!

    OdpowiedzUsuń
  3. Uwielbiam oglądać TEDa. Naprawdę sporo fajnych tematów można tam znaleźć. Co do eksperymentów jednak, sceptyczne nastawienie warto odstawić, bo bez prób i błędów żaden eksperyment nie istnieje :)

    OdpowiedzUsuń
  4. Zbiór, analiza i odpowiednie wykorzystanie informacji zawartych w big data to klucz do sukcesu, wielu firm na świecie. Informację np. o klientach i ich preferowanych wyborach można przełożyć na produkcję i tym samym poprawić funkcjonowanie firmy. Co ciekawe, programy takie jak sap erp pozwalają nawet mniejszym firmą wykorzystywać big data we własnym interesie. Jedną z lepszych firm, która się tym zajmuje na polskim rynku jest zdecydowanie sidgroup.

    OdpowiedzUsuń
  5. Bardzo ciekawe zagadnienie. Big Data to termin, który staje się coraz bardziej popularny, nie tylko w branży IT. Gromadzenie danych jest w końcu nieodłącznym elementem działalności wielu firm, czy instytucji. Jak widzimy odpowiednie przetworzenie danych bardzo się przydaje w różnorodnych rozwiązaniach.

    OdpowiedzUsuń
  6. Bardzo ciekawy wpis! Ja tez coraz bardziej rozwijam moja firme, co prawda inna branza, ale to co piszesz jest bardzo ciekawe :) Ostatnio znalazlam swietna firme do zarzadzania produkcja od firmy sente.

    OdpowiedzUsuń

  7. Very interesting blog Thank you for sharing such a nice and interesting blog and really very helpful article.
    Data Science Course in Hyderabad

    OdpowiedzUsuń
  8. Wiedza o parametrach danych w konkretnym procesie działania daje niewyobrażalne możliwości do podjęcia optymalnych kroków rozwojowych. Stąd też tak ważne jest, aby w biznesie również stawiać nacisk na monitorowanie progresu. W naszym przypadku logistyka magazynowania usprawniła niewyobrażalnie pracę zespołu na każdym etapie produkcji.

    OdpowiedzUsuń
  9. Cheap Replica Handbags You guide me by sharing this toolbox i face problem whenever i exploit this promotion reading your blog i am able to easily use. Unique Dofollow Backlinks

    OdpowiedzUsuń
  10. AI Patasala offers the best Data Scientist Training in Hyderabad program. After completion of this course you will apply for high paying jobs in top MNCs.

    OdpowiedzUsuń
  11. Really impressed! Everything is very open and very clear clarification of issues. It contains true facts. Your website is very valuable. Thanks for sharing.
    data analytics training in hyderabad

    OdpowiedzUsuń
  12. I think I have never seen such blogs ever before that has complete things with all details which I want. So kindly update this ever for us.
    full stack developer course with placement

    OdpowiedzUsuń
  13. Currently app in the early beta of Youtube shorts. YouTube Shorts a new short-form video service that lets users create shorts video.
    Youtube shorts downloader online only on Youtube Shorts Downloader Online

    OdpowiedzUsuń
  14. Önemli giriş adreslerine buradan ulaşabilirsiniz.
    betturkey giriş
    betpark giriş
    APN05Z

    OdpowiedzUsuń