Fonti di Big Data in Medicina

by Kevin Hwang, MD, MPH; Recensito da Richard N. Fogoros, MD

Una semplice definizione di big data in medicina è "la totalità dei dati relativi all'assistenza sanitaria e al benessere dei pazienti" (Raghupathi 2014). Ma quali sono esattamente questi tipi di dati e da dove vengono?

Quella che segue è una panoramica generale dei tipi e delle fonti di grandi dati di interesse per gli operatori sanitari, i ricercatori, i pagatori, i responsabili delle politiche e l'industria.

Queste categorie non si escludono a vicenda, poiché gli stessi dati possono provenire da una varietà di fonti.

Né questa lista è esaustiva, perché l'applicazione pratica dell'analisi dei big data continuerà sicuramente ad espandersi.

Sistemi informativi clinici

Queste sono fonti tradizionali di dati clinici che gli operatori sanitari sono abituati a visualizzare.

Le cartelle cliniche elettroniche (EHR) raccolgono, memorizzano e visualizzano informazioni quali dati demografici, precedenti medici, problemi medici attivi, vaccinazioni, allergie, farmaci, segni vitali, risultati di esami di laboratorio e radiologia, rapporti patologici, note di progresso create dall'assistenza sanitaria fornitori e documenti amministrativi e finanziari
Le cartelle cliniche elettroniche (EMR) non sono identiche alle EHR e di solito riguardano i dati archiviati con un particolare medico.
Gli scambi di informazioni sanitarie servono da hub tra diversi sistemi di informazione clinica

I registri dei pazienti, gestiti da organizzazioni sanitarie sui propri pazienti, sono spesso collegati alla CCE. Altri registri monitorano le vaccinazioni, il cancro, i traumi e altri problemi di salute pubblica su una scala geografica più ampia.

I portali dei pazienti consentono ai pazienti di accedere alle informazioni sulla salute personale memorizzate nella CCE di un'organizzazione sanitaria. Alcuni portali per pazienti consentono inoltre agli utenti di richiedere ricariche di prescrizione e di scambiare messaggi elettronici sicuri con il personale sanitario.

I magazzini di dati clinici aggregano i dati a livello di paziente provenienti da più sistemi di informazione clinica, come le CCE e altre fonti sopra elencate

Reclami dati dai paganti

I pagatori pubblici (ad es. Medicare) e i pagatori privati dispongono di ampi archivi di dati sui sinistri sui loro beneficiari. Alcuni assicuratori sanitari offrono anche incentivi per la condivisione dei dati sulla salute.

Studi di ricerca

I database di ricerca contengono informazioni su partecipanti allo studio, trattamenti sperimentali e risultati clinici. Grandi studi sono solitamente sponsorizzati da società farmaceutiche o agenzie governative. Un'applicazione della medicina personalizzata consiste nell'abbinare i singoli pazienti con trattamenti efficaci, sulla base di modelli nei dati degli studi clinici.

Questo approccio va oltre l'applicazione di principi di medicina basati sull'evidenza, in base ai quali un operatore sanitario determina se un paziente condivide ampie caratteristiche (ad esempio età, sesso, razza, stato clinico) con partecipanti allo studio. Con l'analisi dei big data, è possibile selezionare un trattamento basato su informazioni molto più granulari, come il profilo genetico del cancro di un paziente (vedi sotto).

Anche i sistemi di supporto alle decisioni cliniche (CDSS) si sono sviluppati rapidamente e ora rappresentano una parte importante dell'intelligenza artificiale (AI) in medicina.

Usano i dati dei pazienti per assistere i clinici nel processo decisionale e sono spesso combinati con le EHR.

Database genetici

Il deposito di informazioni genetiche umane continua ad accumularsi a un ritmo rapido. Da quando il Progetto genoma umano è stato completato nel 2003, il costo del sequenziamento del DNA umano è stato ridotto di un milione di volte. Il Personal Genome Project (PGP), lanciato nel 2005 dalla Harvard Medical School, cerca di sequenziare e pubblicizzare i genomi completi di 100.000 volontari provenienti da tutto il mondo. Lo stesso PGP è un ottimo esempio di progetto di big data a causa del volume e della varietà di dati.

Un genoma personale contiene circa 100 gigabyte di dati. Oltre a sequenziare i genomi, il PGP sta anche raccogliendo dati da EHR, sondaggi e profili di microbiomi.

Un certo numero di aziende offre sequenziamento genetico diretto al consumatore per la salute, i tratti personali e la farmacogenetica su base commerciale.

Questa informazione personale potrebbe essere sottomessa all'analisi dei big data. Ad esempio, 23andMe ha smesso di offrire rapporti genetici relativi alla salute a nuovi clienti a partire dal 22 novembre 2013 per conformarsi alla Food and Drug Administration degli Stati Uniti. Tuttavia, nel 2015, la società ha iniziato a offrire di nuovo determinati componenti del test genetico della saliva, questa volta con l'approvazione della FDA.

Registri pubblici

Il governo tiene registri dettagliati degli eventi legati alla salute, come l'immigrazione, il matrimonio, la nascita e la morte. Il Censimento degli Stati Uniti ha raccolto enormi quantità di informazioni ogni 10 anni dal 1790. Il sito web delle statistiche del censimento aveva 370 miliardi di celle a partire dal 2013, con circa 11 miliardi in più aggiunti ogni anno.

Ricerche Web

Le informazioni di ricerca Web raccolte da Google e altri provider di ricerca Web potrebbero fornire informazioni in tempo reale relative alla salute di una popolazione. Tuttavia, il valore dei big data dai pattern di ricerca web potrebbe essere migliorato combinandolo con le fonti tradizionali di dati sulla salute.

Social media

Facebook, Twitter e altre piattaforme di social media generano una grande varietà di dati 24 ore su 24, dando una visione delle località, dei comportamenti di salute, delle emozioni e delle interazioni sociali degli utenti. L'applicazione dei grandi dati sui social media alla salute pubblica è stata indicata come rilevamento di malattie digitali o epidemiologia digitale. Twitter, ad esempio, è stato utilizzato per analizzare le epidemie influenzali tra la popolazione generale.

Il World Well-Being Project che ha avuto inizio presso l'Università della Pennsylvania è un altro esempio di studio dei social media per capire meglio l'esperienza e la salute delle persone. Il progetto riunisce psicologi, statistici e informatici che analizzano il linguaggio utilizzato quando interagiscono online, ad esempio quando scrivono aggiornamenti di stato su Facebook e Twitter. Gli scienziati stanno osservando come la lingua degli utenti si rapporta alla loro salute e felicità. I progressi nell'elaborazione del linguaggio naturale e nell'apprendimento automatico stanno aiutando con i loro sforzi. Una recente pubblicazione dell'Università della Pennsylvania ha esaminato i modi di prevedere la malattia mentale analizzando i social media. Sembra che i sintomi della depressione e di altre condizioni di salute mentale possano essere rilevati studiando il nostro uso di Internet. Gli scienziati sperano che in futuro questi metodi saranno in grado di identificare e assistere meglio le persone a rischio.

L'Internet delle cose (IoT)

Tracce massicce di informazioni relative alla salute vengono anche raccolte e memorizzate su dispositivi mobili e domestici .

Smartphone : migliaia di app di mHealth acquisiscono informazioni sull'attività fisica dell'utente, sull'assunzione nutrizionale, sui modelli di sonno, sulle emozioni e su altri parametri. Le app native dei telefoni cellulari (ad es. GPS, e-mail, messaggi di testo) possono anche dare indicazioni sullo stato di salute di un individuo.
Monitor e dispositivi indossabili: pedometri, accelerometri, occhiali, orologi e chip integrati sotto la pelle raccolgono anche informazioni relative alla salute e possono anche inviarli al cloud.
I dispositivi di telemedicina consentono agli operatori sanitari di monitorare i parametri dei pazienti come pressione sanguigna, frequenza cardiaca, frequenza respiratoria, ossigenazione, temperatura, tracciati ECG e peso.

Transazioni finanziarie

Le transazioni con carte di credito dei pazienti sono incluse nei modelli predittivi utilizzati da Carolinas HealthCare System per identificare i pazienti ad alto rischio di riammissione in ospedale. Il fornitore di assistenza sanitaria con sede a Charlotte utilizza i big data per dividere i pazienti in vari gruppi, ad esempio, in base alla malattia e alla posizione geografica.

Implicazioni etiche e sulla privacy

È necessario sottolineare che, in alcuni casi, potrebbero esserci importanti implicazioni etiche e sulla privacy quando si raccolgono e accedono ai dati nell'assistenza sanitaria. Nuove fonti di big data possono migliorare la nostra comprensione di quali sono gli impatti sulla salute delle persone e della popolazione, tuttavia, i diversi rischi devono essere attentamente considerati e monitorati. Ora è stato anche riconosciuto che i dati precedentemente considerati anonimi, possono essere ri-identificati. Ad esempio, la professoressa Latanya Sweeney del Data Privacy Lab di Harvard ha esaminato 1.130 volontari coinvolti nel Progetto genoma personale. Lei e il suo team sono stati in grado di nominare correttamente il 42% dei partecipanti in base alle informazioni che hanno condiviso (codice di avviamento postale, data di nascita, sesso). Questa conoscenza può aumentare la nostra consapevolezza dei potenziali rischi e aiutarci a prendere decisioni migliori sulla condivisione dei dati.

> Fonti:

> Conway M, O'Connor D. Social media, big data e salute mentale: attuali progressi e implicazioni etiche. Current Opinion in Psychology 2016; 9: 77-82.

> Fernandes L, O'Connor M, Weaver V. Grandi dati, risultati più grandi. Journal of American Health Information Management Association 2012; 83 (10): 38-43

> Guntuku S, Yaden D, Kern M, Ungar L, Eichstaedt J. Rilevazione di depressione e malattie mentali sui social media: una revisione integrativa . Parere corrente in Scienze comportamentali 2017; 18: 43-49.

> Lazer D, Kennedy R, King G, Vespignani A. La parabola di Google Flu: Traps in Big Data Analysis . Scienza 2014; 343 (6176): 1203-1205.

> Raghupathi W, Raghupathi V. Big data analytics in healthcare: promessa e potenzi al. Health Information Science and Systems 2014; 2: 3.

> Sweeney L, Abu A, Winn J. Identificazione dei partecipanti al progetto Genoma personale per nome . Università di Harvard. Data Privacy Lab. White Paper 1021-1. 24 aprile 2013.