Big Data in medicina
FONTE: Ok Salute
AUTORE: Marco Ronchetto
Una rivoluzione per ora a metà
Complice la digitalizzazione è sempre più possibile avere una massa enorme d’informazioni su virus, batteri e malattie varie per personalizzare le terapie e contrastare le epidemie. Il Covid-19 ha accelerato il processo, ma resta il freno delle resistenze alla condivisione e dell’arretratezza tecnologica.
Ognuno di noi, quando si sottopone a visite ed esami medici o a operazioni chirurgiche, ricorre alla telemedicina, ha impiantati moderni device, indossa braccialetti elettronici o usa app sul- lo smartphone, lascia «orme». Tracce digitali che, se radunate, vanno a formare una quantità enorme di dati, che oggi, «grazie all’utilizzo dell’Intelligenza Artificiale (AI)», spiega Vincenzo Valentini, vicedirettore scientifico con delega ai Big Data dellaFondazione Policlinico Universitario Agostino Gemelli IRCCS di Roma, «possono essere elaborate multidimensionalmente fino a formare aggregazioni di evidenze (cluster), inarrivabili per la mente umana o i metodi di elaborazione tradizionali delle statistiche, che possono aumentare notevolmente l’efficacia delle strategie diagnostiche, terapeutiche e organizzative in ambito sanitario». Sono i Big Data, letteralmente i «grandi dati» per l’enorme spazio di archiviazione che occupano nell’ordine dei Terabyte (TB), unità di misura corrispondente a due alla quarantesima byte.
La prima volta che tale ter- mine è comparso era il 1999, anno in cui s’iniziò a parlare di Internet of Things, cioè della possibilità di collegare gli oggetti connessi a internet tra loro e analizzarli, così da rivelare percorsi e interconnessioni tra le attività umane e creare - tramite, per esempio, le ricerche che effettuiamo sul web, i post sui social network, i pagamenti con la carte di credito - nostri dettagliati profili a livello individuale. Un potere enorme, subito utilizzato dal marketing, che ora, anche sotto la spinta del Covid-19, si sta allargando, non senza difficoltà, a comprendere anche il settore della salute. «La digitalizzazione è ormai in grado di coprire oltre il 90% delle attività sanitarie», pro- segue Valentini. «Quasi tutte le attività mediche, sia diagnostiche sia terapeutiche, possono appoggiarsi su risorse informatiche, e anche la chirurgia, avvalendosi di robot, è completamente digitabilizzabile». Così una decina di anni fa, interviene Clelia Di Serio, professore ordinario di statistica medica dell’Università Vita-Salute San Raffaele di Milano, «si è iniziato a parlare dell’idea di estendere al cam- po biomedico le quattro V dei Big Data: Volume, Variety, Velocity, Veracity (quantità, varietà di fonti e formati, velocità, qualità). È sui grandi numeri, in- fatti, che si capiscono i meccanismi: così la statistica aiuta la biologia». E grandi numeri saranno.
L’ALLEANZA CON LA GENOMICA
Il Big Data più grande del futuro sarà, in effetti, quello generato dallo studio dei genomi dopo l’identificazione dell’intera sequenza del Dna umano nel 2003. «Ormai l’intero genoma di ogni perso- na può essere decodificato con un costo di circa mille dollari, cifra che scenderà ulterior- mente. Entro cinque anni ci saranno quaranta volte più dati di genomica rispetto a quelli di YouTube», prevede Stefano Ceri, docente del dipartimento di Elettronica, informazione e bioingegneria del Politecnico di Milano. Chi voglia calcolare la grandezza della possibile banca dati, deve moltiplicare la cifra totale della popolazione mondiale, sette miliardi, per i 200 TB di dati che occupano la sequenza del Dna di una singola persona, equivalenti alla memoria di 1.600 smartphone da 128 GB o di 800 computer portatili da 256 GB.
S’IMPARA DAI CASI PRECEDENTI PER INTERVENIRE SUL SINGOLO
«La possibilità di produrre, condividere e rendere disponibili grandi quantità di dati, potenzialmente in tutti gli esseri viventi», interviene Giulio Pavesi, professore di bioinformatica all’Università degli Studi di Milano e coordinatore della laurea magistrale in bioinformatics for computational genomics, «comporta un profondo cambio di paradigma che investe la medicina, per la quale si sono aperte le porte della nuova era della medicina personalizzata o “di precisione”.
Per ogni paziente, la terapia più efficace potrà essere scelta sulla base delle sue varianti genomiche e del profilo di espressione dei suoi geni. Viceversa, studiando le variazioni del genoma associate a diverse patologie, si può arrivare a diagnosi precoci o allo sviluppo di nuove terapie». Conferma Ceri: «All’interno di un’enorme quantità di dati si può trovare il quadro clinico che più si avvicina alla specifica problematica del singolo, cioè s’impara dai casi precedenti come intervenire in uno specifico».
L’AIUTO NELLA LOTTA ALLE MALATTIE CARDIOVASCOLARI…
Prendiamo il caso delle malattie cardiovascolari, la principale causa di morte nel nostro Paese, con il 44% di tutti i decessi (e il 31% di quelli a livello mondiale). «I moderni device impiantabili, come pace- maker e defibrillatori, raccolgono continuamente un’imponente mole di dati dal paziente: non solo i classici come il cardiogramma, ma anche, per esempio, la temperatura interna, il movimento del corpo, la frequenza respiratoria», spiega Gianfranco Parati, direttore scientifico dell’Irccs Istituto Auxologico Italiano e professore ordinario di medicina cardiovascolare all’Università di Milano Bicocca.
«Poi ci sono i sistemi informatici dei centri ipertensione, scompenso e aritmie, nei quali vengono memorizzati tutti gli esami holter, gli ecocardiogrammi e le visite sostenute dai pazienti seguiti nel corso degli anni. Accedere a tali serbatoi con un sistema intelligente che identifichi i parametri correlabili con la prognosi del paziente permetterebbe la compilazione di nuove classificazioni di rischio molto più dettagliate e, quindi, la personalizzazione della terapia». Tra l’altro, proprio il direttore scientifico dell’Auxologico sta coordinando «un grande progetto di ricerca con 14 Istituti di Rico- vero e Cura a Carattere Scientifico (IRCCS) per verificare l’ipotesi che il coronavirus possa essere un nuovo fatto- re di rischio cardiovascolare.
«Puntiamo ad avere informazioni in maniera standardizzata di oltre 5mila pazienti di tutta Italia per poi sviluppare un sistema di Intelligenza Artificiale che le analizzi», dice il cardiologo.
… E IN QUELLA CONTRO I TUMORI
Stesso discorso anche per i tumori. Contro quello del colon è attivo il progetto Generator del Policlinico Gemelli di Roma. «Osservando la storia delle migliaia di malati trattati chirurgicamente nel nostro ospedale», illustra Valentini, «creiamo pazienti virtuali gemelli di quelli reali, avatar sui quali provare a somministrare le diverse terapie per vedere quella più efficace e con minori effetti collaterali». Ceri, da parte sua, lavora «con biologi clinici dell’Istituto Mario Negri negli studi sul tumore all’ovaio per arrivare a capire al momento della diagnosi se andrà in remissione entro sei mesi o no, così che, nel caso positivo, si utilizzi una terapia alternativa alla chemio».
L’Istituto Clinico Humanitas di Rozzano (Milano) ha, invece, attivato «collaborazioni scientifiche a livello internazionale sulle malattie del sangue che ci consentono di essere un centro riconosciuto come avente capacità di analizzare Big Data», sottolinea Matteo Della Porta, responsabile della sezione Leucemie e mielodisplasie di Humanitas e docente di Humanitas University. «L’obiettivo è creare una piattaforma di condivisione internazionale che unisca le informazioni di molti istituti e nella quale i dati molecolari e generici, già presenti in diverse banche dati, siano accompagnati da dati clinici completi.
Avere a disposizione Big Data attraverso i quali condurre analisi complesse permette di studiare e comprendere l'eterogeneità di tali malattie e, quindi, di ottimizzare il percorso di diagnosi e di trattamento per il singolo paziente, in un'ottica, appunto,di medicina personalizzata.»
Osservando la storia di migliaia di malati è possibile creare avatar, pazienti virtuali gemelli di quelli reali, sui quali provare a somministrare le diverse terapie per trovare la più efficace
L'OTTIMIZZAZIONE DELLA SPERIMENTAZIONE DI NUOVI FARMACI
Altra opportunità che danno i Big Data è quella di ottimizzare la sperimentazione di nuovi farmaci in vista del loro lancio sul mercato. «Con la possibilità di combinare varie fonti d’informazioni stiamo arrivando ad avere risultati attendibili come negli studi randomizzati, ma in minor tempo, a minori costi e su popolazioni rappresentative», ha spiegato al quotidiano Il Sole 24 Ore Francesca Dominici, professoressa di biostatistica e co-direttore della Data Science Initiative dell’Università di Harvard (Stati Uniti). «Perché la nostra salute è influenzata da tanti fattori e quindi quando si considera una healthcare strategy, come un nuovo farmaco sul mercato, abbiamo la possibilità - e anche la responsabilità - di tener conto del fatto che l’efficacia di quella terapia è influenzata da tantissime cose (aria, alimentazione, attività fisica…) e sono informazioni che possiamo misurare».
POTENTI ALLEATI NELLO STUDIO DEGLI AGENTI PATOGENI
Le stesse tecnologie possono, però, essere utilizza- te, continua Pavesi, «per lo studio di agenti patogeni, quali virus o batteri, ad esempio per valutarne l’evoluzione in forme più o meno virulente o per l’individuazione e caratterizzazione di ceppi resi- stenti alle terapie in uso». Come per il SARS CoV-2, responsabile del Covid-19. Ceri, in effetti, coordina l’integrazione dati fenotipici in un’iniziativa che coinvolge più di cento istituzioni mondiali nello studio del nuovo coronavirus e, inoltre, ha lavorato su database genomici e ora è attivo su uno di sequenze virali: «Con virologi, clinici e genetisti stiamo costruendo raccolte dati per collegare i dati dei virus con il fenotipo e il patrimonio genetico dei pazienti, così da cercare di capire sempre meglio questa pandemia, in modo tale che per il futuro si possano prevenire pandemie e creare vaccini». L’Organizzazione Mondiale della Sanità (OMS) da parte sua ha lanciato la piattaforma Solidarity Trial che mette a confronto i trattamenti contro il Covid-19 testati nei diversi Paesi aderenti con lo scopo di definire le terapie più efficaci.
IL SOSTEGNO ALLA SANITÀ PUBBLICA
La raccolta d’ingenti informazioni e l’analisi dei Data set a disposizione «sono anche essenziali per mettere in campo strategie uniformi di prevenzione e diagnosi sul territorio della singola azienda sanitaria e più in generale a livello nazionale», interviene Gennaro Sosto, direttore generale dell’Asl Napoli 3 Sud e coordinatore nazionale dell’area Innovazione e tecnologie sanitarie di Federsanità ANCI. «Nelle aziende sanitarie la tecnologia diventa un supporto fondamentale per garantire obiettivi come l’appropriatezza, l’efficacia, l’efficienza e la sicurezza delle cure. L’utilizzo dei dati è importante anche per offrire un servizio migliore ai cittadini. Si pensi ai chatbot (i sistemi di conversazione automatica) e agli assistenti virtuali». Contemporaneamente, soprattutto nel caso di epidemie, «l’uso dei dati aggregati e anonimizzati relativi alla popolazione consente una sorveglianza sanitaria in tempo reale tra i vari presidi ospedalieri su tutto il territorio nazionale, così da monitorare e valutare l’impatto e l’efficacia delle misure di confinamento sull’intensità dei contatti e delineare una strategia coordinata di uscita dalla crisi, permettendo alle varie autorità in campo (Co- muni, prefetture, forze di polizia, vigili del fuoco) di contenere il diffondersi del virus».
E qui entra in gioco il dibattito sull’utilizzo, ampiamente diffuso in Cina e Corea del Sud, delle applicazioni di contact-tracing come l’attualissima Immuni, in grado di tracciare in modo anonimo gli spostamenti delle persone. Una tecnologia che, però, solleva dubbi tra gli esperti. Clelia Di Serio sottolinea il fatto che nel nostro Paese sia vietato il rilevamento della posizione geografica delle persone coinvolte: «E senza geolocalizzazione non si possono individuare davvero i focolai». Per Ceri, invece, il riportare gli incontri prolungati oltre 15 minuti in luogo chiuso non copre tutti i casi di contagio: «Se due persone sono in ascensore e una, in- fetta, starnutisce?».
UN SETTORE DA MANEGGIARE CON SAPIENZA
Resta il fatto che, prosegue la docente di statistica medica, «i Big Data in biomedicina si prestano a una interpretazione molto più complessa e delicata rispetto a quella di ogni altro settore, ove le informazioni - pensiamo a quelle dei social network - sono a veloce monitoraggio». Il meccanismo, descritto da Ceri, è questo: «La prima fase consiste nella costruzione del database, con i dati che vanno raccolti, “puliti” e organizzati, eliminando quelli non necessari; così facendo si estraggono segnali precisi dai dati grezzi. Poi, vi è una fase d’interrogazione, ove si estraggono i dati interessanti per una specifica patologia. Infine tocca all’Intelligenza Artificiale, che, con la classificazione e la predizione, consente, appunto, la medicina di precisione».
Di conseguenza, evidenzia Pavesi, «si rende necessario sviluppare figure professionali specializzate nella gestione e nell’analisi dei dati prodotti,in grado di possedere competenze matematiche, informatiche e statistiche e al tempo stesso conoscenze approfondite dal punto di vista biologico e bio- medico. Negli ultimi anni sono stati attivati in tutto il mondo percorsi di laurea universitari in grado di formare queste figure, come la laurea magistrale in bioinformatics for computational genomics, frutto della collaborazione tra Università Statale e Poli- tecnico di Milano». Specialisti nell’analisi dei dati che si trovano ad affrontare tre ostacoli principali: la mancanza di omogeneità nella rilevazione degli stessi dati, l’affidabilità di quelli raccolti e la resistenza a metterli in comune, che s’interseca con le problematiche sulla sicurezza e sulla privacy.
MANCANO UNA LINGUA UNICA E IL DISEGNO SPERIMENTALE
«Al momento non c’è una “comunità di linguaggio” nella rilevazione dei dati», precisa Clelia Di Serio. «Non esiste una piattaforma unica di rilevazione dati centralizzata, e neppure comune a livello regionale-locale, cioè tra ospedali della stessa regione. Ogni ospedale in Italia e all’estero opera in modo diverso e con piattaforme di raccolta dati diverse e definizioni del dato non standardizzate, a partire dalla stessa definizione di “caso clinico”. Restando al Covid-19, alcuni limitano la costruzione del database allo sviluppo della malattia, quindi ai pazienti ospedalizzati, altri comprendono anche soggetti con pochi sintomi e, quindi, una infezione monitorata a casa. Poi, c’è chi ha prelevato e conservato campioni di sangue per la misurazione eventuale della carica virale e chi no, chi ha dati clinici completi che includono anche fattori di rischio fondamentali per tutti i pazienti, come banalmente il peso e l’altezza (per il calcolo dell’indice di massa corporea) e chi no, per non parlare della definizione dei criteri di dimissione». Così i dati maggiormente affidabili e di alto livello qualitativo sono inevitabilmente quelli degli studi clinici spesso sponsorizzati dalle case farmaceutiche: «Hanno rigorose procedure di controllo che gli studi osservazionali, come questi della prima fase Covid raccolti su base emergenziale, non hanno».
Non solo. «Per capire il reale effetto di una malattia», riprende l’esperta di statistica, «bisogna avere dati raccolti con un disegno sperimentale, cioè campionando persone con le stesse caratteristiche, altrimenti ai Big Data si può far dire tutto e il contrario di tutto. Gli stessi questionari online rappresentano un campione distorto, difficilmente generalizzabile, perché selezionano solo i soggetti che vogliono rispondere».
I CONTRASTI SUL DATA SHARING
Un problema che tocca direttamente l’Italia è la resistenza nella condivisione dei dati (Data sharing), in un mondo in cui le informazioni sono raccolte sia da istituzioni pubbliche sia da aziende private. «La competizione è insita nella ricerca scientifica e non è un limite, invece è molto più grave che i dati non vengano resi disponibili alla totalità della comunità scientifica, magari dopo un periodo di “embargo” per consentire a chi li produce la pubblicazione dei risultati», precisa Ceri. Valentini solleva un problema che si potrebbe definire della proprietà intellettuale: «Prima di sfociare nei benefici per il paziente attraverso l’uso di terapie personalizzate, farmaci o apparecchi elettromedicali, i dati attraversano una filiera di valorizzazione che porta benefici economici ai settori sia di ricerca sia industriale. Ma il primo titolare del dato, il paziente, ne ha delegato la gestione alla struttura sanitaria alla quale si è rivolto e, quindi, chi genera il metadato, dalla misurazione del livello di glicemia fino alla diagnosi di tumore, ha il diritto di essere tutelato.
Quando a finanziare una ricerca sono enti pubblici, esiste il vincolo che i dati diventino pubblici, in caso contrario è necessario avere una filiera di retrocessione dei benefici economici. Un po’ alla volta, per la verità, sta offrendo soluzioni la tecnologia blockchain (in pratica un grande registro digitale in cui le voci sono raggruppate in blocchi concatenati in ordine cronologico, ndr), ma siamo ancora indietro».
LO SCUDO A DUE FACCE DELLA PRIVACY
A frenare il Data sharing sono spesso le regolamentazioni sulla privacy e la sicurezza. Da un lato tutti sono, infatti, concordi sulla necessità di garantire la privatezza dell’informazione, come prevede l’articolo 9 del Regolamento dell’Unione Europea del 2016 (GDPR), che, sintetizza Sosto, «impone un generale divieto di trattamento per i dati genetici, sulla vita e le abitudini sessuali, biometrici e più in generale sugli stati psicofisici passati, presenti e futuri delle persone. L’unica ipotesi di divulgazione di dati afferenti alla salute o sanitari può avvenire nei soli casi di ricerca a cui consegua la pubblicazione a fini scientifici, previa totale anonimizzazione e purché i dati vengano pubblicati in forma aggregata, in modo tale da non poter risalire in alcun modo all’identità dei pazienti coinvolti». Un uso inappropriato, infatti, causerebbe seri problemi: chi ha malattie pregresse potrebbe vedersi rifiutare polizze assicurative e posti di lavoro. «Dall’altro, però», fa notare Ceri, «in alcune costituzioni nazionali, italiana compresa, è inserito il diritto alla miglior cura. Quindi, ci sono forti motivi a sostegno di entrambe le tesi».
In Italia, tuttavia, la privacy «a volte diventa uno scudo dietro al quale trincerarsi per fare poco o nulla», non ha dubbi Carlo Salvioni, vice president strategy and operations della sede italiana di Iqvia, multinazionale leader nel settore della Human data science, la scienza dei dati applicata alla medicina. Un esempio è quello del consenso informato che firmiamo per il trattamento dei nostri dati sanitari, che limita le loro possibilità di uso: «Un non-sense dal punto di vista della genomica», accusa Ceri. «La ricerca clinica è inarrestabile nella sua capacità di fare sempre nuove scoperte, ma, se l’utilizzo del dato è limitato a un solo particolare tipo di ricerca…». Eppure, insiste Salvioni, «esistono tecnologie che consentono di rispettare la sfera personale, com’è giusto che sia, ma nello stesso tempo di estrarre il valore di salute che i dati contengono. Quelle che, infatti, non si misurano sono le occasioni di migliorare la nostra sanità perse per il mancato utilizzo di questi dati, che, anche quando ci sono, sono chiusi in server quasi inutilizzati». Esemplifica l’esperto del Politecnico di Milano: «Il sistema regionale lombardo è efficace, perché si riesce a trovare tutta la storia clinica recente, però un conto è raccogliere i dati e un conto renderli pubblici e disponibili per la ricerca. Anche in quest’ultimo periodo non posso dire che l’Italia si stia distinguendo per rendere accessibili quelli sul coronavirus. Escono pubblicazioni a firma di scienziati che, pur lavorando in vari comitati, si tengono ben stretti i dati in loro possesso». Il vicepresidente di Iqvia Italia, in particolare, evidenzia il ritardo nella collaborazione tra set- tore pubblico e privato: «Le Regioni sono la base del Sistema sanitario nazionale, ma, mentre alcune sono aperte e colgono le occasioni di sviluppo del settore, altre bloccano pregiudizialmente qualsiasi tipo di accesso ai dati».
Anche in questo periodo l’Italia non si è distinta nel rendere accessibili alla ricerca tutti i dati sul coronavirus
UN DIGITALE SPESSO SOLO SULLA CARTA
Non secondario è anche il ritardo tecnologico nel nostro Paese. «Oggi sono possibili studi in cui sono coinvolti ad hoc ospedali su specifici progetti, ma non esistono piattaforme per la ricerca, accademica e non», racconta ancora Salvioni. «Noi ci stiamo adoperando per svilupparle, avendo la tecnologia per farlo, ma richiedono competenze e strutture informatiche che gran parte degli ospedali ancora oggi non ha. Pensiamo alla cartella clinica elettronica e al fascicolo sanitario elettronico: per dirla con un gioco di parole, esistono sulla carta ma non sul digitale. Occorrono più investimenti pubblici in informatizzazione e digitalizzazione della sanità, sebbene non ci si aspetti tutto dallo Stato: anche i privati sono pronti a fare la loro parte».
Resta il fatto che non sempre i fondi arrivano, come conferma Parati: «Sto cercando da tempo di far partire un progetto per dare l’accesso ai dati cardiologici anche di altri Paesi europei, coinvolgendo la stessa Società Europea di Cardiologia, ma è difficile trovare finanziamenti, nonostante tutti si dicano interessati».
LA SPINTA DEL COVID-19
La speranza è che l’esperienza del Covid-19 dia una forte spinta per superare tutti i vincoli culturali, legislativi e tecnologici sui Big Data. Una spinta che, secondo Sosto di Federsanità-ANCI, c’è stata:
«In sanità la questione del dato come fonte primaria di programmazione è sempre stata prioritaria e in questo momento ha assunto un’importanza strategica. Si stanno riprogrammando molti dei sistemi informativi ai quali vengono “date in pasto” le informazioni. Seppur concepiti per assolvere a compiti amministrativi e per generare i flussi dati obbligatori, dalla loro elaborazione restituiscono un quadro clinico degli assistiti, anche di quelli che sono più a rischio. Velocizzate anche nuove iniziative di sanità digitale (visite online e telemedicina, come il monitoraggio dei pazienti diabetici attivato dalla nostra Asl Napoli 3 Sud), che consentono agli operatori sanitari di seguire da remoto i propri assistiti».
Tutte «tracce» che potrebbero confluire, chiaramente sempre in forma anonima, nell’universo dei Big Data, sebbene, ammetta ancora Sosto, «quello della costruzione dell’impalcatura nazionale di raccolta dati è certo un processo lungo, complicato e che necessita di mediazioni continue». Ma indispensabile per non restare indietro, anche a livello industriale, rispetto ad altri Paesi. «I Big Data vengono da tutti definiti una miniera d’oro», conclude Salvioni, «ma non serve starci seduti sopra. Bisogna, al contrario, attivare un processo complesso e costoso di estrazione di quel valore, anzitutto a favore dei pazienti. Ecco, in Italia tutti sappiamo che c’è l’oro, ma quasi nessuno lo sta estraendo».