Con l’intelligenza artificiale la ricerca tiene il passo dell’urgenza
Il bioinformatico Francesco Napolitano, ricercatore presso l’Università degli studi del Sannio, implementa un sistema automatico per filtrare e descrivere le pubblicazioni scientifiche.
La pandemia da Covid-19 è stata la prima pandemia dell’era digitale e ha stimolato sistemi di produzione della conoscenza, modificando le modalità di comunicazione della ricerca sanitaria. Tra questi cambiamenti c’è stata una proliferazione degli studi di ricerca e un ricorso all’uso di pubblicazioni e preprint (documenti di ricerca pubblicati online prima della revisione formale da parte dei pari).
Abbiamo intervistato Francesco Napolitano, docente di bioinformatica e ricercatore presso il Dipartimento di Scienze e tecnologie dell’Università degli Studi del Sannio, che durante la pandemia, si trovava in Arabia Saudita presso la King Abdullah University e nel gennaio del 2022, insieme ai colleghi Xiaopen Xu e Xin Gau, ha pubblicato sulla rivista Briefings in Bioinformatics, una sintesi guidata dall‘IA (Intelligenza Artificiale), sull’impatto dell’approccio computazionale durante la crisi globale del Covid-19.
Il gruppo di ricerca ha sviluppato un software per raccogliere in modo automatico ben 17269 studi relativi a Covid-19 e tecnologie digitali da più fonti, categorizzandoli per argomenti attraverso un modello di rete neurale e fornendo un’ampia revisione sistematica manuale (review) di sintesi e descrizione degli studi selezionati.
Francesco Napolitano, ricercatore presso l’Università degli Studi del Sannio.
Per prima cosa abbiamo chiesto a Francesco Napolitano in cosa consiste il lavoro del bioinformatico
“La Bioinformatica è la scienza che studia l’applicazione degli strumenti informatici alle problematiche biologiche. Data la nostra attuale capacità di generare enormi quantità di dati biologici, il ricorso ad analisi automatizzate è diventato indispensabile – per fare un esempio – uno dei più grandi traguardi scientifici degli ultimi decenni, ovvero il sequenziamento del genoma umano, non sarebbe stato possibile senza un computer in grado di risolvere l’enorme puzzle costituito dai milioni di piccoli frammenti di DNA ottenuti dalla sequenza completa. Al pari di provette e microscopi il computer sta diventando sempre più uno strumento fondamentale per il biologo.”
Aggiunge poi – “Abbiamo vissuto la prima grave pandemia dell’era digitale e nonostante siamo stati colti di sorpresa, l’intelligenza artificiale ci ha aiutato a studiare la struttura del virus SARS-CoV-2, ad accelerare lo sviluppo dei vaccini, a predirne l’evoluzione sviluppando modelli di rischio di supporto ai governi, dobbiamo perciò aspettarci che in futuro l’impatto delle tecnologie sarà ancora maggiore.”
Qual è lo scopo principale dello studio?
“In emergenza Covid – risponde – si è avuta una proliferazione di studi scientifici riguardanti i vari aspetti della pandemia, ad un certo punto però è necessario capire cosa è veramente importante e quali sono le strade più promettenti, la ricerca impiega anni per fare il suo corso, solo poco per volta si comprende dove bisogna dirigere gli sforzi. L’orientamento della letteratura si sviluppa con migliaia di studiosi che leggono negli anni; uno strumento automatico invece prende migliaia di studi e anziché aspettare che la ricerca compia il suo corso, individua gli argomenti più significativi sui quali la comunità scientifica sta lavorando.”
Poi sottolinea – “lo studio è una review che utilizza l’IA con lo scopo di mostrare come sono state impiegate le tecnologie digitali nella diagnosi, nella scoperta dei farmaci, nella somministrazione dei vaccini. La novità sta nello step di automazione perché normalmente questo lungo lavoro viene fatto manualmente. L’intelligenza artificiale fa una scrematura automatica degli studi, li legge e ci dice quali sono interessanti da analizzare in un secondo momento.”
D’altra parte come sottolineato anche dal Rapporto 2021 dell’Unesco, il numero di pubblicazioni scientifiche per abitanti e le collaborazioni internazionali sono tra i parametri utilizzati per misurare lo sviluppo dei Paesi verso gli obiettivi dell’Agenda 2030, l’attenzione è rivolta maggiormente verso le tecnologie strategiche trasversali che al primo posto vedono i sistemi di IA e robotica. Lo studio è pertanto rilevante ai fini dello sviluppo della ricerca perché nei prossimi anni il numero di pubblicazioni è destinato ad aumentare e avremo sempre più bisogno di sistemi automatici per analizzarli.
Che sistema è stato implementato?
“Si è costruito un database selezionando i paper che parlavano di Covid-19 e di tecnologie digitali da quattro fonti di ricerca: PubMed per gli articoli pubblicati su riviste, arXiv, bioRxiv e medRxiv per gli articoli preprint. Gli studi sono stati raggruppati per argomenti utilizzando il modello LDA (Latent Dirichlet Allocation). Abbiamo inoltre sviluppato un modello di rete neurale profonda -Deep Neural Network– per calcolare la probabilità che gli articoli di preprint passino la revisione paritaria. L’algoritmo poi legge i documenti e predice la qualità dello studio e il suo impatto sulle altre ricerche.”
Si tenga presente che il piano strategico europeo del programma quadro di ricerca Horizon Europe, per raggiungere gli obiettivi di una “scienza aperta”, stabilisce per il 2022 nuovi criteri di valutazione della ricerca e dell’innovazione che tengano conto oltre che delle pubblicazioni, anche delle metodologie e dei software adoperati. Il sistema di valutazione passato era basato sull’Impact Factor, legato principalmente all’autorevolezza delle riviste e molti paesi europei stanno cominciando ad abbandonarlo.
A tal proposito Napolitano precisa – “il sistema implementato raggruppa gli studi considerando le metodologie e agli approcci computazionali adoperati, e assegna una rilevanza in base al contenuto, all’autorevolezza dello scienziato, alle citazioni e al numero di download dell’articolo, così da non trascurare i giovani autori”.
Per trovare le associazioni tra chiavi di ricerca e argomenti si fa uso dei dati omici.
Alla nostra domanda su cosa siano i dati omici Napolitano risponde: “facciamo un esempio, i dati omici più noti sono i dati genomici, in passato si parlava di genetica poi si è cominciato a parlare di genomica; mentre la genetica studia un gene per volta la genomica studia l’intero corredo genetico di un organismo quindi è un livello comprensivo – poi aggiunge – in biologia molecolare si parla quindi di omica quando ci si riferisce ad un aspetto comprensivo di tutti i prodotti molecolari.”
La seguente mappa riassume il risultato della categorizzazione degli articoli, gli argomenti sono raggruppati per colori, ogni punto è collegato ad un articolo e gli articoli giudicati simili in base alle parole chiave estratte, sono vicini.
A) Categorizzazione degli articoli nel database, ogni punto rappresenta un articolo e la vicinanza dei punti riflette la somiglianza dell’articolo, i colori rappresentano l’argomento estratto come riportato nel riquadro B. B) Le prime 10 parole chiave negli abstract degli articoli identificano ciascuno dei sei argomenti estratti. C) Numero di articoli per argomento. (ⓒ The Author(s) 2021. Published by Oxford University Press.)
Parliamo di qualche risultato significativo della sintesi.
“La selezione delle pubblicazioni è guidata dall’IA ma nella review vera e propria i documenti sono stati da noi letti e descritti per cui l’ultima fase è completamente manuale. Di questi studi voglio citare l’uso delle app di intelligenza artificiale per la diagnosi delle malattie respiratorie ottenuta analizzando un colpo di tosse registrato con lo smartphone. Pfizer ha recentemente acquistato una delle principali aziende nel campo la cui applicazione, sotto supervisione medica è già stata approvata in Australia. Nel prossimo futuro potremmo quindi aspettarci che i nostri cellulari diventino anche dei dispositivi diagnostici diffusi e facilmente utilizzabili da tutti.”
Il database creato è specifico per gli studi sul Covid-19 che utilizzano tecniche informatiche e si rivolge principalmente alla comunità scientifica, ma il sistema può essere riutilizzato in tutti i campi della ricerca raccogliendo nuovi articoli ordinati in base ad altri criteri di ricerca, basta ripartire dallo step iniziale.
Ricadute sulle scelte dei decisori politici e sull’informazione
“Le categorie e i dati omici estratti ci dicono dove la ricerca si sta indirizzando in un determinato momento, il decisore che ha bisogno di capire subito cosa sta succedendo può scegliere la direzione più promettente e decidere in quale tecnologia investire” – conclude il ricercatore.
La ricerca affannosa dei primi studi sul Covid-19 da parte di decisori politici e giornalisti è narrata anche nelle prime puntate della serie televisiva su Boris Johnson “This England”. Non bisogna poi trascurare che durante la pandemia anche i giornalisti hanno fatto un grande ricorso ai preprint utili per la condivisione rapida delle informazioni. Rispetto ad altri campi il loro uso nelle scienze sanitarie e biomediche è storicamente in ritardo per il potenziale pericolo di fuorviare il pubblico ed è stato oggetto di una ricerca di Alice Fleerackers.
Il caso Covid rientra nel quadro della Scienza Post-Normale PNS, dove i livelli di incertezza sono alti, i valori coinvolti sono molto rilevanti per la società, alte sono le poste in gioco e le decisioni risultano urgenti. Possiamo quindi concludere che l’uso dei preprint da parte di giornalisti e decisori politici così come lo studio di Napolitano, costituiscono proprio una risposta alla scienza post-normale. Gli scienziati possono fornire a giornalisti e decisori gli strumenti per contestualizzare le nuove ricerche, descrivere il processo della scienza coinvolgere attivamente il pubblico, prendere decisioni urgenti.
Bruna Varrone (giornalista scientifico)