Viene stimato che il cancro sia stato la causa di 9,6 milioni di morti nel 2018, con circa 18 milioni di nuovi casi segnalati nello stesso anno. Nel corso della 18esima Conferenza europea sulla biologia computazionale, IBM ha quindi pensato di affidare alla comunità open source tre suoi progetti di intelligenza artificiale mirati alla lotta contro i tumori.

Gli studi attuali sullo sviluppo dei tumori fotografano diverse cause, quali la predisposizione genetica, i fattori ambientali come l’inquinamento, la dieta, e sostanze come il fumo di sigaretta, che vengono indicate anche come fattori che determinano la probabilità di ammalarsi di cancro.

I ricercatori del gruppo IBM Computational Systems Biology di Zurigo stanno lavorando sulle intelligenze artificiali e sui sistemi di machine learning per accelerare, aiutare e organizzare l’insieme dei dati di ricerca al fine di comprendere i principali fattori e i meccanismi molecolari di malattie così complesse come i tumori.

Modello dell'algoritmo PaccMann

Prevedere i farmaci che verranno

Il primo algoritmo di machine learning prende il nome di PaccMann. Una curiosa assonanza con il celebre nome del videogioco degli anni '80 dovuta, forse, al modo in cui l’algoritmo mastica senza sosta analisi di composti chimici, prevedendo quali possano essere i più probabili per combattere determinati ceppi di cancro.

IBM sostiene che, identificando in anticipo i principali composti antitumorali, sia possibile ridurre i costi della ricerca e dello sviluppo, dato che per questo tipo di farmaci le spese da affrontare possono sommare milioni di dollari.

Modello dell'algoritmo INtERAcT

Macinare 17.000 pubblicazioni scientifiche all'anno

Interact, ovvero "Interaction Network Inference from Vector Representations of Words", è un altro masticatore di dati, ma questa volta a finire nello stomaco dell’algoritmo sono gli oltre 17.000 articoli scientifici pubblicati ogni anno nel campo della ricerca sul cancro. Un monte di dati accademici di tali dimensioni può essere difficile da scalare dagli stessi ricercatori, che potrebbero perdere preziose informazioni in un territorio così vasto di dati.

Interact estrae automaticamente le informazioni dai documenti scientifici pubblicati. Al momento, l’algoritmo è in fase di sperimentazione e si sta concentrando sull'estrazione di dati relativi alle interazioni proteina-proteina: un'area di studio che è stata identificata come una potenziale causa di interruzione dei processi biologici in alcune malattie, compreso il cancro.

IBM dice che “un particolare punto di forza di Interact è la sua capacità di dedurre le interazioni nel contesto di una specifica malattia. Il confronto con le normali interazioni in tessuti sani può potenzialmente aiutare a ottenere informazioni sui meccanismi della malattia."

Modello dell'algoritmo PIMKL

Capire la progressione della malattia

L’ultimo progetto donato da IBM al mondo open-source è il "percorso-indotto di apprendimento kernel multipli," o PIMKL. Questo algoritmo utilizza set di dati che descrivono ciò che attualmente conosciamo delle interazioni molecolari, al fine di prevedere la progressione del cancro e le potenziali ricadute nei pazienti.

PIMKL utilizza il cosiddetto "multiple kernel learning" per identificare i percorsi molecolari cruciali per la categorizzazione dei pazienti, dando agli operatori sanitari l'opportunità di individuare e personalizzare i piani di trattamento.

I codici di PaccMann e Interact sono disponibili sui siti web dei progetti. PIMKL invece è stato distribuito su IBM Cloud ed è stato reso pubblico anche il codice sorgente.