Miscellanea
Martedì, 26 Novembre 2019

Le promesse dell'intelligenza artificiale in oncologia

A cura di Fabio Puglisi

Arriva dal Memorial Sloan Kettering Cancer Center un approccio che utilizza l'intelligenza artificiale per migliorare l’accuratezza nella diagnosi dei tumori.

Penson A, et al. Development of Genome-Derived Tumor Type Prediction to Inform Clinical Cancer Care. JAMA Oncol 2019 [Epub ahead of print]

Un gruppo di ricercatori del Memorial Sloan Kettering Cancer Center presenta un approccio che applica l’intelligenza artificiale per l’interpretazione del profilo mutazionale relativo a un pannello di 468 geni, definito MSK-IMPACT (Memorial Sloan Kettering-Integrated Mutation Profiling of Actionable Cancer Targets). L’obiettivo è sviluppare un modello di predizione del tipo tumorale con l’utilizzo di un pannello genomico ottenuto partendo da dati clinici, incorporando informazioni su alterazioni molecolari e firme mutazionali.

Inizialmente, è stata utilizzata una “training cohort” prospettica da un totale di 7791 tumori diagnosticati in fase avanzata e riferibili a 22 diversi istotipi, con l’intento di definire dei classificatori che potessero distinguere la sede di origine (tessuto di origine) di ciascun tumore. A tal fine, sono stati valutati indel (eventi inserzione/delezione), varianti nucleotidiche, cambiamenti del numero di copie, riarrangiamenti strutturali.
Successivamente, i classificatori sono stati validati in una coorte indipendente di tumori provenienti da 11644 pazienti.

È stata ottenuta un’accuratezza di circa il 74% nel predire la corretta sede di origine (il corretto istotipo è stato predetto in 5748 dei 7791 pazienti nel training set, e in 8623 degli 11644 pazienti di una coorte indipendente), con performance diversa a seconda del tipo tumorale.
La capacità predittiva è stata espressa in termini di probabilità, indicativa dell’accuratezza su base empirica, con 3388 casi (43.5%) caratterizzati da un’elevata confidenza (probabilità >95%).
I migliori risultati sono stati ottenuti nella predizione di melanomi uveali, gliomi e carcinomi del colon-retto. Viceversa, laddove era presente una spiccata eterogeneità mutazionale (carcinomi esofago-gastrici, ovarici, e del distretto cervico-faciale) la capacità predittiva è stata modesta.

L’analisi genomica su plasma cell-free DNA (cfDNA) ha consentito predizioni accurate in 45 su 60 casi (75%), suggerendo che tale approccio può essere esteso a diversi contesti clinici che impiegano approcci di biopsia liquida.


L’accuratezza riferita alla capacità di orientare la diagnosi in carcinomi ad origine sconosciuta (CUP), confrontata con l’interpretazione del patologo ed espressa in termini di probabilità >50% del classificatore nel predire il tessuto di origine, è stata del 67.4% (95/141 casi).

L’intelligenza artificiale può complementare la valutazione istopatologica tradizionale e l’imaging per migliorare l’accuratezza nella diagnosi dei tumori.

L'approccio attraverso un modello di machine learning consente di migliorare la performance nel predire il tipo tumorale, basandosi sull’utilizzo di un pannello genomico ricavato dall'integrazione di dati clinici, informazioni su alterazioni molecolari e firme mutazionali.

Stiamo entrando in una nuova era, quindi attenzione alle promesse. Per questo, mettendo da parte per un attimo l'entusiasmo, analizziamo alcuni aspetti critici di cui dovremo tener conto ora e nel futuro.

L’algoritmo random forest è una tecnica di apprendimento che utilizza miriadi di alberi decisionali individuali aggregati in un singolo output. La foresta rappresenta gli alberi decisionali individuali, ciascuno con una propria capacità predittiva del tipo tumorale, e la classe del tipo di tumore con il più alto numero di “voti” diventa il modello predittivo.
L’accuratezza dell’algoritmo dipende da quanto ciascun albero si differenzia dagli altri ed è assicurata dalla possibilità che gli alberi attingano informazioni genomiche random dal training set. D’altro canto, le limitazioni del machine learning includono la potenziale introduzione di bias nel tempo, la necessità di una grosse mole di dati di alta qualità per istruire il modello, la scelta di un algoritmo adeguato alla domanda.
Sebbene possa sembrare che le mutazioni negli esoni di 468 geni costituiscano un data set cospicuo, alcune mutazioni del genoma della maggior parte dei tumori potrebbero non essere incluse nel pannello.
Si tratta di mutazioni ancillari, a volte chiamate mutazioni passenger, che per lo più si verificano in regioni non codificanti, e per le quali non è stata documentata un’utilità clinica.

Sebbene gli autori abbiano depositato il “source code” su GitHub, rimane da capire come il codice possa essere adottato da altri laboratori mantenendone l’integrità.
Il modello acquista forza in funzione della combinazione favorevole dei training data, della potenza del calcolo e dell’algoritmo di apprendimento. Più dati sono inseriti nel modello, più bias possono indebolire i risultati nel tempo, e se i dati sono “open source” diventa difficile un controllo degli stessi. Pertanto, sebbene affascinante, questa nuova era della medicina di precisione e dell’intelligenza artificiale richiederà strumenti innovativi per regolamentare e diffondere l’uso di queste straordinarie tecnologie.

Tenuto conto che la performance del classificatore non è necessariamente migliore della valutazione del patologo, e non essendo scontato che la conoscenza del tessuto di origine modifichi l’outcome dei pazienti, il vero valore aggiunto di un pannello genico è la possibilità di identificare mutazioni potenzialmente “actionable” dal punto di vista terapeutico.