I test di profilazione genomica (comprehensive genome profiling, CGP) sono sempre più utilizzati nell'oncologia di precisione per guidare le scelte terapeutiche rivolte a pazienti con patologia tumorale in stadio avanzato. Tuttavia, ad oggi, l'utilità clinica dei test CGP rimane controversa.
Questo studio si propone di esaminare l'efficacia di un programma di apprendimento mirato a migliorare le raccomandazioni di trattamento, concentrandosi su alterazioni genomiche con bassi livelli di evidenza. Si utilizzano casi simulati di carcinoma avanzato e si esamina anche l'efficienza di un sistema di annotazione basato sull'intelligenza artificiale (IA) per migliorare le decisioni cliniche.
Sunami K, et al. A Learning Program for Treatment Recommendations by Molecular Tumor Boards and Artificial Intelligence. JAMA Oncol 2023. Epub ahead of print.
Esiste una sostanziale eterogeneità nelle raccomandazioni di trattamento tra diversi molecular tumor board (MTB), specialmente nella valutazione dei biomarcatori dove vi sono bassi livelli di evidenza.
Lo studio si è posto l’obiettivo di determinare se un programma di apprendimento (learning program) che analizza raccomandazioni di trattamento per biomarcatori con bassi livelli di evidenza può contribuire alla standardizzazione dei MTB. Inoltre, gli autori si sono prefissi di indagare l'efficacia di un sistema di annotazione basato sull'intelligenza artificiale (IA).
DISEGNO: Studio prospettico di miglioramento della qualità basato su 50 casi simulati per valutare la concordanza delle raccomandazioni di trattamento tra un comitato centrale e 47 partecipanti che si sono candidati tra aprile e maggio 2021. I cinquanta casi simulati sono stati divisi casualmente in gruppi di valutazione pre-apprendimento e post-apprendimento per valutare la concordanza basata su indagini precedenti.
I partecipanti includevano MTB presso ospedali hub, medici operanti presso ospedali centrali e sistemi di IA. Ogni partecipante ha:
I dati sono stati analizzati dal 2 settembre al 10 dicembre 2021.
Il programma di apprendimento ha istruito in merito alla metodologia per formulare raccomandazioni di trattamento appropriate, specialmente per biomarcatori con bassi livelli di evidenza.
Endpoint primario: proporzione di MTB che hanno soddisfatto criteri di accreditamento predefiniti per valutazioni post-apprendimento (circa il 90% di concordanza con alti livelli di evidenza e circa il 40% con bassi livelli di evidenza).
Endpoint secondari: miglioramenti cronologici nella concordanza delle raccomandazioni di trattamento nelle valutazioni post-apprendimento rispetto alle valutazioni pre-apprendimento. La concordanza delle raccomandazioni di trattamento di un sistema IA è stata un endpoint esploratorio.
Dei 47 partecipanti che si sono candidati, 42 erano idonei.
Il tasso di accreditamento dei MTB è stato del 55.6% (IC al 95%, 35.3%-74.5%; P < .001).
La concordanza nei MTB è aumentata dal 58.7% (IC al 95%, 52.8%-64.4%) al 67.9% (IC al 95%, 61.0%-74.1%) (odds ratio, 1.40 [IC al 95%, 1.06-1.86]; P = .02).
Nelle valutazioni post-apprendimento, la concordanza delle raccomandazioni di trattamento del sistema IA è stata significativamente superiore rispetto a quella dei MTB (88.0% [IC al 95%, 68.7%-96.1%]; P = .03).
I risultati di uno studio di miglioramento della qualità suggeriscono che l'uso di un programma di apprendimento migliora la concordanza delle raccomandazioni di trattamento fornite dai MTB.
Inoltre, le raccomandazioni di trattamento formulate da un sistema di intelligenza artificiale hanno mostrato una maggiore concordanza rispetto a quelle dei MTB, indicando la potenziale utilità clinica del sistema di IA.
Nel postlearning, il tasso di accreditamento dei MTB è stato del 55.6% (IC 95%, 35.3%-74.5%; P < .001), significativamente superiore alla soglia prespecificata.
La concordanza per casi con biomarcatori con bassi livelli di evidenza è migliorata significativamente tra i MTB nel postlearning (OR, 1.32 [IC 95%, 1.00-1.73]). Questi risultati indicano che il programma di apprendimento aumenta la concordanza tra le raccomandazioni di trattamento fornite dagli MTB.
In questo studio, le raccomandazioni di trattamento generate dal sistema di IA avevano una concordanza superiore rispetto a quelle generate dagli MTB, in particolare per le alterazioni genomiche con bassi livelli di evidenza (81.3% [IC 95%, 55.3%-93.8%] e 49.1% [IC 95%, 38.7%-59.7%], rispettivamente; P = .02).
Limiti dello studio: Sono state confrontate raccomandazioni di trattamento tra MTB e raccomandazioni centrali, ma non è stato valutato direttamente il loro impatto sui pazienti. Inoltre, le valutazioni si basavano su casi simulati, non reali. È stato esaminato solo un sistema di IA.