Miscellanea
Lunedì, 28 Agosto 2023

Allucinazioni dell'intelligenza artificiale nelle decisioni terapeutiche in oncologia

A cura di Fabio Puglisi

I modelli di linguaggio avanzati (Large language models, LLM) sono una tecnologia di intelligenza artificiale che può comprendere e generare testo umano, addestrata su grandi quantità di informazioni scritte. I modelli GPT nel campo medico stanno dimostrando buone prestazioni, anche avvicinandosi ai risultati degli esami per ottenere la abilitazione di medico negli Stati Uniti.

Uno studio ha testato GPT-3.5 per individuare le strategie di trattamento in vari tipi tumorali (carcinoma mammario, prostatico, polmonare), esaminando il grado di accordo con le raccomandazioni NCCN. Vediamo cosa è emerso.

Chen S, et al. Use of Artificial Intelligence Chatbots for Cancer Treatment Information. JAMA Oncol 2023 (Epub ahead of print). 

L'utilizzo dei modelli di linguaggio avanzati (Large language models, LLM), alla base dei chatbot, può imitare il linguaggio umano e restituire rapidamente risposte dettagliate e coerenti. Tuttavia, in alcune circostanze i chatbot possono fornire informazioni errate. Poiché i pazienti spesso utilizzano Internet per l'autoistruzione, è probabile che alcuni utilizzino chatbot LLM per trovare informazioni mediche correlate alla patologia tumorale, il che potrebbe portare alla generazione e all'amplificazione di disinformazione. Uno studio ha valutato le prestazioni di un chatbot LLM nel fornire raccomandazioni di trattamento per carcinoma mammario, prostatico e polmonare coerenti con le raccomandazioni del National Comprehensive Cancer Network (NCCN).

Lo studio ha utilizzato dei modelli di richiesta zero-shot per ottenere raccomandazioni di trattamento. I modelli zero-shot sono un tipo di modelli di intelligenza artificiale addestrati per svolgere compiti senza ricevere esempi specifici nel corso dell'addestramento. In altre parole, questi modelli sono in grado di eseguire compiti per i quali non sono stati esposti a dati di addestramento dettagliati. 

I modelli sono stati utilizzati per creare 4 varianti di richieste per 26 descrizioni di diagnosi (tipi di tumore con o senza variabili relative all'estensione della malattia) per un totale di 104 richieste. Le richieste sono state inserite nel modello GPT-3.5-turbo-0301 tramite l'interfaccia ChatGPT (OpenAI). 

Le raccomandazioni del chatbot sono state confrontate con le linee guida NCCN del 2021 perché il limite di conoscenza di questo chatbot era settembre 2021. 

Sono stati sviluppati cinque criteri di valutazione per valutare la conformità alle linee guida. L'output non doveva raccomandare tutti i possibili regimi per essere considerato conforme; l'approccio terapeutico raccomandato doveva essere solo una scelta NCCN. 

La conformità dell'output del chatbot con le linee guida NCCN è stata valutata da 3 dei 4 oncologi certificati, e la regola della maggioranza è stata adottata come punteggio finale. Nei casi di completa discordanza, è stato il medico oncologo che non aveva visto precedentemente l'output a prendere una decisione. I dati sono stati analizzati tra il 2 marzo e il 14 marzo 2023.

I risultati delle 104 richieste uniche sono state valutate secondo 5 criteri, per un totale di 520 punteggi. Tutti e 3 gli annotatori hanno concordato su 322 dei 520 (61.9%) punteggi. Le discordanze tendevano a emergere quando l'output non era chiaro (ad esempio, quando non era specificato quali trattamenti multipli combinare). Per 9 delle 26 (34.6%) descrizioni di diagnosi, i 4 prompt hanno fornito gli stessi punteggi per ciascuno dei 5 criteri di valutazione. L'output del chatbot ha fornito almeno una raccomandazione per 102 su 104 (98%) richieste. Tutti gli output con una raccomandazione includevano almeno un trattamento concordante con le linee guida NCCN, ma 35 su 102 (34.3%) di questi output hanno raccomandato anche uno o più trattamenti non concordanti. 

Sono state generate risposte "allucinate" (cioè, non facevano parte di alcun trattamento raccomandato) in 13 su 104 (12.5%) output. Le allucinazioni erano principalmente raccomandazioni per il trattamento localizzato di malattie avanzate, terapia mirata o immunoterapia.

 
La comunità medica è interessata ai modelli di linguaggio avanzati (LLM), in particolare i chatbot, come ChatGPT di OpenAI.
 
Uno studio incentrato sul processo decisionale terapeutico in oncologia, ha evidenziato discordanze tra le raccomandazioni del chatbot e le raccomandazioni NCCN, alcune (12.5%) considerate vere e proprie "allucinazioni" in quanto errate o incoerenti. 
 

Nuovi LLM specifici per la medicina stanno emergendo, ma è necessario utilizzare dati medici di alta qualità per il loro addestramento. La variabilità nelle risposte degli LLM dipende dai prompt, e prompt più dettagliati possono massimizzare il loro potenziale.

La prospettiva futura degli LLM in medicina è promettente, ma richiede uno sforzo collaborativo tra professionisti medici, sviluppatori di modelli di intelligenza artificiale e autorità regolatorie.