Miscellanea
Domenica, 08 Ottobre 2023

Ricerca medica: quel delicato equilibrio tra statistica e intelligenza artificiale

A cura di Fabio Puglisi

Quali le sfide e le opportunità quando si applica l'intelligenza artificiale (IA) all'analisi dei dati medici? È noto come le analisi statistiche siano diventate una disciplina chiave nel campo della scienza applicata nel corso del tempo, con sviluppi come l'uso della randomizzazione negli studi clinici e l'analisi Bayesiana. Nel XXI secolo, l'IA ha guadagnato rilevanza nella ricerca medica grazie all'espansione della potenza di calcolo e alla disponibilità di enormi quantità di dati. Nei processi di cambiamento, però, è necessario individuare punti di forza e di debolezza, alla ricerca di un equilibro ottimale tra passato, presente e futuro.

Hunter DJ, Holmes C. Where Medical Statistics Meets Artificial Intelligence. N Engl J Med 2023;389(13):1211-1219. 

L'IA si distingue per la sua capacità di estrarre caratteristiche complesse dai dati in modo automatico, ma questa caratteristica rende le previsioni dell'IA difficili da interpretare e controllare. 

Sono almeno tre le sfide principali nell'interazione tra statistica e IA nella ricerca medica. Una di queste è la capacità dell'IA di estrarre automaticamente caratteristiche complesse dai dati durante la fase di addestramento. Questo approccio può generare modelli di previsione molto efficaci ma difficili da interpretare. Inoltre, l'IA può essere vulnerabile a problemi statistici, specialmente quando applicata alla medicina, dove la precisione e l'attendibilità delle previsioni sono fondamentali.

  1. Inferenza sulla Popolazione vs. Previsione: L'IA è spesso utilizzata per effettuare previsioni individuali, ma la ricerca medica richiede frequentemente inferenze sulla popolazione e la comprensione dei meccanismi biologici alla base delle malattie. Le tecniche di previsione dell'IA potrebbero non essere sufficientemente robuste per tali scopi.
  2. Generalizzabilità e Interpretazione delle Prove: I modelli AI possono produrre risultati eccezionali ma possono essere difficili da generalizzare a diverse popolazioni o contesti. La loro complessità può rendere complicata l'interpretazione dei risultati, in particolare quando si cerca di comprendere il razionale biologico.
  3. Stabilità e Garanzie Statistiche: L’IA può essere instabile e soggetta a variabilità a causa della complessità dei dati e delle scelte degli algoritmi. Questo richiede una valutazione critica della stabilità dell'intero processo di analisi.

I modelli di IA sono particolarmente adatti alle previsioni su larga scala, ma la medicina richiede spesso inferenze sulla popolazione e una comprensione meccanicistica. L’IA può produrre risultati eccezionali ma difficili da interpretare e verificare. Le procedure statistiche tradizionali possono contribuire a una migliore comprensione dei segnali di previsione delle AI e fornire una solida base per l'interpretazione.

Analizziamo alcune differenze riguardo a specifiche caratteristiche:

Caratteristica: Ipotesi

  • Metodi di Intelligenza Artificiale: Agnostiche o molto generali.
  • Metodi Statistici Convenzionali: Specifiche; spesso categorizzate come primarie, secondarie e esplorative.

Caratteristica: Tecniche (Esempi)

  • Metodi di Intelligenza Artificiale: Random forests, reti neurali, XGBoost.
  • Metodi Statistici Convenzionali: Confronti parametrici e non parametrici tra gruppi; modelli di regressione e di sopravvivenza con predittori lineari.

Caratteristica: Stabilità (end-to-end)

  • Metodi di Intelligenza Artificiale: Analisi più inclini a instabilità e variabilità dovute ai domini di applicazione (ad esempio, integrazione di dati multimodali) e alle scelte dell'utente nella specifica dell'algoritmo (ad esempio, architettura nel deep learning).
  • Metodi Statistici Convenzionali: Analisi stabili che seguono la specifica di un piano di analisi statistica con scelte minime dell'utente nella specifica del modello.

Caratteristica: Applicazioni

  • Metodi di Intelligenza Artificiale: Analisi di immagini, output da monitor, dati massicci con un numero limitato di predittori, set di dati tabulari (ad esempio, cartelle cliniche elettroniche salute, natural language processing).
  • Metodi Statistici Convenzionali: Scoperta di modelli; rappresentazione automatica delle caratteristiche; riduzione delle caratteristiche in un insieme più gestibile; modelli di previsione.

Caratteristica: Scopo

  • Metodi di Intelligenza Artificiale: Scoperta di modelli; rappresentazione automatica delle caratteristiche; riduzione delle caratteristiche in un insieme più gestibile; modelli di previsione.
  • Metodi Statistici Convenzionali: Inferenza statistica e test dei fattori specifici per la deviazione da un'ipotesi nulla, controllo della confusione e del bias di assegnazione, quantificazione dell'incertezza.

Caratteristica: Riproducibilità

  • Metodi di Intelligenza Artificiale: Spesso interna (eseguita con il set di dati originale); Idealmente esterna (eseguita con "nuovi" dati); test significativi contro ipotesi nulle per la validazione incrociata o campioni separati.
  • Metodi Statistici Convenzionali: Test statistici contro ipotesi nulle.

Caratteristica: Barriere

  • Metodi di Intelligenza Artificiale: Crescente utilizzo di algoritmi proprietari non disponibili ad altri ricercatori; mancanza di chiarezza nella segnalazione.
  • Metodi Statistici Convenzionali: Lento progresso nella condivisione di dati primari per consentire ad altri di verificare o estendere i risultati.

Caratteristica: Interpretabilità

  • Metodi di Intelligenza Artificiale: Spesso "scatola nera"; l'ingegneria delle caratteristiche automatiche introduce opacità.
  • Metodi Statistici Convenzionali: Caratteristiche esplicite; chiaro numero di parametri liberi e gradi di libertà.

Caratteristica: Equità

  • Metodi di Intelligenza Artificiale: L'apprendimento basato sui dati è suscettibile a pregiudizi presenti nei dati, aggravando le disuguaglianze in ambito sanitario.
  • Metodi Statistici Convenzionali: Modelli meno flessibili, più espliciti (interpretabili) che sono più facilmente controllabili per l'equità se i dati rilevanti sono disponibili.

Vi è necessità di trovare un equilibrio tra l'uso dell'intelligenza artificiale e della statistica tradizionale nella ricerca medica. 

Caratteristiche dei Modelli Statistici:

  • Statistici e clinici collaborano per progettare studi e analizzare i dati risultanti.
  • L'analisi è spesso prespecificata in un piano di analisi statistica, che include dettagli come l'elenco delle ipotesi primarie e secondarie, la specifica delle variabili da controllare, come verranno categorizzate le variabili e quali metodi statistici saranno utilizzati.
  • Le analisi statistiche seguono il piano e sono considerate esplorative solo se vengono eseguite ulteriori analisi dopo l'analisi principale.
  • Un secondo statistico che lavora con gli stessi dati e lo stesso piano di analisi dovrebbe produrre risultati quasi identici.
  • Le sfide emergono con dati ad alta dimensionalità, in cui ci sono molte variabili da diverse fonti, e molte opzioni per ridurre i dati e analizzarli.

Caratteristiche dei Modelli di Intelligenza Artificiale:

  • Gli algoritmi di IA possono analizzare grandi quantità di dati, ma la derivazione delle conclusioni dai dati può essere opaca.
  • Può essere impossibile per un analista riprodurre l'analisi e i risultati ottenuti da un algoritmo di IA che ha lavorato sugli stessi dati.
  • Preoccupazioni principali: sovradattamento e risultati falsi positivi che non sono riproducibili.
  • Gli algoritmi di IA potrebbero non riconoscere pregiudizi nei dati che un essere umano potrebbe comprendere.
  • La riproducibilità interna può essere valutata suddividendo i dati in set di scoperta e set di test.
  • La generalizzabilità su altri set di dati potrebbe essere limitata da peculiarità nel primo set di dati che non sono presenti in set di dati apparentemente simili.

In sintesi, i modelli statistici seguono piani di analisi ben specifici e favoriscono la riproducibilità, ma possono affrontare sfide con dati ad alta dimensionalità. Gli algoritmi di IA possono elaborare grandi quantità di dati, ma possono mancare di trasparenza e affrontare sfide legate alla riproducibilità e ai pregiudizi nei dati.

Collaborazioni tra statistici e medici sono essenziali per massimizzare i benefici dell'IA nella ricerca medica, mantenendo al contempo rigorosi standard di analisi. 

La trasparenza e la condivisione dei codici e dei risultati sono fondamentali per garantire l'affidabilità e la generalizzabilità dei risultati ottenuti con l’IA.