Una revisione sistematica degli studi randomizzati pubblicati in ambito oncologico documenta l’elevata incidenza delle analisi di sottogruppo nei lavori. Molti aspetti metodologici lasciano a desiderare, e bisogna sempre tener presente il rischio di risultati falsi positivi o falsi negativi legati alla molteplicità dei test.
Paratore C, Zichi C, Audisio M, Bungaro M, Caglio A, Di Liello R, Gamba T, Gargiulo P, Mariniello A, Reale ML, Perrone F, Di Maio M. Subgroup analyses in randomized phase III trials of systemic treatments in patients with advanced solid tumours: a systematic review of trials published between 2017 and 2020. ESMO Open. 2022 Oct 10;7(6):100593. doi: 10.1016/j.esmoop.2022.100593. Epub ahead of print. PMID: 36228332.
Nell’era della medicina e dell’oncologia di precisione, è perfettamente lecita la curiosità scientifica di andare “oltre” il risultato ottenuto nella popolazione complessiva di uno studio clinico, esplorando l’eventuale eterogeneità dell’effetto nei vari sottogruppi di pazienti.
I sottogruppi possono essere identificati ad esempio sulla base delle caratteristiche cliniche dei pazienti o delle caratteristiche della malattia (incluse le caratteristiche molecolari): anche nell’ambito di uno studio complessivamente positivo, sarebbe interessante sapere se l’efficacia del trattamento sperimentale è sovrapponibile in tutti i pazienti, o se ci sono alcune caratteristiche che predicono una minore efficacia. Al contrario, nell’ambito di uno studio negativo, può essere interessante identificare sottogruppi nei quali il trattamento sperimentale sembra essere migliore.
Bisogna però essere consapevoli che le analisi di sottogruppo implicano un rischio di risultati falsi positivi e falsi negativi, e quindi vanno condotte, presentate e interpretate con estrema cautela.
Una recente revisione della letteratura è stata condotta con l’obiettivo di descrivere la prevalenza e le caratteristiche metodologiche delle analisi di sottogruppo negli studi randomizzati condotti in ambito oncologico. Sono stati inclusi gli studi di fase III condotti in pazienti con tumori solidi in stadio localmente avanzato o metastatico, pubblicati nell’arco temporale compreso tra il gennaio 2017 e il dicembre 2020.
Obiettivi dell’analisi erano:
Nel complesso, la revisione dei 4 anni ha consentito di identificare 253 studi.
Le analisi di sottogruppo erano presenti in 217 pubblicazioni, pari all’86% degli studi. In particolare, eranopresenti nel 94% degli studi profit, rispetto al 70% degli studi no-profit (tale differenza risulta statisticamente significativa, p<0.001).
La descrizione della metodologia delle analisi di sottogruppo risultava completamente mancante in 82 studi (pari al 38%), le analisi erano solamente citate nei metodi senza alcun dettaglio metodologico in 100 studi (pari al 46%), mentre erano descritte nel dettaglio in 35 studi (pari al 16%).
Il 77% delle pubblicazioni conteneva (nel paper principale o nell’appendice) un forest plot con le analisi di sottogruppo per l’endpoint primario dello studio.
Nelle pubblicazioni con un forest plot, nelle quali è stato possibile contare il numero delle variabili e dei sottogruppi inseriti, il numero mediano di variabili nel forest plot dell’endpoint primario era pari a 9 (range 3 – 19) mentre il numero mediano di sottogruppi era pari a 19 (range 6 – 78).
Nelle 217 pubblicazioni che includevano analisi di sottogruppo, gli autori discutevano la presenza o l’assenza di eterogeneità tra i sottogruppi in 173 pubblicazioni (pari all’80%), ma un test formale di interazione era presente solo nel 28% dei lavori. Il 17% dei lavori contiene un p value per il confronto condotto nel singolo sottogruppo (il che è metodologicamente sbagliato).
In alcuni casi, passati in rassegna nel lavoro, le analisi di sottogruppo hanno avuto un ruolo rilevante nel disegno dello studio (analisi principale pianificata in un sottogruppo), nonché dal punto di vista regolatorio.
L’analisi dei lavori pubblicati tra il 2017 e il 2020 conferma l’elevata prevalenza di analisi di sottogruppo nella letteratura oncologica. Spesso le analisi sono condotte senza specificare (almeno nei metodi del lavoro, dal momento che il protocollo dello studio non è sempre disponibile) se le analisi fossero realmente prepianificate (vale a dire con una precisa ipotesi di efficacia differente nei sottogruppi), oppure solo prespecificate (elencando le variabili di interesse, senza però una ipotesi esplicita), oppure semplicemente condotte post hoc.
Come noto, la molteplicità dei test statistici intrinseca nella conduzione delle analisi di sottogruppo amplifica il rischio di ottenere uno o più risultati falsi positivi (l’errore alfa 0.05 è la soglia convenzionalmente accettata per il singolo test, ma ad esempio già eseguire l’analisi di sottogruppo in maschi e femmine oltre alla popolazione complessiva significa eseguire 3 test, e non 1 solo). Inoltre, la numerosità ridotta dei sottogruppi rispetto alla popolazione complessiva riduce intrinsecamente la potenza dell’analisi, aumentando il rischio di risultato falso negativo.
Di conseguenza, è chiaro che non andrebbe eseguito il test di confronto fra i trattamenti in ogni singolo sottogruppo, eppure una percentuale non trascurabile di lavori (specialmente nelle riviste con impact factor minore) contiene il p value per ciascun sottogruppo. Al contrario, solo una minoranza di lavori contiene il test di interazione, che esplora in maniera formalmente corretta (seppure ovviamente anch’esso limitato dalla scarsa potenza e dalla molteplicità dei test) la presenza di eterogeneità nell’efficacia dei trattamenti sulla base di una specifica variabile.
Le analisi di sottogruppo sono ovviamente legittime, ma andrebbero eseguite, presentate e interpretate con cautela. Specialmente se non prepianificate, dovrebbero avere un ruolo di generazione di ipotesi, anche se non c’è dubbio che, di fatto, sia spesso difficile immaginare di produrre evidenza prospettica sulla base del risultato di una analisi di sottogruppo. Bisognerebbe sempre tener presente il rischio di risultati falsi positivi e falsi negativi legati alla molteplicità dei test. La plausibilità del risultato osservato, e l’eventuale consistenza di risultati tra analisi di sottogruppo di studi simili, dovrebbero avere un peso nell’interpretazione dei risultati.
I numeri rilevati, e soprattutto le carenze metodologiche dei lavori, dimostrano che c’è un ampio margine di miglioramento nella modalità di analisi e di presentazione di questi risultati, e maggiore attenzione da parte di autori, revisori ed editori aiuterebbero i lettori e la comunità scientifica a fare il “giusto uso” delle analisi di sottogruppo presentate nei lavori.