Rx torace, studio real world valuta un modello di intelligenza artificiale

(immagine archivio)

Le radiografie del torace sono tra le più richieste ed effettuate dai servizi ospedalieri, essendo utili per verificare lo stato di polmoni, cuore e degli altri organi presenti nel mediastino. Con l’avvento dell’intelligenza artificiale in medicina molti gruppi di ricerca hanno sviluppato modelli capaci di individuare e interpretare anomalie in queste radiografie: alcuni di questi focalizzati su specifiche patologie e altri, invece, a più ampio raggio d’azione.

Tuttavia, come emerge da uno studio vietnamita, la quasi totalità di questi modelli è stata validata su dataset preesistenti di dati e non direttamente in clinica: un’abitudine che potrebbe rappresentare un problema. Sappiamo infatti che tanti dei modelli di intelligenza artificiale ideati in ambito medico non riescono poi a uscire dal laboratorio per una reale applicazione in setting clinici. Gli autori del lavoro presentano quindi un nuovo metodo di validazione, effettuato direttamente in ambito clinico.

Sede del progetto, l’ospedale Phu Tho General Hospital. Il modello validato si chiama VinDr-CXR ed è stato sviluppato dallo stesso gruppo di ricerca, per poi essere integrato nel Pacs ospedaliero. Il processo prevede che le radiografie vengano interpretate dagli specialisti, in maniera tradizionale e i referti inseriti nel sistema informatico ospedaliero. Ogni due mesi il VinDr-CXR analizza automaticamente tutte le radiografie toraciche inserite nel Pacs, dando le proprie interpretazioni: gli esiti così ottenuti vengono confrontati con i referti elaborati dagli specialisti.

Per questo studio, gli autori hanno deciso di utilizzare il modello di IA in modalità binaria, sebbene sia in grado di valutare in modo più approfondito una lesione. In soli due mesi è stato possibile effettuare il confronto su 6.285 radiografie, 4.529 normali e 1.756 con lesione. Il modello VinDr-CXR ha mostrato una accuratezza nel discernere tra presenza o meno di lesione del 79.6%, una sensibilità del 68.6% e una specificità del 83.9%.
Percentuali interessanti che si scontrano, tuttavia, con il valore dello score F1: questo risulta essere pari a 0.653 nel setting clinico, inferiore allo 0.831 calcolato in riferimento alla validazione effettuata inizialmente su un dataset retrospettivo. Si tratta di valori che dovrebbero attestare una minore accuratezza del modello in un contesto real world rispetto al laboratorio.

Tuttavia, questo dato non dovrebbe stupire poi molto: è chiaro che, usciti dal modello ideale, uno strumento interpretativo possa modificare la propria accuratezza… è proprio per questo che è necessario effettuare validazioni anche in ambito clinico. Per tornare allo studio, gli autori hanno discusso la differenza nei dati dello score F1, individuando alcune possibili cause: in primis, la diversa percentuale di radiografie con lesione presente nel dataset retrospettivo (48.4%) rispetto al setting clinico (27.9%) e la diversa natura delle lastre esaminate, da radiografia computerizzata e digitale, nel caso della validazione di laboratorio, e solo da radiografia digitale nello studio sul campo.

Lo studio dimostra, in ogni caso, che prima di poter utilizzare un modello di IA in clinica bisogna migliorare la sua capacità di generalizzazione perché possa lavorare su vari set di dati e, quindi, trovare applicazione in diversi contesti clinici.
Ogni ospedale ha, infatti, i propri macchinari e sistemi informatici e un algoritmo predittivo, o di supporto decisionale, per essere davvero utile, deve poter lavorare in ogni contesto.

(Lo studio: Nguyen NH, Nguyen HQ, Nguyen NT, Nguyen TV, Pham HH and Nguyen TN-M (2022). Deployment and validation of an AI system for detecting abnormal chest radiographs in clinical settings. Front. Digit. Health 4:890759. doi: 10.3389/fdgth.2022.890759)

Stefania Somaré