L’acromegalia è una patologia endocrina rara causata dall'aumentata secrezione di ormone della crescita (GH) e del fattore di crescita insulino-simile 1 (IGF1), indotta, nella maggior parte dei casi, da un tumore ipofisario secernente GH. Sebbene l'acromegalia sia caratterizzata da evidenti manifestazioni fisiche e cliniche, i segni e sintomi a essa associati sono molto comuni nella popolazione generale e pertanto viene spesso diagnosticata in ritardo, influenzando così la sua prognosi a lungo termine. È stato stimato che il ritardo diagnostico per l’acromegalia è di circa 7,5 anni. L'incremento esponenziale nella generazione di dati sanitari elettronici, definiti real-world data (RWD), offre una via promettente per lo sviluppo e l'applicazione di metodologie intelligenza artificiale volte ad analizzare la storia clinica dei pazienti, con lo scopo di migliorare la pratica clinica e la qualità delle cure, soprattutto per quanto riguarda i pazienti affetti da malattie rare. A tal proposito, una delle principali applicazioni del machine learning a supporto dello studio delle malattie rare è lo sviluppo di modelli predittivi di diagnosi tramite utilizzo di RWD, per identificare associazioni latenti e complesse tra un gran numero di caratteristiche cliniche. Pertanto, l’obiettivo principale di questa tesi di dottorato è quello di descrivere i risultati della metodologia di ricerca sviluppata per lo sviluppo di algoritmi predittivi di diagnosi di acromegalia tramite l’analisi retrospettiva di ampie banche dati amministrative utilizzando modelli di machine learning. In particolare, la metodologia proposta per lo sviluppo di tali algoritmi ha preso avvio con la conduzione di una revisione sistematica e metanalisi di studi osservazionali che hanno valutato l’epidemiologia dell’acromegalia, con l’obiettivo di ottenere una stima globale che potesse fungere da punto di riferimento per calibrare le analisi condotte successivamente e interpretare correttamente i risultati ottenuti. In totale, sono stati identificati 32 studi e 22 di questi sono stati inclusi nella metanalisi. La prevalenza globale di acromegalia è risultata pari a 5,9 casi (intervallo di confidenza al 95%: 4,4–7,9) per 100.000 soggetti e il tasso di incidenza globale era uguale a 0,38 (intervallo di confidenza al 95%: 0,32–0,44) per 100.000 anni-persona. La seconda fase della metodologia proposta ha previsto lo sviluppo e la validazione di algoritmi identificativi di acromegalia nelle banche dati amministrative della Regione Sicilia e dell’Azienda Sanitaria Locale di Caserta. Grazie alle evidenze rintracciate in letteratura tramite la revisione sistematica, sono stati sviluppati quattro algoritmi, caratterizzati da diverse combinazioni di codici diagnostici, procedure chirurgiche, codici di esenzione, dispensazioni di farmaci e visite specialistiche indicativi di acromegalia nelle banche dati amministrative. La validazione statistica di questi algoritmi è stata eseguita calcolando determinati parametri statistici (sensibilità, specificità, valore predittivo positivo, valore predittivo negativo, e indice di Youden) e l'algoritmo che ha ottenuto l'accuratezza diagnostica più elevata è stato considerato preferibile rispetto agli altri. I dati relativi ai pazienti identificati da questo algoritmo sono stati quindi analizzati per lo sviluppo di algoritmi predittivi di diagnosi di acromegalia. La terza e ultima fase della metodologia proposta ha previsto lo sviluppo e la validazione interna di cinque modelli finalizzati alla predizione della diagnosi di acromegalia, utilizzando i dati dei pazienti identificati nelle banche dati amministrative della Regione Sicilia, che sono stati sottoposti a matching con soggetti non affetti da acromegalia. In dettaglio, sono stati utilizzati un modello di regressione logistica condizionale multivariata cross-validato con penalità Least Absolute Shrinkage and Selection Operator (LASSO), un modello di regressione logistica non condizionale multivariata cross-validata con penalità LASSO, il modello Recursive PArtitioning and Regression Tree (RPART), il modello Random Forest e il modello Support Vector Machine. Ciascuno di questi modelli ha fornito una stima della probabilità che un paziente ha di essere classificato come acromegalico o meno, insieme a un elenco di potenziali predittori maggiormente associati alla presenza della diagnosi. Le performance diagnostiche di questi algoritmi sono state valutate tramite calcolo di specifici parametri statistici, tra cui l’area sotto la curva ROC (AUC), sensibilità, specificità, valore predittivo positivo, valore predittivo negativo, indice di Youden, F-score, e l’indice di calibrazione integrato. Il modello che ha fornito la maggiore accuratezza diagnostica è stato il Random Forest, con un’AUC pari a 0,83 (intervallo di confidenza al 95%: 0,79–0,87). I tredici predittori di acromegalia identificati da almeno due modelli predittivi sono stati infine inclusi in un modello di regressione logistica non condizionale multivariata per costruire un "meta-score" per la previsione della diagnosi di acromegalia, che ha ottenuto un’AUC pari a 0,71 (intervallo di confidenza al 95%: 0,66-0,75). I risultati di questa tesi di dottorato hanno dimostrato la possibilità di utilizzare modelli di machine learning a supporto dell’analisi di RWD per studiare la storia clinica dei pazienti e sviluppare algoritmi per la diagnosi precoce delle malattie rare, con l’obiettivo finale di ridurre il ritardo diagnostico e consentire ai pazienti una migliore qualità della vita tramite l’accesso precoce a trattamenti farmacologici e terapie di supporto.
Sviluppo e validazione di modelli e algoritmi di machine learning per la diagnosi precoce di malattie rare tramite analisi retrospettiva di ampie banche dati amministrative: risultati del progetto INSPIRE
CRISAFULLI, SALVATORE
2025
Abstract
L’acromegalia è una patologia endocrina rara causata dall'aumentata secrezione di ormone della crescita (GH) e del fattore di crescita insulino-simile 1 (IGF1), indotta, nella maggior parte dei casi, da un tumore ipofisario secernente GH. Sebbene l'acromegalia sia caratterizzata da evidenti manifestazioni fisiche e cliniche, i segni e sintomi a essa associati sono molto comuni nella popolazione generale e pertanto viene spesso diagnosticata in ritardo, influenzando così la sua prognosi a lungo termine. È stato stimato che il ritardo diagnostico per l’acromegalia è di circa 7,5 anni. L'incremento esponenziale nella generazione di dati sanitari elettronici, definiti real-world data (RWD), offre una via promettente per lo sviluppo e l'applicazione di metodologie intelligenza artificiale volte ad analizzare la storia clinica dei pazienti, con lo scopo di migliorare la pratica clinica e la qualità delle cure, soprattutto per quanto riguarda i pazienti affetti da malattie rare. A tal proposito, una delle principali applicazioni del machine learning a supporto dello studio delle malattie rare è lo sviluppo di modelli predittivi di diagnosi tramite utilizzo di RWD, per identificare associazioni latenti e complesse tra un gran numero di caratteristiche cliniche. Pertanto, l’obiettivo principale di questa tesi di dottorato è quello di descrivere i risultati della metodologia di ricerca sviluppata per lo sviluppo di algoritmi predittivi di diagnosi di acromegalia tramite l’analisi retrospettiva di ampie banche dati amministrative utilizzando modelli di machine learning. In particolare, la metodologia proposta per lo sviluppo di tali algoritmi ha preso avvio con la conduzione di una revisione sistematica e metanalisi di studi osservazionali che hanno valutato l’epidemiologia dell’acromegalia, con l’obiettivo di ottenere una stima globale che potesse fungere da punto di riferimento per calibrare le analisi condotte successivamente e interpretare correttamente i risultati ottenuti. In totale, sono stati identificati 32 studi e 22 di questi sono stati inclusi nella metanalisi. La prevalenza globale di acromegalia è risultata pari a 5,9 casi (intervallo di confidenza al 95%: 4,4–7,9) per 100.000 soggetti e il tasso di incidenza globale era uguale a 0,38 (intervallo di confidenza al 95%: 0,32–0,44) per 100.000 anni-persona. La seconda fase della metodologia proposta ha previsto lo sviluppo e la validazione di algoritmi identificativi di acromegalia nelle banche dati amministrative della Regione Sicilia e dell’Azienda Sanitaria Locale di Caserta. Grazie alle evidenze rintracciate in letteratura tramite la revisione sistematica, sono stati sviluppati quattro algoritmi, caratterizzati da diverse combinazioni di codici diagnostici, procedure chirurgiche, codici di esenzione, dispensazioni di farmaci e visite specialistiche indicativi di acromegalia nelle banche dati amministrative. La validazione statistica di questi algoritmi è stata eseguita calcolando determinati parametri statistici (sensibilità, specificità, valore predittivo positivo, valore predittivo negativo, e indice di Youden) e l'algoritmo che ha ottenuto l'accuratezza diagnostica più elevata è stato considerato preferibile rispetto agli altri. I dati relativi ai pazienti identificati da questo algoritmo sono stati quindi analizzati per lo sviluppo di algoritmi predittivi di diagnosi di acromegalia. La terza e ultima fase della metodologia proposta ha previsto lo sviluppo e la validazione interna di cinque modelli finalizzati alla predizione della diagnosi di acromegalia, utilizzando i dati dei pazienti identificati nelle banche dati amministrative della Regione Sicilia, che sono stati sottoposti a matching con soggetti non affetti da acromegalia. In dettaglio, sono stati utilizzati un modello di regressione logistica condizionale multivariata cross-validato con penalità Least Absolute Shrinkage and Selection Operator (LASSO), un modello di regressione logistica non condizionale multivariata cross-validata con penalità LASSO, il modello Recursive PArtitioning and Regression Tree (RPART), il modello Random Forest e il modello Support Vector Machine. Ciascuno di questi modelli ha fornito una stima della probabilità che un paziente ha di essere classificato come acromegalico o meno, insieme a un elenco di potenziali predittori maggiormente associati alla presenza della diagnosi. Le performance diagnostiche di questi algoritmi sono state valutate tramite calcolo di specifici parametri statistici, tra cui l’area sotto la curva ROC (AUC), sensibilità, specificità, valore predittivo positivo, valore predittivo negativo, indice di Youden, F-score, e l’indice di calibrazione integrato. Il modello che ha fornito la maggiore accuratezza diagnostica è stato il Random Forest, con un’AUC pari a 0,83 (intervallo di confidenza al 95%: 0,79–0,87). I tredici predittori di acromegalia identificati da almeno due modelli predittivi sono stati infine inclusi in un modello di regressione logistica non condizionale multivariata per costruire un "meta-score" per la previsione della diagnosi di acromegalia, che ha ottenuto un’AUC pari a 0,71 (intervallo di confidenza al 95%: 0,66-0,75). I risultati di questa tesi di dottorato hanno dimostrato la possibilità di utilizzare modelli di machine learning a supporto dell’analisi di RWD per studiare la storia clinica dei pazienti e sviluppare algoritmi per la diagnosi precoce delle malattie rare, con l’obiettivo finale di ridurre il ritardo diagnostico e consentire ai pazienti una migliore qualità della vita tramite l’accesso precoce a trattamenti farmacologici e terapie di supporto.File | Dimensione | Formato | |
---|---|---|---|
Tesi dottorato.pdf
accesso aperto
Dimensione
3.03 MB
Formato
Adobe PDF
|
3.03 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/202123
URN:NBN:IT:UNIVR-202123