L' approccio tradizionale in medicina per gestire le patologie può essere ridotto al concetto di “one-size-fits all”, in cui l'effetto di una cura rispecchia l'intero campione. Però, la medicina di precisione può rappresentare l'estensione e l'evoluzione della medicina tradizionale perché risulta principalmente preventiva e proattiva piuttosto che prettamente reattiva. Questa evoluzione può portare a una Sanità predittiva, personalizzata, preventiva, partecipativa e psicocognitiva. Tra tutte queste caratteristiche, la tesi si focalizza sulla medicina predittiva. Quindi, si può introdurre un nuovo emergente paradigma di Sanità, chiamato medicina di precisione predittiva (PPM), che può beneficiare da tecniche di Machine Learning (ML) e da una enorme quantità di informazioni racchiuse nelle cartelle cliniche elettroniche (EHRs). L'ecosistema sanitario della tesi, costituito dai 3 punti chiave interconnessi (PPM, EHR, ML), offre un contributo al campo dell'informatica medica proponendo metodologie di ML con lo scopo di affrontare e superare le sfide dello stato dell'arte che emergono dagli EHR dataset, come: dati eterogenei e molto numerosi, sbilanciamento tra classi, labeling sparso, ambiguità temporale, interpretabilità, capacità di generalizzazione. Le seguenti metodologie di ML sviluppate per specifici task clinici nello scenario della PM sono adatte a costituire il nucleo principale di nuovi sistemi clinici di supporto alle decisioni, utilizzabili dai medici per scopi di prevenzione, screening, diagnosi e follow-up: i) un approccio sparse-balanced Support Vector Machine con lo scopo di predire il diabete di tipo 2 (T2D), utilizzando le informazioni estratte da un nuovo EHR dataset di un medico di medicina generale; ii) un approccio Regression Forest ensemble ad alta interpretabilità con lo scopo di identificare fattori clinici non di routine nei dati EHR per determinare dove sia racchiusa la condizione di insulino-resistenza; iii) un approccio di Multiple Instance Learning boosting applicato ai dati EHR volto a predire precocemente un peggioramento dell'insulino-resistenza (basso vs alto rischio di T2D) in termini di TyG index; iv) un nuovo approccio multitasking semi-supervisionato con lo scopo di predire l'evoluzione a breve termine della patologie renale (cioè il profilo di rischio del paziente) sui dati EHR di un cluster di medici di medicina generale; v) un approccio XGBoosting con lo scopo di predire il SOFA score al quinto giorno, utilizzando solo i dati EHR del giorno di ammissione in unità di terapia intensiva (ICU). Il SOFA score descrive le complicazioni del paziente COVID-19 in ICU e aiuta i medici a creare profili di rischio dei pazienti COVID-19. La tesi ha anche contribuito alla pubblicazione di nuovi EHR datasets open access (FIMMG dataset, FIMMG_obs dataset, FIMMG_pred dataset, mFIMMG dataset).
Machine Learning approaches in Predictive Medicine using Electronic Health Records data
2021
Abstract
L' approccio tradizionale in medicina per gestire le patologie può essere ridotto al concetto di “one-size-fits all”, in cui l'effetto di una cura rispecchia l'intero campione. Però, la medicina di precisione può rappresentare l'estensione e l'evoluzione della medicina tradizionale perché risulta principalmente preventiva e proattiva piuttosto che prettamente reattiva. Questa evoluzione può portare a una Sanità predittiva, personalizzata, preventiva, partecipativa e psicocognitiva. Tra tutte queste caratteristiche, la tesi si focalizza sulla medicina predittiva. Quindi, si può introdurre un nuovo emergente paradigma di Sanità, chiamato medicina di precisione predittiva (PPM), che può beneficiare da tecniche di Machine Learning (ML) e da una enorme quantità di informazioni racchiuse nelle cartelle cliniche elettroniche (EHRs). L'ecosistema sanitario della tesi, costituito dai 3 punti chiave interconnessi (PPM, EHR, ML), offre un contributo al campo dell'informatica medica proponendo metodologie di ML con lo scopo di affrontare e superare le sfide dello stato dell'arte che emergono dagli EHR dataset, come: dati eterogenei e molto numerosi, sbilanciamento tra classi, labeling sparso, ambiguità temporale, interpretabilità, capacità di generalizzazione. Le seguenti metodologie di ML sviluppate per specifici task clinici nello scenario della PM sono adatte a costituire il nucleo principale di nuovi sistemi clinici di supporto alle decisioni, utilizzabili dai medici per scopi di prevenzione, screening, diagnosi e follow-up: i) un approccio sparse-balanced Support Vector Machine con lo scopo di predire il diabete di tipo 2 (T2D), utilizzando le informazioni estratte da un nuovo EHR dataset di un medico di medicina generale; ii) un approccio Regression Forest ensemble ad alta interpretabilità con lo scopo di identificare fattori clinici non di routine nei dati EHR per determinare dove sia racchiusa la condizione di insulino-resistenza; iii) un approccio di Multiple Instance Learning boosting applicato ai dati EHR volto a predire precocemente un peggioramento dell'insulino-resistenza (basso vs alto rischio di T2D) in termini di TyG index; iv) un nuovo approccio multitasking semi-supervisionato con lo scopo di predire l'evoluzione a breve termine della patologie renale (cioè il profilo di rischio del paziente) sui dati EHR di un cluster di medici di medicina generale; v) un approccio XGBoosting con lo scopo di predire il SOFA score al quinto giorno, utilizzando solo i dati EHR del giorno di ammissione in unità di terapia intensiva (ICU). Il SOFA score descrive le complicazioni del paziente COVID-19 in ICU e aiuta i medici a creare profili di rischio dei pazienti COVID-19. La tesi ha anche contribuito alla pubblicazione di nuovi EHR datasets open access (FIMMG dataset, FIMMG_obs dataset, FIMMG_pred dataset, mFIMMG dataset).I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/132868
URN:NBN:IT:UNIVPM-132868