Il contenuto delle cartelle cliniche elettroniche (EHR) è estremamente eterogeneo, dipendendo della struttura generale del sistema sanitario. Al loro interno, il testo libero èprobabilmente la tipologia di dati non strutturato più presente e contemporaneamente sottoutilizzato. Al giorno d'oggi, grazie alle tecniche di Machine Learning (MLT), possiamo sfruttare modelli automatici per codificarne il contenuto testuale con prestazioni comparabili a quelle umane. In questa tesi, l'attenzione si concentra sull'investigazione delle MLT per l'ottenimento di informazioni utili non triviali dal testo libero in contesti clinici. Abbiamo considerato due tipi principali di testo libero coinvolti nella ricerca clinica. Il primo è composto da documenti estesi come articoli scientifici o protocolli di studio. Per questo gruppo, abbiamo preso in considerazione 14 revisioni sistematiche (SR), tra cui 7.494 studi di PubMed e un'intera istantanea composta da 233.609 studi clinici da ClinicalTrials.gov. Le cartelle cliniche elettroniche pediatriche compongono il secondo gruppo, per il quale abbiamo considerato due fonti di dati: una di 6.903.035 visite dal database italiano Pedianet e la seconda da 2.723 note di dimissione ospedaliera scritte in spagnolo e provenienti dai dipartimenti di emergenza (DE) pediatrica di nove ospedali in Nicaragua. Il primo contributo riportato è un sistema automatico addestrato per replicare una ricerca dai motori di ricerca specializzati ai registri clinici. Il modello proposto ha mostrato prestazioni di classificazione molto elevate (AUC dal 93,4% al 99,9% tra i 14 SR), con il valore aggiunto di una quantità ridotta di studi non rilevanti estratti (media di 472 e massimo di 2119 record aggiuntivi rispetto a 572 e 2680 dell'estrazione manuale originale rispettivamente). Viene riportato anche uno studio comparativo per esplorare l'effetto dell'utilizzo di differenti MLT e di metodi diversi per gestire gli effetti dello squilibro di numerosità nelle classi. Nella tesi è riportata inoltre un'intera indagine sulle visite pediatriche presso i DE raccolte presso i nove ospedali del Nicaragua. In tale indagine emerge un'accuratezza media nella classificazione delle diagnosi di dimissione coi modelli proposti del 78,31%, mostrando promettenti prestazioni per un sistema ML per la classificazione automatica delle diagnosi di dimissione da testo libero in lingua spagnola. Un ulteriore contributo riportato ha mirato a migliorare l'accuratezza del rilevamento delle malattie infettive a livello di popolazione. Questo è un problema cruciale per la salute pubblica che può fornire le informazioni di base necessarie per l'implementazione di strategie di controllo efficaci, come la notifica e il monitoraggio di efficacia di campagne di vaccinazione. Tra i due studi riportati, sono stati esplorati entrambi i paradigmi primari di ML classici e profondi. In entrambi i casi i risultati sono stati molto promettenti; nel secondo, raggiungendo prestazioni paragonabili a quelle umane (precisione del 96,59% rispetto al 95,91% raggiunta dagli annotatori umani e livello F1 bilanciato del 95,47% rispetto al 93,47%). Un ulteriore obiettivo secondario ma rilevante raggiunto riguarda le lingue indagate. La ricerca internazionale sull'uso delle MLT per classificare gli EHR si concentra principalmente su set di dati testuali in lingua inglese. Pertanto, i risultati su database non inglesi, come il Pedianet italiano o quello spagnolo delle visite ED considerate nella tesi, risultano contributi chiave per valutare l'applicabilità generale delle MLT a livello linguistico generale. Mostrando prestazioni paragonabili a quelle umane, la tesi evidenzia la reale possibilità di iniziare a incorporare i sistemi ML nella pratica clinica quotidiana per produrre un miglioramento concreto nei processi sanitari quando si tiene conto del testo libero.

Sviluppo e applicazione di tecniche di apprendimento automatico per l'analisi e la classificazione del testo in ambito clinico. Development and Application of Machine Learning Techniques for Text Analyses and Classification in Clinical Research

LANERA, CORRADO
2020

Abstract

Il contenuto delle cartelle cliniche elettroniche (EHR) è estremamente eterogeneo, dipendendo della struttura generale del sistema sanitario. Al loro interno, il testo libero èprobabilmente la tipologia di dati non strutturato più presente e contemporaneamente sottoutilizzato. Al giorno d'oggi, grazie alle tecniche di Machine Learning (MLT), possiamo sfruttare modelli automatici per codificarne il contenuto testuale con prestazioni comparabili a quelle umane. In questa tesi, l'attenzione si concentra sull'investigazione delle MLT per l'ottenimento di informazioni utili non triviali dal testo libero in contesti clinici. Abbiamo considerato due tipi principali di testo libero coinvolti nella ricerca clinica. Il primo è composto da documenti estesi come articoli scientifici o protocolli di studio. Per questo gruppo, abbiamo preso in considerazione 14 revisioni sistematiche (SR), tra cui 7.494 studi di PubMed e un'intera istantanea composta da 233.609 studi clinici da ClinicalTrials.gov. Le cartelle cliniche elettroniche pediatriche compongono il secondo gruppo, per il quale abbiamo considerato due fonti di dati: una di 6.903.035 visite dal database italiano Pedianet e la seconda da 2.723 note di dimissione ospedaliera scritte in spagnolo e provenienti dai dipartimenti di emergenza (DE) pediatrica di nove ospedali in Nicaragua. Il primo contributo riportato è un sistema automatico addestrato per replicare una ricerca dai motori di ricerca specializzati ai registri clinici. Il modello proposto ha mostrato prestazioni di classificazione molto elevate (AUC dal 93,4% al 99,9% tra i 14 SR), con il valore aggiunto di una quantità ridotta di studi non rilevanti estratti (media di 472 e massimo di 2119 record aggiuntivi rispetto a 572 e 2680 dell'estrazione manuale originale rispettivamente). Viene riportato anche uno studio comparativo per esplorare l'effetto dell'utilizzo di differenti MLT e di metodi diversi per gestire gli effetti dello squilibro di numerosità nelle classi. Nella tesi è riportata inoltre un'intera indagine sulle visite pediatriche presso i DE raccolte presso i nove ospedali del Nicaragua. In tale indagine emerge un'accuratezza media nella classificazione delle diagnosi di dimissione coi modelli proposti del 78,31%, mostrando promettenti prestazioni per un sistema ML per la classificazione automatica delle diagnosi di dimissione da testo libero in lingua spagnola. Un ulteriore contributo riportato ha mirato a migliorare l'accuratezza del rilevamento delle malattie infettive a livello di popolazione. Questo è un problema cruciale per la salute pubblica che può fornire le informazioni di base necessarie per l'implementazione di strategie di controllo efficaci, come la notifica e il monitoraggio di efficacia di campagne di vaccinazione. Tra i due studi riportati, sono stati esplorati entrambi i paradigmi primari di ML classici e profondi. In entrambi i casi i risultati sono stati molto promettenti; nel secondo, raggiungendo prestazioni paragonabili a quelle umane (precisione del 96,59% rispetto al 95,91% raggiunta dagli annotatori umani e livello F1 bilanciato del 95,47% rispetto al 93,47%). Un ulteriore obiettivo secondario ma rilevante raggiunto riguarda le lingue indagate. La ricerca internazionale sull'uso delle MLT per classificare gli EHR si concentra principalmente su set di dati testuali in lingua inglese. Pertanto, i risultati su database non inglesi, come il Pedianet italiano o quello spagnolo delle visite ED considerate nella tesi, risultano contributi chiave per valutare l'applicabilità generale delle MLT a livello linguistico generale. Mostrando prestazioni paragonabili a quelle umane, la tesi evidenzia la reale possibilità di iniziare a incorporare i sistemi ML nella pratica clinica quotidiana per produrre un miglioramento concreto nei processi sanitari quando si tiene conto del testo libero.
3-dic-2020
Inglese
machine learning, text mining, electronic medical record, real-world data
GREGORI, DARIO
ANGELINI, ANNALISA
Università degli studi di Padova
128
File in questo prodotto:
File Dimensione Formato  
tesi_CORRADO_LANERA.pdf

accesso aperto

Dimensione 3.81 MB
Formato Adobe PDF
3.81 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/93853
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-93853