Structure learning and knowledge extraction with Continuous Time Bayesian Network

Bregoli, Alessandro

Healthcare, finance, telecommunications, social networks, e-commerce and homeland security, are few instances of real world domains where the system to be studied involves several variables whose value changes over time. Studying such systems consists in understanding how they work, in making accurate predictions about their evolution over time, and consequently in making effective decisions. To this extent huge amount of data are typically collected by measuring the value of several variables over time, with the aim of modeling the underlying data-generating process, i.e., the process which rules the evolution of the system under study. These ambitious goals, i.e., understanding, predicting and making effective decisions, are pursued by feeding the collected data into powerful artificial intelligence and machine learning algorithms to recover the underlying data-generating process. This dissertation studies and analyzes systems described by discrete valued variables, whose value changes over continuous time. Particularly, continuous-time Bayesian networks, a type of probabilistic graphical model, are studied. The first constraint-based algorithm for learning the structure of a continuous time Bayesian network from the available data is developed together with its computational complexity analysis. This algorithm is further extended to tackle the problem of multivariate timeseries classification in continuous time. Continuous time Bayesian networks are used to formulate and solve the problem of sentry state identification in the case where the structure of the probabilistic graphical model is know.

Sanità, finanza, telecomunicazioni, social network, e-commerce e sicurezza nazionale, sono alcuni esempi di ambiti del mondo reale in cui il sistema da studiare coinvolge diverse variabili il cui valore cambia nel tempo. Studiare tali sistemi consiste nel comprenderne il funzionamento, nel fare previsioni accurate sulla loro evoluzione nel tempo e di conseguenza nel prendere decisioni efficaci. In questo senso vengono tipicamente raccolte enormi quantità di dati misurando il valore di diverse variabili nel tempo, con l’obiettivo di modellare il processo di generazione dei dati sottostante, ovvero il processo che governa l’evoluzione del sistema oggetto di studio. Questi obiettivi ambiziosi, ovvero comprendere, prevedere e prendere decisioni efficaci, vengono perseguiti inserendo i dati raccolti in potenti algoritmi di intelligenza artificiale e apprendimento automatico per recuperare il processo di generazione dei dati sottostante. Questa tesi studia e analizza sistemi descritti da variabili a valori discreti, il cui valore cambia nel tempo continuo. In particolare vengono studiate le reti bayesiane a tempo continuo, un tipo di modello grafico probabilistico. Nello specifico, viene sviluppato il primo algoritmo basato su vincoli per apprendere la struttura di una rete bayesiana a tempo continuo dai dati disponibili insieme alla sua analisi della complessità computazionale. Questo algoritmo è ulteriormente esteso per affrontare il problema della classificazione di serie temporali multivariate in tempo continuo. Le reti bayesiane a tempo continuo vengono utilizzate per formulare e risolvere il problema dell'identificazione dello stato sentinella nel caso in cui sia nota la struttura del modello grafico probabilistico.