The goal of a learning system is to capture patterns and regularities in training data which allow for future classification. Machine learning methods are able to generalize a classification model from labelled training data but difficulties arise when the distribution of the training data is not explicitly modelled. Real world applications offer a massive amount of visual data, but unfortunately labelled data are not always easy to find and the labelling process is costly and time consuming or may not be possible for a lack of knowledge. This work is focused on the learning of discriminative visual models in scenarios with partially annotated or incomplete data. With incomplete data we refer either to the case where only a subset of the training data is labelled or where only a fraction of the training classes is known. We evaluate the problem of learning from incomplete data in three separate computer vision applications, namely people tracking, novel image classification and document image analysis. In video surveillance the input of a tracking system might be interpreted as a set of partially labelled data where there are only few annotated instances of the target and several not annotated samples. Not annotated test data might also deviate from training data because of occlusions, changes in pose or appearance making the target association problem challenging. We exploit a semi supervised learning method to solve the problem of people tracking and we demonstrate with an experimental analysis the effectiveness of the proposed approach. Regarding image categorization, an interesting challenge is represented by the detection of novel categories and subcategories of objects. Assuming that objects can be organized in taxonomies, the instances to be classified may differ from the hierarchy learned from training data and they might share only parent nodes. Our work is devoted to derive a learning model from labelled data able to generalize over data coming from classes not seen during training. Finally, the last part addresses the picture segmentation in document images of old books. Dealing with the layout segmentation of old documents results in a variety of pictorial elements, thus in the difficulty of being able to collect samples representative of this heterogeneity. We propose an effective feature representation and a Support Vector Machines classification along with an experimental evaluation that demonstrate an improvement over baseline methods of document layout analysis even if a detailed model of the input space is not available.
L'obiettivo di un sistema di apprendimento automatico è catturare la struttura e le regolarità presenti nei dati in ingresso in modo da permettere la classificazione di dati futuri. I metodi di apprendimento artificiale sono in grado di astrarre modelli di classificazione da dati di training precedentemente annotati, ma riscontrano difficoltà quando la distribuzione di tali dati non è esplicitamente modellata. Una considerevole quantità di dati visuali è oggi disponibile in varie applicazioni, le difficoltà, sfortunatamente, risiedono nell'avere a disposizione dati annotati e nella possibilità di etichettare i dati sulla base delle risorse di tempo disponibili o della conoscenza accessibile. Questa tesi è focalizzata sull'apprendimento automatico di modelli discriminativi in scenari con una scarsa disponibilità di dati annotati o con dati incompleti. Con dati incompleti ci riferiamo sia al caso in cui solamente un sottoinsieme dei dati di ingresso sia annotato, sia al caso in cui solo una frazione delle classi di addestramento sia annotata. Il problema dell'apprendimento automatico con dati parzialmente etichettati è stato qui valutato in tre diverse applicazioni nel campo della visione artificiale, ovvero localizzazione e inseguimento di persone, classificazione di nuove categorie di immagini e analisi di immagini di documenti. Nella video sorveglianza l'input di un sistema di tracking può essere visto come un insieme di dati solo parzialmente annotati, dove sono presenti alcuni esempi del target da seguire e diversi esempi non etichettati. Tali dati non etichettati possono discostarsi anche notevolmente dal modello dei dati annotati a causa di occlusioni, cambiamenti di posa o di illuminazione, rendendo il problema di associazione tra dati etichettati e non ancora più complicato. In questa tesi viene proposto un metodo di apprendimento automatico semi supervisionato per risolvere il problema di inseguimento di persone e viene dimostrato mediante un’analisi sperimentale l’efficacia della soluzione proposta. Riguardo alla classificazione di immagini, un'interessante sfida è rappresentata dall’individuazione di nuove categorie e sottocategorie di oggetti. Assumendo che gli oggetti siano organizzati in tassonomie, può verificarsi il caso in cui gli elementi da classificare differiscano dalla gerarchia appresa o condividano solo parte dei nodi parentali. Il lavoro è qui dedicato all’apprendimento di un modello dai dati di training che sia in grado di generalizzare anche su classi non viste durante la fase di apprendimento. Infine, l’ultima parte affronta la segmentazione di figure in scansioni di testi antichi e il recupero di immagini simili da altre sorgenti. Lavorare sulla segmentazione di documenti datati risulta in una considerevole quantità di elementi illustrativi e quindi nella difficoltà di avere a disposizione esempi rappresentativi di questa eterogeneità. Viene proposta una rappresentazione efficace delle caratteristiche delle immagini e l’utilizzo di Support Vector Machines come metodo di classificazione. L'uso di queste due tecniche ha condotto ad un miglioramento nei confronti di altri metodi esistenti anche nel caso in cui un modello dettagliato dei dati di training non è disponibile.
Apprendimento Automatico di Modelli Visuali con Dati Incompleti
COPPI, DALIA
2014
Abstract
The goal of a learning system is to capture patterns and regularities in training data which allow for future classification. Machine learning methods are able to generalize a classification model from labelled training data but difficulties arise when the distribution of the training data is not explicitly modelled. Real world applications offer a massive amount of visual data, but unfortunately labelled data are not always easy to find and the labelling process is costly and time consuming or may not be possible for a lack of knowledge. This work is focused on the learning of discriminative visual models in scenarios with partially annotated or incomplete data. With incomplete data we refer either to the case where only a subset of the training data is labelled or where only a fraction of the training classes is known. We evaluate the problem of learning from incomplete data in three separate computer vision applications, namely people tracking, novel image classification and document image analysis. In video surveillance the input of a tracking system might be interpreted as a set of partially labelled data where there are only few annotated instances of the target and several not annotated samples. Not annotated test data might also deviate from training data because of occlusions, changes in pose or appearance making the target association problem challenging. We exploit a semi supervised learning method to solve the problem of people tracking and we demonstrate with an experimental analysis the effectiveness of the proposed approach. Regarding image categorization, an interesting challenge is represented by the detection of novel categories and subcategories of objects. Assuming that objects can be organized in taxonomies, the instances to be classified may differ from the hierarchy learned from training data and they might share only parent nodes. Our work is devoted to derive a learning model from labelled data able to generalize over data coming from classes not seen during training. Finally, the last part addresses the picture segmentation in document images of old books. Dealing with the layout segmentation of old documents results in a variety of pictorial elements, thus in the difficulty of being able to collect samples representative of this heterogeneity. We propose an effective feature representation and a Support Vector Machines classification along with an experimental evaluation that demonstrate an improvement over baseline methods of document layout analysis even if a detailed model of the input space is not available.File | Dimensione | Formato | |
---|---|---|---|
CoppiDalia_phdthesis.pdf
accesso aperto
Dimensione
17.24 MB
Formato
Adobe PDF
|
17.24 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/214814
URN:NBN:IT:UNIMORE-214814