3D modeling, reconstruction and analysis of environments assisted by multi-sensorial data processing

Reno', Vito

The work described in this thesis falls in the general category of computer vision. More specifically, 3D modeling, reconstruction and analysis of environments is treated from multiple points of view in order to provide effective and efficient methods to capture data and perform complex processing tasks. Building a model by means of an automated machine vision system induces the research of constantly new techniques to make the final system both able to fulfill the requirements and optimized to efficiently perform proper tasks. The problems that need to be solved relatively to these topics spread from the background modeling of a scene to moving object tracking, from 3D point cloud analysis to the identification of a motion, a trajectory or a particular feature of an object in the three dimensional space. All these tasks are related to open problems in the image/video processing field, since their efficient implementation is strictly related to the ability of a system to correctly represent a 3D complex scene or to the effective understanding of the semantics of an acquired video. For this reason, the main focus of this thesis is on the analysis of complex situations (i.e. indoor, outdoor, with and without controlled illumination, with many moving subjects) by means of innovative data acquisition and processing techniques. Two types of point clouds actually exist - dense and sparse - depending on the number of 3D points that are contained in the acquisition. Both of them will be treated in this thesis, along with proper methodologies to deal with the specific type of data. Laser based sensors are largely employed to create a 3D model of a generic scene, since they are able to provide detailed information (the so called Dense point clouds) about the depth of an object that is illuminated by the light source, guaranteeing one of the two following capabilities: high data throughput or large sensor field of view, up to 360°. The first objective of this thesis will be the design, prototype and test of a miniaturized omnidirectional 3D catadioptric sensor capable of both high throughput and large field of view. Also, a new methodology to perform 3D dense point clouds registration will be investigated and detailed. Such systems are of relevant interest and can be effectively employed in industrial applications for monitoring purposes, to perform non destructive tests, quality control or - more generally - objects analysis. Another well known technique used to solve the 3D modeling problem is stereovision, that is used to evaluate the depth information about a point that is simultaneously captured by two or more sensors (cameras). Stereovision avoids the use of laser sources, but produces highly redundant data that needs to be exploited to compute a sparse point cloud. In fact, it is mandatory to collect and process at least two distinct videos to obtain 3D information about the scene, regardless the effort that is needed to estabilish the correct correspondence between points from distinct views. The other objective of this thesis will be the design and development of a semi-engineered stereo system prototype for evaluating complex situations, applied to the sportive context (in particular, the tennis one). This system will be able to analyze game tactics of a specific player by logical inferences that will take place after having executed specific queries that should properly combine data extracted from each software module. In summary, the aim of this thesis is the design and development of intelligent systems for the analysis of complex scenes by using 3D information. This leads to the study of novel techniques, as well as the optimization of known algorithms. In fact, once the 3D point cloud is extracted, it needs to be appropriately processed to perform, for example, the identification of an object or a subject, its tracking in the 3D space or the semantic analysis of the scene. The ability of interpreting a scene via software starting from the output of a camera or a depth sensor is an ambitious objective of certain scientific interest. Nevertheless, it is necessary to develop new methodologies as well as optimize and revise the known ones to achieve this goal, because semantic analysis highly depends on all the other software modules of the vision system (both 2D or 3D). Good models and effective processing algorithms are the keys to enable reliable high level modules on complex systems.

Il lavoro descritto in questa Tesi di Dottorato ricade nella categoria generale della Computer Vision. Più specificamente, le tematiche di modellazione, ricostruzione e analisi tridimensionale di ambienti sono state trattate da molteplici punti di vista in modo tale da investigare metodologie efficaci ed efficienti per acquisire i dati ed effettuare le opportune elaborazioni successive. L'attività di costruzione di modelli mediante sistemi di visione automatici induce la ricerca costante di tecniche innovative che garantiscano sia il rispetto dei requisiti di sistema, sia la capacità di gestire in maniera efficiente e ottimizzata notevoli moli di dati. I problemi da risolvere in questo ambito spaziano dalla modellazione dello sfondo di una scena fino al tracking di un oggetto, dall'analisi di una nuvola di punti 3D fino all'identificazione di un movimento, una traiettoria o una caratteristica distintiva di un oggetto in uno spazio tridimensionale. Tutti questi compiti sono connessi a problemi aperti nel campo dell'elaborazione di immagini e video, dal momento che un'implementazione efficiente è strettamente connessa all'abilità di un sistema di rappresentare correttamente una scena complessa o di interpretare efficacemente la semantica di un video acquisito. Per questa ragione, lo scopo generale di questo lavoro è l'analisi di situazioni complesse (ad esempio indoor, outdoor, con e senza controllo di illuminazione, con parecchi oggetti in movimento etc...) tramite metodi innovativi di acquisizione e analisi dei dati. Allo stato attuale esistono due tipi di nuvole di punti – dense e sparse – classificate in base al numero di punti 3D che sono contenuti in una acquisizione. Entrambe le tipologie di dato sono state trattate durante il lavoro, comprese le opportune metodologie per trattare ognuna di queste. I sensori basati sui laser sono largamente impiegati nella creazione di modelli tridimensionali di una scena, dal momento che sono in grado di fornire informazioni dettagliate (nuvole di punti dense) circa la profondità di un oggetto che viene illuminato dalla sorgente luminosa, garantendo una delle due seguenti proprietà: elevato throughput del sensore o un largo campo di vista fino a 360°. Il primo obiettivo del lavoro ha riguardato la progettazione, la prototipazione e il test di un sensore 3D catadiottrico omnidirezionale miniaturizzato, capace di fornire un elevato throughput e un largo campo di vista. Inoltre, una nuova metodologia per la registrazione di nuvole di punti dense è stata investigata e dettagliata. I risultati ottenuti sono di rilevante interesse poiché suggeriscono e incentivano l'utilizzo di tali sistemi in scenari industriali per scopi di monitoraggio, per effettuare controlli non distruttivi o – più genericamente – analisi degli oggetti. Un'altra tecnica nota per risolvere il problema della modellazione tridimensionale è la stereovisione, che viene impiegata per valutare la distanza di un punto simultaneamente catturato da due o più sensori (telecamere). La stereovisione evita l'utilizzo di sorgenti laser, ma produce dati altamente ridondanti che devono essere elaborati per ricavare una nuvola di punti sparsa. Infatti, è obbligatorio collezionare ed elaborare almeno due differenti flussi video per ottenere informazioni 3D sulla scena ripresa, senza considerare lo sforzo necessario a stabilire le corrispondenze tra i punti di due viste differenti. Il secondo obiettivo del lavoro ha riguardato la progettazione e lo sviluppo di un prototipo semi ingegnerizzato di sistema stereo per la valutazione di situazioni complesse, applicato al contesto sportivo (in particolare al tennis). Tale sistema è in grado di analizzare tattiche di gioco di un giocatore mediante inferenze logiche che vengono effettuate dopo aver eseguito specifiche query per combinare i dati estratti da ogni modulo software implementato secondo le specifiche dettagliate da un esperto di dominio. Riassumendo, il lavoro è stato incentrato alla progettazione ed implementazione di sistemi intelligenti per l'analisi di scene complesse mediante l'utilizzo di dati 3D. Questo implica l'investigazione di nuove tecniche di analisi dei dati e l'ottimizzazione degli algoritmi già noti in letteratura. Infatti, una volta che la nuvola di punti è stata prodotta, c'è la necessità di elaborarla opportunamente per compiere azioni di alto livello, come ad esempio l'identificazione di un oggetto o di un soggetto, il suo tracciamento nello spazio 3D o l'analisi semantica della scena.