Verso una stima robusta della posa 6D: indagine su dati sintetici, materiali complessi e ambienti robotici sfidanti

Elena, Govi; Govi, Elena

Humans effortlessly perceive the 3D world through their visual system, a remarkable ability that allows for the recognition of objects, people, emotions, and the accurate perception of space. In contrast, this remains a challenging study area for psychologists and computer vision researchers, who strive to model how we interpret 3D scenes from 2D images. The complexity of this task lies in its nature as an ill-posed inverse problem, where incomplete information is used to recover unknowns. Researchers address this using probabilistic models, machine learning, and physics-based approaches to replicate human vision. However, current artificial systems still lag, particularly in their ability to generalize across different settings and tasks. This thesis focuses on one of the several tasks in Computer Vision, investigating the 6-Dimensional Pose Estimation of rigid objects and testing the generalization capabilities to different scenarios and applications. Although considerable progress has been made in this field, several formidable challenges remain, including domain shift, occlusions, symmetries, novel objects and reflective or transparent materials. One main challenge is bringing this research to work in real-world robotic applications effectively. Robotics requires working in challenging environments and often literature datasets do not reflect the complexity of the real world. This thesis develops robust methodologies that perform effectively across different scenarios and real-world applications. The focus is on using synthetic datasets and designing pipelines tailored to address the unique challenges posed by specific settings and objects. The ultimate goal is to bring reliable, adaptable computer vision systems closer to real-world robotic applications, enhancing robotic perception.

L’uomo è in grado di percepire il mondo tridimensionale senza particolari sforzi attraverso il suo sistema di visione. Questa notevole abilità gli permette di riconoscere oggetti, persone, emozioni, di percepire correttamente lo spazio e molto altro. Al contrario, l’ambito della visione rimane un ambito in parte sconosciuto sia a psicologi che a ricercatori di Computer Vision, che tentano di costruire modelli in grado di interpretare correttamente le scene tridimensionali e bidimensionali. La complessità di questa ricerca nasce dalla natura stessa del problema: si tratta di un problema inverso mal posto, dato che le informazioni per trovare le incognite sono incomplete. I ricercatori propongono di replicare il sistema di visione umano attraverso modelli probabilistici, apprendimento autonomo o approcci ’physic-based’. Tuttavia, gli attuali sistemi di visione artificiale non riescono a riprodurre completamente le nostre abilità, in particolare fallendo nella generalizzazione a diversi scenari o compiti. Questa tesi si focalizza su uno dei numerosi problemi della Computer Vision, investigando la stima della posa di oggetti rigidi e testando le capacità di generalizzazione a diversi scneari e applicazioni. Nonostante gli enormi progresso in quest’ambito, svariate sfide rimangono, come per esempio il passaggio tra domini differenti,la presenza di occlusioni, simmetrie, la stima di oggetti nuovi e con materiali trasparenti o metallici. Una grande sfida è quella di trasferire quest’ambito di ricerca efficacemente ad applicazioni di robotica nel mondo reale. Questa tesi si pone l’obbiettivo di sviluppare metodologie sufficientemente robuste in modo che funzionino effettivamente in diversi scenari del mondo reale. In particolare, si focalizza sull’uso di dati sintetici e la creazione di procedure efficaci per affrontare sfide uniche, poste dallo specifico compito e dagli oggetti richiesti. L’obiettivo finale è avvicinare sistemi di visione artificiale affidabili e adattabili alle applicazioni robotiche nel mondo reale, migliorando così la percezione dei robot.