This PhD thesis advances human-robot collaboration by developing an adaptive robotic assistant that ensures safe, seamless, and productive collaboration between humans and machines. In modern industry is not possible to apply full automation in some contests, humans contribute with essential knowledge and skills to specialized processes, while robots can assist by reducing physical strain, improving workflow, and enhancing operator well-being. This research leverages artificial intelligence techniques such as machine learning, deep learning, and large multimodal models to create a collaborative workstations where humans and robots work together intuitively, sharing tasks and workspace as one team. The proposed robotics systems are equipped with advanced perception capabilities, allowing them to detect, interpret, and respond to human actions and inputs in real time. Using sensors and cameras data, the robot adapts dynamically to the operator’s movements and intentions, prioritizing safety and fluency while optimizing workflow and minimizing the human effort. This capability was tested in various real-world robotic workstations, such as assembly and manufacturing tasks, where the robot provided safety and efficiency enhancements. A starting point of this work includes a human body pose perception system using RGB-D cameras, tracking joint positions in real time at 18 Hz with accuracy validated against an IMU wearable based system. By identifying the operator’s position, the robot maintains a safe distance and dynamically avoids collisions in various scenarios. Building on this skeleton tracking and obstacle avoidance framework, the thesis further integrates gesture-based tool selection and automatic tool retrieval, allowing the robot to respond fluidly to operator commands and to avoid it, effectively reversing the traditional human-machine interaction model. The research further developed, in collaboration with the University of Coimbra, D-RMGPT, a system employing large multimodal models for assembly tasks. This system reduces assembly time by 33% for novices and offers high flexibility through viiimage-based prompts without the need for extensive data training. Additionally, a case study involving a process execution, in this circumstance as an example a pizza preparation, demonstrates the use of a GPT model to compose the process sequence and manage the robot actions. In fact, receiving the operator’s inputs such as ingredient selection via voice/gestures and recognizing the human actions, the robot can adjust its responses accordingly to provide assistance to the operator during the process. Together, all these contributions establish a robust framework for adaptable, intuitive real-time human-robot collaboration that improves the human wellbeing and productivity

Questa tesi di dottorato promuove la collaborazione tra umani e robot sviluppando un assistente robotico adattivo capace di garantire un’interazione sicura, fluida e produttiva. Nell’industria contemporanea ci sono processi dove non è possibile avere un’automazione totale, gli operatori apportano competenze e conoscenze indispensabili a processi specializzati, mentre i robot possono ridurre lo sforzo fisico, migliorare l’efficienza del flusso di lavoro e contribuire al benessere dell’operatore. Questa ricerca utilizza tecniche di intelligenza artificiale, tra cui machine learning, deep learning e large multimodal models, per creare postazioni di lavoro collaborative in cui umani e robot lavorano fianco a fianco in modo intuitivo, condividendo compiti e spazi operativi. I sistemi robotici sviluppati sono dotati di capacità di percezione, che consentono loro di rilevare, interpretare e rispondere agli input e umani in tempo reale. Grazie all’uso di dati provenienti da sensori e telecamere, il robot si adatta dinamicamente ai movimenti e alle intenzioni dell’operatore, dando priorità alla sicurezza e alla fluidità dell’interazione, ottimizzando allo stesso tempo il flusso di lavoro e riducendo lo sforzo umano. Queste capacità sono state testate in diverse postazioni robotiche, come in operazioni di assemblaggio e produzione, dimostrando come il robot possa migliorare la sicurezza e l’efficienza. Un aspetto chiave di questo lavoro è stato lo sviluppo di un sistema di percezione della postura del corpo umano mediante telecamere RGB-D, capace di monitorare in tempo reale la posizione delle articolazioni a una frequenza di 18 Hz, con una precisione verificata attraverso un sistema basato su IMU. Identificando la posizione dell’operatore, il robot può mantenere una distanza di sicurezza e adattarsi dinamicamente per evitare collisioni in diversi scenari operativi. Basandosi su questo sistema di tracciamento e di evitamento degli ostacoli, la tesi integra ulteriori funzionalità come la selezione di strumenti tramite gesti e il recupero automatico del tool usato dall’operatore, consentendo al robot di rispondere ai comandi dell’operatore in modo fluido e di prevenire collisioni, ribaltando così il tradizionale modello di interazione uomo-macchina. In collaborazione con l’Università di Coimbra, la ricerca ha inoltre sviluppato il sistema D-RMGPT, che utilizza large multimodal models per migliorare le attività di assemblaggio. Questo sistema permette di ridurre i tempi di assemblaggio del 33% per operatori principianti e offre una grande flessibilità grazie a prompt basati su immagini, eliminando la necessità di un ampio addestramento dei dati. Inoltre, un caso di studio che riguarda l’esecuzione di un processo, in questo caso la preparazione di una pizza, dimostra l’uso del modello GPT per comporre la sequenza del processo e gestire le azioni da far compiere al robot. Infatti, ricevendo gli input dell’operatore, come la selezione degli ingredienti tramite voce/gesti, e riconoscendo le azioni umane, il robot può decidere le sue azioni di risposta di conseguenza per fornire assistenza all’operatore durante il processo. Complessivamente, questi contributi stabiliscono un quadro robusto per una collaborazione uomo-robot adattabile, in tempo reale, e intuitiva, che migliora così il benessere dell’operatore e la produttività.

AI-Based Techniques for Enhancing Human-Robot Collaboration

FORLINI, MATTEO
2025

Abstract

This PhD thesis advances human-robot collaboration by developing an adaptive robotic assistant that ensures safe, seamless, and productive collaboration between humans and machines. In modern industry is not possible to apply full automation in some contests, humans contribute with essential knowledge and skills to specialized processes, while robots can assist by reducing physical strain, improving workflow, and enhancing operator well-being. This research leverages artificial intelligence techniques such as machine learning, deep learning, and large multimodal models to create a collaborative workstations where humans and robots work together intuitively, sharing tasks and workspace as one team. The proposed robotics systems are equipped with advanced perception capabilities, allowing them to detect, interpret, and respond to human actions and inputs in real time. Using sensors and cameras data, the robot adapts dynamically to the operator’s movements and intentions, prioritizing safety and fluency while optimizing workflow and minimizing the human effort. This capability was tested in various real-world robotic workstations, such as assembly and manufacturing tasks, where the robot provided safety and efficiency enhancements. A starting point of this work includes a human body pose perception system using RGB-D cameras, tracking joint positions in real time at 18 Hz with accuracy validated against an IMU wearable based system. By identifying the operator’s position, the robot maintains a safe distance and dynamically avoids collisions in various scenarios. Building on this skeleton tracking and obstacle avoidance framework, the thesis further integrates gesture-based tool selection and automatic tool retrieval, allowing the robot to respond fluidly to operator commands and to avoid it, effectively reversing the traditional human-machine interaction model. The research further developed, in collaboration with the University of Coimbra, D-RMGPT, a system employing large multimodal models for assembly tasks. This system reduces assembly time by 33% for novices and offers high flexibility through viiimage-based prompts without the need for extensive data training. Additionally, a case study involving a process execution, in this circumstance as an example a pizza preparation, demonstrates the use of a GPT model to compose the process sequence and manage the robot actions. In fact, receiving the operator’s inputs such as ingredient selection via voice/gestures and recognizing the human actions, the robot can adjust its responses accordingly to provide assistance to the operator during the process. Together, all these contributions establish a robust framework for adaptable, intuitive real-time human-robot collaboration that improves the human wellbeing and productivity
10-mar-2025
Inglese
Questa tesi di dottorato promuove la collaborazione tra umani e robot sviluppando un assistente robotico adattivo capace di garantire un’interazione sicura, fluida e produttiva. Nell’industria contemporanea ci sono processi dove non è possibile avere un’automazione totale, gli operatori apportano competenze e conoscenze indispensabili a processi specializzati, mentre i robot possono ridurre lo sforzo fisico, migliorare l’efficienza del flusso di lavoro e contribuire al benessere dell’operatore. Questa ricerca utilizza tecniche di intelligenza artificiale, tra cui machine learning, deep learning e large multimodal models, per creare postazioni di lavoro collaborative in cui umani e robot lavorano fianco a fianco in modo intuitivo, condividendo compiti e spazi operativi. I sistemi robotici sviluppati sono dotati di capacità di percezione, che consentono loro di rilevare, interpretare e rispondere agli input e umani in tempo reale. Grazie all’uso di dati provenienti da sensori e telecamere, il robot si adatta dinamicamente ai movimenti e alle intenzioni dell’operatore, dando priorità alla sicurezza e alla fluidità dell’interazione, ottimizzando allo stesso tempo il flusso di lavoro e riducendo lo sforzo umano. Queste capacità sono state testate in diverse postazioni robotiche, come in operazioni di assemblaggio e produzione, dimostrando come il robot possa migliorare la sicurezza e l’efficienza. Un aspetto chiave di questo lavoro è stato lo sviluppo di un sistema di percezione della postura del corpo umano mediante telecamere RGB-D, capace di monitorare in tempo reale la posizione delle articolazioni a una frequenza di 18 Hz, con una precisione verificata attraverso un sistema basato su IMU. Identificando la posizione dell’operatore, il robot può mantenere una distanza di sicurezza e adattarsi dinamicamente per evitare collisioni in diversi scenari operativi. Basandosi su questo sistema di tracciamento e di evitamento degli ostacoli, la tesi integra ulteriori funzionalità come la selezione di strumenti tramite gesti e il recupero automatico del tool usato dall’operatore, consentendo al robot di rispondere ai comandi dell’operatore in modo fluido e di prevenire collisioni, ribaltando così il tradizionale modello di interazione uomo-macchina. In collaborazione con l’Università di Coimbra, la ricerca ha inoltre sviluppato il sistema D-RMGPT, che utilizza large multimodal models per migliorare le attività di assemblaggio. Questo sistema permette di ridurre i tempi di assemblaggio del 33% per operatori principianti e offre una grande flessibilità grazie a prompt basati su immagini, eliminando la necessità di un ampio addestramento dei dati. Inoltre, un caso di studio che riguarda l’esecuzione di un processo, in questo caso la preparazione di una pizza, dimostra l’uso del modello GPT per comporre la sequenza del processo e gestire le azioni da far compiere al robot. Infatti, ricevendo gli input dell’operatore, come la selezione degli ingredienti tramite voce/gesti, e riconoscendo le azioni umane, il robot può decidere le sue azioni di risposta di conseguenza per fornire assistenza all’operatore durante il processo. Complessivamente, questi contributi stabiliscono un quadro robusto per una collaborazione uomo-robot adattabile, in tempo reale, e intuitiva, che migliora così il benessere dell’operatore e la produttività.
PALMIERI, Giacomo
Università Politecnica delle Marche
File in questo prodotto:
File Dimensione Formato  
tesi_forlini.pdf

embargo fino al 10/09/2026

Dimensione 23.66 MB
Formato Adobe PDF
23.66 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/202953
Il codice NBN di questa tesi è URN:NBN:IT:UNIVPM-202953