While many researchers study computer vision, natural language processing, or robotics, the works proposed here lie at the intersection of these three domains. In this manuscript, two domains for applying Human-Robot Interaction (HRI) that combine vision and language are explored, namely physical HRI and cognitive HRI. For physical HRI, the task of Vision and Language Navigation (VLN) is considered. In VLN, there is an agent that can perceive the 360-degree view of the environment (vision) and has to follow the language instructions of the human such as “Go to the kitchen and clean the coffee table”. For cognitive HRI, the task of multimodal empathetic dialogue generation is considered. In this task, input signals from facial expressions (vision) and the text of what the human says (language) are provided. The agent should respond to the human empathetically by considering these two multimodal input signals. The first three works are related to physical HRI. The first work proposes a method to improve the navigation performance of an agent by augmenting already existing VLN datasets such as REVERIE. Specifically, a speaker model that generates language instructions for a sequence of images (for example, “Go to the sofa and bring me the remote control.”) using an adversarial approach is proposed. In the second work, the speaker model is extended to generate dialogue whenever the navigation agent gets confused regarding where to go next. Finally, in the third work for physical HRI, a generalized VLN agent is proposed. This agent can summarize a trajectory given a sequence of images, navigate and perform embodied questions and answering. Large Language Models (LLMs), such as ChatGPT, have become popular but these models are prone to giving long and neutral answers to assist humans in one way or another. The works proposed on cognitive HRI introduce ways to make artificial agents respond empathetically to humans. In the first work for cognitive HRI, an agent replies with parallel or reactive empathy to the human with a certain facial expression and the text of what is said. Specifically, a Transformer encoder-decoder structure is used to respond to the human empathetically. The second work also consists of an agent that learns to respond to humans empathetically. However, this work makes use of only the Transformer decoder model to generate the dialogue response and the model is trained using Reinforcement Learning (RL) to respond in a manner that would make the human feel positive. To summarize, approaches based on Transformer models are proposed to enhance the performance of VLN agents for physical HRI tasks. Transformer models were also finetuned to learn to respond to humans empathetically for cognitive HRI tasks. While the two domains of physical HRI and cognitive HRI are kept segregated, ideally, a robot with general intelligence should be able to clean the house or bring a particular object (physical HRI) and be a social companion engaging in empathetic dialogue (cognitive HRI). In the future, a computational model that could perform both physical HRI and cognitive HRI could be developed to investigate how these two fields can interplay.

Mentre molti ricercatori studiano la computer vision, linguaggio o la robotica, i lavori qui proposti si trovano all'intersezione di questi tre domini. In questo manoscritto vengono presentati due domini di applicazione dell'interazione uomo-robot che combinano visione e linguaggio, ovvero l'interazione uomo-robot fisica e l'interazione uomo-robot cognitiva. Per quanto riguarda l'interazione fisica uomo-robot, viene presa in considerazione la navigazione tramite visione e linguaggio. Nella navigazione tramite visione e linguaggio, un agente è in grado di percepire la vista a 360 gradi dell'ambiente e deve seguire le istruzioni linguistiche dell'uomo, come ad esempio “Vai in cucina e pulisci il tavolino”. Per l'interazione cognitiva uomo-robot, si considera la generazione di dialogo empatico multimodale. In questo setting, vengono forniti segnali di input dalle espressioni facciali (visione) e dal testo dettato dall’umano (linguaggio). L'agente deve rispondere all'uomo in modo empatico considerando questi due segnali di input multimodali. I primi tre lavori riguardano l'interazione fisica uomo-robot. Il primo lavoro propone un metodo per migliorare le prestazioni di navigazione di un agente estendendo i dataset di navigazione tramite visione e linguaggio già esistenti, come REVERIE. In particolare, viene proposto un modello di speaker che genera istruzioni linguistiche per una sequenza di immagini (ad esempio, “Vai sul divano e portami il telecomando”). Nel secondo lavoro, il modello di altoparlante viene esteso per generare un dialogo ogni volta che l'agente di navigazione si confonde sulla direzione da prendere. Infine, nel terzo lavoro per l'interazione fisica uomo-robot, viene proposto un agente di navigazione generalizzato con visione e linguaggio. Questo agente può descrivere una traiettoria data una sequenza di immagini, navigare e generare risposte alle domande. I Large Language Models, come ChatGPT, sono diventati popolari, ma questi modelli sono inclini a fornire risposte lunghe e neutre per assistere gli esseri umani in un modo o nell'altro. I lavori proposti sull'interazione cognitiva uomo-robot introducono modi per far sì che gli agenti artificiali rispondano in modo empatico agli esseri umani. Nel primo lavoro sull'interazione cognitiva uomo-robot, un agente risponde con empatia parallela o reattiva all'uomo con una certa espressione facciale e il testo di ciò che viene detto. In particolare, viene utilizzata una struttura Transformer encoder-decoder per rispondere all'umano in modo empatico. Anche il secondo lavoro consiste in un agente che impara a rispondere agli esseri umani in modo empatico. Tuttavia, questo lavoro utilizza solo il modello di Transformer decoder per generare la risposta al dialogo e il modello viene addestrato utilizzando il Reinforcement Learning per rispondere in modo da migliorare lo stato emotivo dell’umano. In sintesi, sono stati proposti approcci basati su modelli di Transformer per migliorare le prestazioni degli agenti di navigazione tramite visione e linguaggio per compiti di interazione fisica uomo-robot. I modelli di Transformer sono stati messi a punto anche per imparare a rispondere agli esseri umani in modo empatico per i compiti di interazione cognitiva uomo-robot. Sebbene i due domini dell'interazione fisica uomo-robot e dell'interazione cognitiva uomo-robot siano tenuti separati, idealmente un robot con intelligenza generale dovrebbe essere in grado di pulire la casa o di portare un particolare oggetto e di essere un compagno sociale con capacità di dialogo empatico. In futuro, si potrebbe sviluppare un modello computazionale in grado di eseguire sia l'interazione fisica uomo-robot che l'interazione cognitiva uomo-robot, per studiare come questi due campi possano interagire.

Integrazione di visione e linguaggio per l'interazione fisica e cognitiva uomo-robot

RAWAL, NIYATI
2025

Abstract

While many researchers study computer vision, natural language processing, or robotics, the works proposed here lie at the intersection of these three domains. In this manuscript, two domains for applying Human-Robot Interaction (HRI) that combine vision and language are explored, namely physical HRI and cognitive HRI. For physical HRI, the task of Vision and Language Navigation (VLN) is considered. In VLN, there is an agent that can perceive the 360-degree view of the environment (vision) and has to follow the language instructions of the human such as “Go to the kitchen and clean the coffee table”. For cognitive HRI, the task of multimodal empathetic dialogue generation is considered. In this task, input signals from facial expressions (vision) and the text of what the human says (language) are provided. The agent should respond to the human empathetically by considering these two multimodal input signals. The first three works are related to physical HRI. The first work proposes a method to improve the navigation performance of an agent by augmenting already existing VLN datasets such as REVERIE. Specifically, a speaker model that generates language instructions for a sequence of images (for example, “Go to the sofa and bring me the remote control.”) using an adversarial approach is proposed. In the second work, the speaker model is extended to generate dialogue whenever the navigation agent gets confused regarding where to go next. Finally, in the third work for physical HRI, a generalized VLN agent is proposed. This agent can summarize a trajectory given a sequence of images, navigate and perform embodied questions and answering. Large Language Models (LLMs), such as ChatGPT, have become popular but these models are prone to giving long and neutral answers to assist humans in one way or another. The works proposed on cognitive HRI introduce ways to make artificial agents respond empathetically to humans. In the first work for cognitive HRI, an agent replies with parallel or reactive empathy to the human with a certain facial expression and the text of what is said. Specifically, a Transformer encoder-decoder structure is used to respond to the human empathetically. The second work also consists of an agent that learns to respond to humans empathetically. However, this work makes use of only the Transformer decoder model to generate the dialogue response and the model is trained using Reinforcement Learning (RL) to respond in a manner that would make the human feel positive. To summarize, approaches based on Transformer models are proposed to enhance the performance of VLN agents for physical HRI tasks. Transformer models were also finetuned to learn to respond to humans empathetically for cognitive HRI tasks. While the two domains of physical HRI and cognitive HRI are kept segregated, ideally, a robot with general intelligence should be able to clean the house or bring a particular object (physical HRI) and be a social companion engaging in empathetic dialogue (cognitive HRI). In the future, a computational model that could perform both physical HRI and cognitive HRI could be developed to investigate how these two fields can interplay.
3-apr-2025
Inglese
Mentre molti ricercatori studiano la computer vision, linguaggio o la robotica, i lavori qui proposti si trovano all'intersezione di questi tre domini. In questo manoscritto vengono presentati due domini di applicazione dell'interazione uomo-robot che combinano visione e linguaggio, ovvero l'interazione uomo-robot fisica e l'interazione uomo-robot cognitiva. Per quanto riguarda l'interazione fisica uomo-robot, viene presa in considerazione la navigazione tramite visione e linguaggio. Nella navigazione tramite visione e linguaggio, un agente è in grado di percepire la vista a 360 gradi dell'ambiente e deve seguire le istruzioni linguistiche dell'uomo, come ad esempio “Vai in cucina e pulisci il tavolino”. Per l'interazione cognitiva uomo-robot, si considera la generazione di dialogo empatico multimodale. In questo setting, vengono forniti segnali di input dalle espressioni facciali (visione) e dal testo dettato dall’umano (linguaggio). L'agente deve rispondere all'uomo in modo empatico considerando questi due segnali di input multimodali. I primi tre lavori riguardano l'interazione fisica uomo-robot. Il primo lavoro propone un metodo per migliorare le prestazioni di navigazione di un agente estendendo i dataset di navigazione tramite visione e linguaggio già esistenti, come REVERIE. In particolare, viene proposto un modello di speaker che genera istruzioni linguistiche per una sequenza di immagini (ad esempio, “Vai sul divano e portami il telecomando”). Nel secondo lavoro, il modello di altoparlante viene esteso per generare un dialogo ogni volta che l'agente di navigazione si confonde sulla direzione da prendere. Infine, nel terzo lavoro per l'interazione fisica uomo-robot, viene proposto un agente di navigazione generalizzato con visione e linguaggio. Questo agente può descrivere una traiettoria data una sequenza di immagini, navigare e generare risposte alle domande. I Large Language Models, come ChatGPT, sono diventati popolari, ma questi modelli sono inclini a fornire risposte lunghe e neutre per assistere gli esseri umani in un modo o nell'altro. I lavori proposti sull'interazione cognitiva uomo-robot introducono modi per far sì che gli agenti artificiali rispondano in modo empatico agli esseri umani. Nel primo lavoro sull'interazione cognitiva uomo-robot, un agente risponde con empatia parallela o reattiva all'uomo con una certa espressione facciale e il testo di ciò che viene detto. In particolare, viene utilizzata una struttura Transformer encoder-decoder per rispondere all'umano in modo empatico. Anche il secondo lavoro consiste in un agente che impara a rispondere agli esseri umani in modo empatico. Tuttavia, questo lavoro utilizza solo il modello di Transformer decoder per generare la risposta al dialogo e il modello viene addestrato utilizzando il Reinforcement Learning per rispondere in modo da migliorare lo stato emotivo dell’umano. In sintesi, sono stati proposti approcci basati su modelli di Transformer per migliorare le prestazioni degli agenti di navigazione tramite visione e linguaggio per compiti di interazione fisica uomo-robot. I modelli di Transformer sono stati messi a punto anche per imparare a rispondere agli esseri umani in modo empatico per i compiti di interazione cognitiva uomo-robot. Sebbene i due domini dell'interazione fisica uomo-robot e dell'interazione cognitiva uomo-robot siano tenuti separati, idealmente un robot con intelligenza generale dovrebbe essere in grado di pulire la casa o di portare un particolare oggetto e di essere un compagno sociale con capacità di dialogo empatico. In futuro, si potrebbe sviluppare un modello computazionale in grado di eseguire sia l'interazione fisica uomo-robot che l'interazione cognitiva uomo-robot, per studiare come questi due campi possano interagire.
Visione; Linguaggio; Robotica; Deep Learning; IA
BARALDI, LORENZO
CUCCHIARA, Rita
ROVATI, Luigi
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Tesi definitiva Rawal Niyati.pdf

accesso aperto

Dimensione 11.38 MB
Formato Adobe PDF
11.38 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/202179
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-202179