Evaluation Metrics for Data Scarcity: Assessing the Generalizability and Robustness of Generative Models for Data Synthesis

Rossi, Luca

Deep learning has achieved unprecedented success in various domains, such as computer vision and natural language processing. However, its effectiveness is constrained by the necessity for extensive training data. Generative methods are a promising solution, offering the capability to create synthetic datasets in situations of data scarcity. Nevertheless, their real-world generalizability and robustness remain uncertain, and there is a lack of good evaluation metrics to effectively assess these properties. This thesis addresses this gap, laying the groundwork for future research into this topic. It is contextualized around two case studies: Zero-Shot Learning (ZSL), a theoretical domain, and trajectory prediction, a practical application. ZSL, which trains models on "seen" classes to work on "unseen" ones, employs generative models for data augmentation. This thesis introduces an evaluation framework for assessing the generalizability and robustness of ZSL models, through the systematic evaluation of such models on different splits of the classes and semantic space. This thesis also demonstrates how dimensionality reduction can improve model performance, particularly with fine-grained datasets. For trajectory prediction, crucial in fields from autonomous vehicles to urban planning, this thesis explores generative models for synthesizing data during inference, comparing the effectiveness of LSTM and GAN models in different scenarios. The findings indicate that GANs produce more realistic predictions in multimodal scenarios, whereas LSTM models fall short as they tend to average out the possible behaviors. Novel metrics and datasets are introduced to assess generalizability in real-world contexts, with a focus on both human and vehicle trajectories. The findings demonstrate the necessity and effectiveness of the proposed methods for ensuring that generative methods are generalizable and robust in the examined contexts.

Il deep learning ha raggiunto un successo senza precedenti in vari domini, come la computer vision e il natural language processing. Tuttavia, la sua efficacia è limitata dalla necessità di grandi quantità di dati di addestramento. I metodi generativi rappresentano una soluzione promettente, offrendo la capacità di creare dataset sintetici in situazioni di scarsità di dati, ma la generalizzabilità e robustezza di tali metodi rimangono incerte. Questa tesi affronta questa lacuna, gettando le basi per futuri lavori in questo ambito. Il lavoro si contestualizza attorno a due casi di studio: lo Zero-Shot Learning (ZSL), un dominio teorico, e la previsione delle traiettorie, un'applicazione pratica. Lo ZSL coinvolge l'addestramento di modelli su classi "viste" e la loro valutazione su classi "non viste", impiegando metodi generativi per la data augmentation. Questa tesi introduce un framework per misurare la generalizzabilità e la robustezza dei modelli ZSL, attraverso la valutazione di tali modelli su diversi split delle classi e dello spazio semantico. Inoltre, questa tesi dimostra come tecniche di riduzione della dimensionalità possano migliorare le prestazioni dei modelli nei dataset fine-grained. Per la previsione di traiettorie, cruciale in campi che vanno dalla guida autonoma alla pianificazione urbana, questa tesi esplora l'uso di modelli generativi per la sintesi di dati in fase di inferenza. I risultati indicano che le GAN producono previsioni più realistiche in scenari multimodali, dove i modelli LSTM tendono a predire un comportamento medio tra quelli possibili. Vengono introdotte nuove metriche e dataset per valutare la generalizzabilità in contesti reali, con un focus sia sulle traiettorie umane che su quelle dei veicoli. I risultati ottenuti dimostrano la necessità e l'efficacia dei metodi proposti per garantire che i metodi generativi siano generalizzabili e robusti nei contesti esaminati.