Creativity is the element of human intelligence that allows an individual to produce new concepts by combining knowledge from their past experience. Modeling the behavior of the human mind is at the core of artificial intelligence (AI) and, in the last decade, the ability of an AI model to generate unseen data has emerged since the introduction of generative models. Although we are not close to reproducing and, even less, replacing human intelligence, these tools offer valid assistance in creative processes by easing repetitive and mechanical tasks that require low mental effort. In particular, their strength comes from the possibility of being controlled by human-readable information (e.g., text, images, sketches). Motivated by their potential and possible applications, in this thesis, we investigate how controllable generative models can solve common problems in several use cases. First, we analyze the task of image generation conditioned by structured semantics to understand how a generative model can learn the constraints encoded in the data and translate them into a visual representation. Then, we explore how different conditions can be combined in a single model to guide the generative process using multiple, multi-modal, sources of information to provide a higher degree of control to the user. Finally, we investigate the performance of generative models when used to conditionally augment datasets in a specific domain characterized by low data availability and underrepresented information. In particular, we explore the application of these models in radio astronomy with the goal of improving the quality of learning-based approaches to perform source detection, a non-trivial task that is difficult to automate. The results of our analyses highlight how employing generative models allows for producing high-quality data in several contexts, effectively embedding the conditional information into the generation process and providing fine control over the synthesized samples. Controlling generative models is particularly crucial when training deep learning models on limited datasets, as they allow for extending available data with new samples according to the necessities, thus relieving problems of data scarcity and class imbalances.

La creatività è l'elemento dell'intelligenza umana che permette a un individuo di produrre nuovi concetti combinando le conoscenze provenienti dalle sue esperienze passate. La modellazione del comportamento della mente umana è al centro dell'intelligenza artificiale (IA) e, nell'ultimo decennio, la capacità di un modello di IA di generare nuovi dati è emersa grazie all'introduzione dei modelli generativi. Anche se non siamo vicini a riprodurre e, tanto meno, a sostituire l'intelligenza umana, questi strumenti offrono un valido aiuto nei processi creativi, facilitando compiti ripetitivi e meccanici che richiedono un basso sforzo mentale. In particolare, il loro punto di forza derive dalla possibilità di essere controllati da informazioni interpretabili dall'uomo (ad esempio, testo, immagini, disegni a mano libera). Motivati dal loro potenziale e dalle possibili applicazioni, in questa tesi studiamo come i modelli generativi controllabili possano risolvere problemi comuni in diversi casi d'uso. In primo luogo, analizziamo il task della generazione di immagini condizionate da una semantica strutturata per comprendere come un modello generativo possa apprendere i vincoli codificati nei dati e tradurli in una rappresentazione visiva. In seguito, esploriamo come diverse condizioni possano essere combinate in un unico modello per guidare il processo generativo utilizzando molteplici fonti di informazione multimodali per fornire un maggior grado di controllo all'utente. Infine, analizziamo le prestazioni dei modelli generativi quando vengono utilizzati per aumentare in modo condizionale gli insiemi di dati in un dominio specifico caratterizzato da una bassa disponibilità di dati e da informazioni sottorappresentate. In particolare, esploriamo l'applicazione di questi modelli in radioastronomia con l'obiettivo di migliorare la qualità degli approcci basati sull'apprendimento per eseguire il rilevamento delle sorgenti, un compito non banale e difficile da automatizzare. I risultati delle nostre analisi evidenziano come l'impiego di modelli generativi consenta di produrre dati di alta qualità in diversi contesti, incorporando efficacemente l'informazione condizionale nel processo di generazione e fornendo un controllo fine sui campioni sintetizzati. Il controllo dei modelli generativi è particolarmente cruciale quando si addestrano modelli di deep learning su insiemi di dati limitati, poiché consentono di estendere i dati disponibili con nuovi campioni in base alle necessità, alleviando così i problemi di scarsità di dati e di classi sbilanciate.

Modelli generativi controllabili per la sintesi di dati guidati dall'uomo e applicazioni in radioastronomia

SORTINO, Renato
2023

Abstract

Creativity is the element of human intelligence that allows an individual to produce new concepts by combining knowledge from their past experience. Modeling the behavior of the human mind is at the core of artificial intelligence (AI) and, in the last decade, the ability of an AI model to generate unseen data has emerged since the introduction of generative models. Although we are not close to reproducing and, even less, replacing human intelligence, these tools offer valid assistance in creative processes by easing repetitive and mechanical tasks that require low mental effort. In particular, their strength comes from the possibility of being controlled by human-readable information (e.g., text, images, sketches). Motivated by their potential and possible applications, in this thesis, we investigate how controllable generative models can solve common problems in several use cases. First, we analyze the task of image generation conditioned by structured semantics to understand how a generative model can learn the constraints encoded in the data and translate them into a visual representation. Then, we explore how different conditions can be combined in a single model to guide the generative process using multiple, multi-modal, sources of information to provide a higher degree of control to the user. Finally, we investigate the performance of generative models when used to conditionally augment datasets in a specific domain characterized by low data availability and underrepresented information. In particular, we explore the application of these models in radio astronomy with the goal of improving the quality of learning-based approaches to perform source detection, a non-trivial task that is difficult to automate. The results of our analyses highlight how employing generative models allows for producing high-quality data in several contexts, effectively embedding the conditional information into the generation process and providing fine control over the synthesized samples. Controlling generative models is particularly crucial when training deep learning models on limited datasets, as they allow for extending available data with new samples according to the necessities, thus relieving problems of data scarcity and class imbalances.
13-nov-2023
Italiano
La creatività è l'elemento dell'intelligenza umana che permette a un individuo di produrre nuovi concetti combinando le conoscenze provenienti dalle sue esperienze passate. La modellazione del comportamento della mente umana è al centro dell'intelligenza artificiale (IA) e, nell'ultimo decennio, la capacità di un modello di IA di generare nuovi dati è emersa grazie all'introduzione dei modelli generativi. Anche se non siamo vicini a riprodurre e, tanto meno, a sostituire l'intelligenza umana, questi strumenti offrono un valido aiuto nei processi creativi, facilitando compiti ripetitivi e meccanici che richiedono un basso sforzo mentale. In particolare, il loro punto di forza derive dalla possibilità di essere controllati da informazioni interpretabili dall'uomo (ad esempio, testo, immagini, disegni a mano libera). Motivati dal loro potenziale e dalle possibili applicazioni, in questa tesi studiamo come i modelli generativi controllabili possano risolvere problemi comuni in diversi casi d'uso. In primo luogo, analizziamo il task della generazione di immagini condizionate da una semantica strutturata per comprendere come un modello generativo possa apprendere i vincoli codificati nei dati e tradurli in una rappresentazione visiva. In seguito, esploriamo come diverse condizioni possano essere combinate in un unico modello per guidare il processo generativo utilizzando molteplici fonti di informazione multimodali per fornire un maggior grado di controllo all'utente. Infine, analizziamo le prestazioni dei modelli generativi quando vengono utilizzati per aumentare in modo condizionale gli insiemi di dati in un dominio specifico caratterizzato da una bassa disponibilità di dati e da informazioni sottorappresentate. In particolare, esploriamo l'applicazione di questi modelli in radioastronomia con l'obiettivo di migliorare la qualità degli approcci basati sull'apprendimento per eseguire il rilevamento delle sorgenti, un compito non banale e difficile da automatizzare. I risultati delle nostre analisi evidenziano come l'impiego di modelli generativi consenta di produrre dati di alta qualità in diversi contesti, incorporando efficacemente l'informazione condizionale nel processo di generazione e fornendo un controllo fine sui campioni sintetizzati. Il controllo dei modelli generativi è particolarmente cruciale quando si addestrano modelli di deep learning su insiemi di dati limitati, poiché consentono di estendere i dati disponibili con nuovi campioni in base alle necessità, alleviando così i problemi di scarsità di dati e di classi sbilanciate.
SPAMPINATO, CONCETTO
Università degli studi di Catania
Catania
File in questo prodotto:
File Dimensione Formato  
Renato_Sortino_PhD_Thesis.pdf

accesso aperto

Dimensione 48.62 MB
Formato Adobe PDF
48.62 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/77431
Il codice NBN di questa tesi è URN:NBN:IT:UNICT-77431