Towards scalable scientific discovery: AI paradigms for next-generation radio surveys [Verso la scoperta scientifica scalabile: paradigmi di Intelligenza Artificiale per le survey radioastronomiche di prossima generazione]

Cecconello, Thomas

The advent of next-generation radio telescopes like the Square Kilometre Array (SKA) is ushering in an era of data deluge, presenting formidable challenges for traditional analysis. The sheer volume, morphological complexity, and rarity of scientifically valuable objects necessitate a paradigm shift towards automated, scalable, and intelligent analysis techniques. This thesis presents a comprehensive investigation into the application of modern deep learning methodologies to address these challenges in radio astronomy, progressing from foundational case studies to advanced, inter- active artificial intelligence systems. The research begins by establishing a baseline through a series of case studies employing supervised, unsupervised, and generative models. These include RADiff, a conditional diffusion model for synthesizing realistic radio astronomical images to counteract data scarcity; an unsupervised clustering framework utilizing convolutional autoencoders for a novel morphological classification of Supernova Remnants (SNRs); and a supervised, multi-wavelength approach for the classification of compact radio sources. Building upon the limitations of traditional supervision, the core of this work focuses on Self-Supervised Learning (SSL). A systematic framework is developed to pre-train foundational models on vast, unlabeled radio survey archives. This involves validating the versatility of SSL representations across diverse downstream tasks—including classification, source detection, and anomaly search—benchmarking a suite of state-of-the-art SSL algorithms to identify the optimal methods for radio data, and the development of an automated data curation pipeline, of which the full framework is presented, leaving its computationally demanding empirical validation as a well-defined direction for future work. To enhance the accessibility and interactivity of these powerful models, the thesis further explores the emerging field of Vision-Language Models (VLMs). A novel model, radio-llava, is developed by fine-tuning a small-scale VLM on a custom dataset of radio images paired with conversational queries and scientific captions. This creates an AI assistant capable of performing complex analysis tasks through natural language, bridging the gap between advanced AI and the broader astronomical community. Collectively, this thesis provides a robust, multi-faceted framework of AI tools for the SKA era, offering not only state-of-the-art models for automated analysis but also pioneering new paradigms for interactive scientific discovery in radio astronomy.

L'arrivo di radiotelescopi di prossima generazione, come lo Square Kilometre Array (SKA), sta inaugurando un'era caratterizzata da un diluvio di dati, ponendo sfide formidabili per l'analisi tradizionale. L'enorme volume, la complessità morfologica e la rarità di oggetti di valore scientifico necessitano un cambio di paradigma verso tecniche di analisi automatizzate, scalabili e intelligenti. Questa tesi presenta un'indagine approfondita sull'applicazione di moderne metodologie di deep learning per affrontare queste sfide in radioastronomia, progredendo da casi di studio fondazionali fino a sistemi avanzati e interattivi di intelligenza artificiale. La ricerca inizia con la definizione di una baseline attraverso una serie di casi di studio che impiegano modelli supervisionati, non supervisionati e generativi. Questi includono RADiff, un modello di diffusione condizionale per la sintesi di immagini radioastronomiche realistiche al fine di contrastare la scarsità di dati; un framework di clustering non supervisionato che utilizza autoencoder convoluzionali per una nuova classificazione morfologica dei Resti di Supernova (SNR); e un approccio supervisionato e multi-lunghezza d'onda per la classificazione di radiosorgenti compatte. Superando i limiti della supervisione tradizionale, il cuore di questo lavoro si concentra sul Self-Supervised Learning (SSL). Viene sviluppato un framework sistematico per il pre-addestramento di modelli fondazionali su vasti archivi di survey radio non etichettati. Ciò include la validazione della versatilità delle rappresentazioni SSL in diverse applicazioni a valle — come la classificazione, il rilevamento di sorgenti e la ricerca di anomalie — il benchmarking di una serie di algoritmi SSL allo stato dell'arte per identificare i metodi ottimali per i dati radio, e lo sviluppo di una pipeline automatizzata per la data curation. Di quest'ultima viene presentato il framework completo, lasciando la sua validazione empirica, computazionalmente onerosa, come una chiara direzione per lavori futuri. Per migliorare l'accessibilità e l'interattività di questi potenti modelli, la tesi esplora ulteriormente il campo emergente dei Vision-Language Models (VLM). Viene sviluppato un modello innovativo, radio-llava, attraverso il fine-tuning di un VLM di piccola scala su un dataset personalizzato di immagini radio abbinate a interrogazioni conversazionali e didascalie scientifiche. Questo dà vita a un assistente IA in grado di eseguire compiti di analisi complessi tramite il linguaggio naturale, colmando il divario tra l'IA avanzata e la più ampia comunità astronomica. Nel suo insieme, questa tesi fornisce un solido e sfaccettato framework di strumenti di IA per l'era dello SKA, offrendo non solo modelli all'avanguardia per l'analisi automatizzata, ma anche introducendo nuovi paradigmi per la scoperta scientifica interattiva in radioastronomia.