Improving distributed intelligence solutions in 6G systems

Singh, Gurtaj

In the era of advanced digitalization, the need for effective deployment of distributed Artificial Intelligence (AI) solutions throughout the cloud-to-things continuum is becoming essential to progress toward upcoming sixth generation (6G) systems. Indeed, several applications, ranging from Autonomous Vehicles to Industrial Automation, entail executing cognitive tasks and heavily rely on AI algorithms that need to be adequately trained to achieve high accuracy and subsequently executed for prompt decision-making. In such a context, major issues include: • Achieving low latency: Many AI applications, such as those in the automotive or healthcare sectors, have stringent requirements for AI task execution latency. It is therefore urgent to develop frameworks that support rapid data processing (for both training and inference procedures) and efficient information transfer. Exploiting the computational capabilities of network edge nodes is crucial to minimize delays in executing computationally intensive AI applications, which would otherwise challenge constrained end-devices. • Targeting interoperability: The heterogeneity characterizing devices involved in distributed learning procedures hinders efficient interactions among them. Hence, uniform, semantic-rich approaches are needed to adequately describe device capabilities, datasets, and communication link quality, ensuring proper device selection and effective data exchange. • Reducing energy consumption: Battery-powered devices require effective energy-saving strategies to extend their lifespan and increase their ability to handle AI tasks. When dealing with distributed intelligence, optimizing computational processes—such as reducing the complexity of AI models—and efficiently distributing AI workloads between edge and end- devices are essential to maximize available resources while reducing energy consumption. • Ensuring high accuracy: Prediction and classification tasks must be executed with high accuracy. However, resource constraints often require compact AI models, potentially impacting accuracy. Identifying models that balance accuracy and efficiency is crucial. • Dealing with massive data exchange: AI training and inference procedures often involve extensive data exchange, introducing communication-related issues. Clients in distributed learning exchange models and model updates, while end-devices may transmit large volumes of input data to inference executors, exacerbating network congestion, especially in scenarios with a high density of end-devices. Solutions are needed to reduce the communication footprint of AI operations. In this thesis, different technologies and methods have been adopted to address the above- mentioned challenges, focusing on optimizing distributed training and inference procedures in the mobile device–edge continuum. Solutions built upon well-established Internet of Things (IoT) protocols, such as Message Queuing Telemetry Transport (MQTT) and Open Mobile Alliance–Lightweight Machine-to-Machine (OMA- LwM2M), as well as architectures from the future Internet research domain, like Named Data Networking (NDN), have been designed to improve efficiency and interoperability in Federated Learning (FL) scenarios. These solutions facilitate communication between heterogeneous, distributed, and network-challenged devices (often referred to as "stragglers") to accelerate the convergence of the training process. Proposed solutions have been evaluated through realistic simulations and small-scale proof-of- concept implementations in virtualized environments. Additionally, extensive experimental studies have been conducted to evaluate the performance of compact Deep Neural Network (DNN) models, more suitable for constrained edge environments, and to determine the best deployment options for them. Pruning and fine-tuning techniques have been explored and implemented—pruning for model compression and fine-tuning for recovering accuracy performance when necessary. The objective of these techniques is to enable inference execution in resource-constrained scenarios while minimizing energy consumption and execution latency. Furthermore, an optimization model, informed by experimental data and supported by analytical modeling, has been developed to determine the optimal execution location for inference tasks—either locally or at edge nodes. This approach aims to reduce telecommunication network load in terms of exchanged data. The developed framework provides the best placement strategy for inference requests from multiple devices and the most suitable compression configuration for models to meet optimization objectives, application requirements, and device constraints. Although the proposed solutions significantly improve AI task execution in distributed environments, trade-offs remain between accuracy, resource efficiency, and communication overhead. Future research directions include enhancing model adaptability across heterogeneous environments and refining optimization strategies for inference offloading in highly dynamic networks

Nell'era della digitalizzazione avanzata, la necessità di implementare soluzioni di Intelligenza Artificiale (IA) distribuita lungo il continuum cloud-to-things sta diventando essenziale per il progresso verso i futuri sistemi di sesta generazione (6G). Numerose applicazioni, che spaziano dai Veicoli Autonomi all'Automazione Industriale, si basano sull'esecuzione di compiti cognitivi e dipendono fortemente da algoritmi di IA che devono essere adeguatamente addestrati per ottenere elevata accuratezza e successivamente eseguiti per decisioni tempestive. In questo contesto, le principali problematiche includono: • Raggiungere una bassa latenza: Molte applicazioni IA, come quelle nei settori automobilistico e sanitario, impongono requisiti stringenti sulla latenza di esecuzione dei compiti di IA. È quindi cruciale sviluppare framework che supportino un'elaborazione rapida dei dati (sia per l'addestramento che per l'inferenza) e un trasferimento efficiente delle informazioni. Sfruttare le capacità computazionali dei nodi edge della rete è fondamentale per ridurre i ritardi nell'esecuzione di applicazioni IA ad alta intensità computazionale, che altrimenti graverebbero sui dispositivi con risorse limitate. • Garantire l'interoperabilità: L'eterogeneità dei dispositivi coinvolti nei processi di apprendimento distribuito ostacola le interazioni efficienti tra di essi. Sono quindi necessari approcci uniformi e semanticamente ricchi per descrivere adeguatamente le capacità dei dispositivi, i dataset e la qualità dei collegamenti di comunicazione, garantendo una selezione appropriata dei dispositivi e uno scambio efficace dei dati. • Ridurre il consumo energetico: I dispositivi alimentati a batteria richiedono strategie di risparmio energetico per prolungare la loro autonomia e aumentare la capacità di gestione dei compiti IA. Nell'intelligenza distribuita, è essenziale ottimizzare i processi computazionali—ad esempio riducendo la complessità dei modelli IA—e distribuire in modo efficiente i carichi di lavoro tra edge e dispositivi finali per massimizzare le risorse disponibili e ridurre il consumo energetico. • Garantire elevata accuratezza: I compiti di previsione e classificazione devono essere eseguiti con elevata accuratezza. Tuttavia, le limitazioni nelle risorse impongono spesso l'uso di modelli IA compatti, il che potrebbe comprometterne le prestazioni. È quindi essenziale individuare modelli in grado di bilanciare efficienza e accuratezza. • Gestire lo scambio massivo di dati: Le procedure di addestramento e inferenza IA spesso comportano lo scambio di grandi volumi di dati, introducendo problematiche legate alla comunicazione. I client coinvolti nell'apprendimento distribuito scambiano modelli e aggiornamenti dei modelli, mentre i dispositivi finali possono trasmettere grandi quantità di dati di input ai nodi che eseguono l’inferenza, aggravando la congestione della rete, soprattutto in scenari con un'elevata densità di dispositivi. Sono necessarie soluzioni per ridurre l'impatto della comunicazione nei sistemi IA. In questa tesi, sono state adottate diverse tecnologie e metodologie per affrontare le problematiche sopra menzionate, con un focus sull'ottimizzazione delle procedure di addestramento e inferenza distribuite nel continuum mobile device–edge. Sono state sviluppate soluzioni basate su protocolli consolidati nell'Internet of Things (IoT), come il Message Queuing Telemetry Transport (MQTT) e l'Open Mobile Alliance–Lightweight Machine-to- Machine (OMA-LwM2M), nonché su architetture del futuro Internet, come il Named Data Networking (NDN). Queste soluzioni mirano a migliorare l'efficienza e l'interoperabilità negli scenari di Federated Learning (FL), facilitando la comunicazione tra dispositivi eterogenei, distribuiti e con risorse limitate (noti come "stragglers"), al fine di accelerare la convergenza del processo di addestramento. Le soluzioni proposte sono state valutate attraverso simulazioni realistiche e proof-of-concept su piccola scala in ambienti virtualizzati. Inoltre, sono stati condotti ampi studi sperimentali per valutare le prestazioni di modelli Deep Neural Network (DNN) compatti, più adatti ad ambienti edge con risorse limitate, e per determinare le migliori strategie di distribuzione. Sono state esplorate e implementate tecniche di pruning e fine-tuning: il pruning per la compressione del modello e il fine-tuning per recuperare l'accuratezza persa a causa della compressione. L'obiettivo di queste tecniche è consentire l'esecuzione di inferenze in scenari con risorse limitate, riducendo al contempo il consumo energetico e la latenza di esecuzione. È stato inoltre sviluppato un modello di ottimizzazione, basato su dati sperimentali e supportato da modelli analitici, per determinare il luogo ottimale di esecuzione dei compiti di inferenza—sia localmente che sui nodi edge. Questo approccio mira a ridurre il carico sulla rete di telecomunicazioni in termini di dati scambiati. Il framework sviluppato fornisce la migliore strategia di posizionamento per le richieste di inferenza provenienti da più dispositivi e la configurazione di compressione più appropriata per i modelli, al fine di soddisfare gli obiettivi di ottimizzazione, i requisiti applicativi e i vincoli dei dispositivi. Sebbene le soluzioni proposte migliorino significativamente l'esecuzione dei task IA in ambienti distribuiti, permangono compromessi tra accuratezza, efficienza delle risorse e overhead di comunicazione. Le direzioni future di ricerca includono il miglioramento dell'adattabilità dei modelli in ambienti eterogenei e il perfezionamento delle strategie di ottimizzazione per l’offloading dell'inferenza in condizioni di rete altamente dinamiche