BRIDGING INTERPRETABILITY AND PERFORMANCE IN 3D DEEP LEARNING THROUGH GEOMETRIC INDUCTIVE BIASES

Restolho Mateus Marcalo Lavado, Diogo

This thesis investigates how geometric inductive biases can address fundamental limitations in deep learning for 3D point clouds, particularly for safety-critical applications such as power grid inspection. Despite remarkable progress in 3D scene understanding, most state-of-the-art models operate as black-boxes, requiring substantial computational resources and large datasets to rediscover basic geometric relationships that could be encoded as priors. This gap becomes especially problematic in infrastructure monitoring, where interpretability, efficiency, and reliability are paramount. We propose a novel research direction into geometric inductive biases (GIBs) through three distinct paradigms that span the interpretability-performance spectrum. Our first contribution, SCENE-Net, demonstrates that fully interpretable white-box models based on Group Equivariant Non-Expansive Operators (GENEOs) can achieve competitive performance with five orders of magnitude fewer parameters than black-box alternatives. Building on this foundation, SCENE-Net V2 introduces a gray-box approach that combines interpretable geometric feature extraction with standard black-box classification, bridging the gap between transparency and expressiveness for multiclass segmentation tasks. Finally, GIBLy addresses scalability limitations through lightweight geometric bias layer that operates directly on raw point clouds, enabling seamless integration with any 3D backbone while eliminating the computational bottlenecks of voxelization. To support evaluation in power grid inspection applications, we introduce TS40K, the first large-scale benchmark for rural power grid inspection. Comprising over 40,000 kilometers of densely annotated UAV-acquired LiDAR data, TS40K captures the unique challenges of infrastructure monitoring. In this benchmark, we establish new performance records with 72% IoU for towers and 97% IoU for power lines. While our work confirms the existence of an interpretability-performance trade-off, we show that this trade-off need not be steep when geometric priors align well with task structure. To show the practical application of our work, we develop an inspection tool that utility operators can use for real-time monitoring and analysis of power grid infrastructure. This tool also includes a cost-benefit analysis and human-in-the-loop validation, demonstrating the viability of our approach in real-world deployment. This research contributes to advancements in geometric 3D deep learning by showing that explicit geometric knowledge enhances learning, offering a path toward 3D scene understanding methods that are more robust, efficient, and with higher performance to guarantee real-life impact in critical venues such as power grid inspection.

Questa tesi indaga come i geometric inductive biases possano risolvere limitazioni fondamentali nel deep learning 3D, in particolare per applicazioni critiche di sicurezza come l’ispezione delle reti elettriche. Nonostante i progressi significativi nel campo del 3D scene understanding, la maggior parte dei modelli allo stato dell’arte funziona come black boxes, richiedendo ingenti risorse computazionali e grandi quantità di dati per riscoprire relazioni geometriche di base che potrebbero invece essere incorporate come priors. Questa lacuna si rivela particolarmente problematica nel contesto della monitorizzazione delle infrastrutture, dove interpretabilità, efficienza e affidabilità sono elementi fondamentali. In questa tesi, proponiamo un’esplorazione dei geometric inductive biases (GIBs) attraverso tre paradigmi distinti che coprono l’intero spettro interpretabilità–performance. Il nostro primo contributo, SCENE-Net, dimostra che modelli white-box completamente interpretabili, basati su Group Equivariant Non-Expansive Operators (GENEOs), possono raggiungere performance competitive, con un numero di parametri inferiore di cinque ordini di grandezza rispetto ai metodi black-box. Su questa base, SCENE-Net V2 introduce un approccio gray-box che combina un’estrazione interpretabile di caratteristiche geometriche, con una classificazione effettuata da modelli black-box standard, colmando il divario tra trasparenza ed espressività nella segmentazione multiclasse. Infine, GIBLy affronta le limitazioni di scalabilità attraverso geometric inductive bias layers leggeri che operano direttamente su nuvole di punti, consentendo un’integrazione fluida con qualsiasi backbone3D ed eliminando completamente gli svantaggi computazionali legati alla voxelizzazione. Per condurre una valutazione rigorosa nel campo delle reti elettriche, introduciamo TS40K, il primo benchmark su larga scala per l’ispezione di reti elettriche rurali. Questo dataset comprende oltre 40.000 chilometri di dati LiDAR completamente annotati e cattura le sfide tipiche della monitorizzazione infrastrutturale: diversità strutturale negli oggetti critici, artefatti di acquisizione che si confondono con gli elementi della linea elettrica e labels semanticamente imprecise. La nostra validazione sperimentale su questo e altri quattro benchmarks evidenzia come i geometric inductive biases forniscano vantaggi consistenti quando i dati presentano sufficiente dettaglio geometrico. Nel caso specifico dell’ispezione delle reti elettriche, abbiamo stabilito nuovi record di performance con il 72% di IoU per le torri e il 97% di IoU per le linee elettriche. Sebbene il nostro lavoro confermi l’esistenza di un trade-off tra interpretabilità e performance, mostriamo che questo trade-off non deve necessariamente essere marcato quando le priorsgeometriche sono ben allineate con il compito da svolgere. Per dimostrare l’utilità e la rilevanza della nostra ricerca, abbiamo sviluppato un programma per ispezioni elettriche di facile utilizzo che include un’analisi costo–beneficio e una validazione da parte dei responsabili della manutenzione durante l’esecuzione del programma. Questo dimostra la fattibilità della nostra proposta in scenari reali. In conclusione, la nostra ricerca contribuisce al geometric deep learning mostrando che la conoscenza geometrica esplicita non limita ma potenzia la capacità di apprendimento. Ciò apre la strada a sistemi di segmentazione 3D allo stesso tempo interpretabili, efficienti e operativamente validi per applicazioni critiche di sicurezza.