Metodi di Deep Learning Efficienti e Adattivi per Sistemi di Automatic Data Capture

Vezzali, Enrico

Automatic Data Capture (ADC) systems are the technological backbone of modern logistics, retail, and manufacturing, enabling traceability, automation, and process monitoring through the rapid acquisition of visual or coded information. Among these technologies, barcodes remain one of the most widespread and cost-effective solutions for product identification. Yet, despite their maturity, barcode and symbol recognition still face major challenges under real-world industrial conditions, where lighting variations, blur, long acquisition distances, or low sensor resolution can drastically reduce readability. Traditional computer-vision algorithms—based on geometric analysis, morphological operators, or the Hough transform—are reliable in controlled settings but fail when imaging conditions deviate from nominal parameters. Conversely, deep learning offers higher flexibility and robustness but requires heavy computation, limiting its use on embedded hardware. Bridging this gap between accuracy and efficiency is crucial for the next generation of intelligent ADC systems. This thesis presents an in-depth insight into benchmarking, optimizing, and deploying efficient deep-learning models tailored to industrial ADC applications. The work, carried out in collaboration with Datalogic S.p.A., focuses on integrating adaptive neural architectures into constrained, real-time environments. The first part addresses the scarcity of open datasets and reproducible benchmarks in barcode localization. To fill this gap, the BarBeR – Barcode Benchmark Repository was developed: a public framework supported by an open dataset of 8,748 annotated images. BarBeR unifies classical and deep-learning detection methods under consistent evaluation protocols and metrics, enabling fair comparison and reproducibility. Results confirm that while deep models surpass traditional approaches in accuracy, their computational cost remains a critical bottleneck for real-time operation on embedded platforms. To overcome this limitation, this thesis proposes BaFaLo, a lightweight segmentation-based barcode localizer optimized for CPU-class processors. Building upon the Fast-SCNN design paradigm, BaFaLo achieves a balanced trade-off between speed and precision, detecting even small and degraded barcodes in challenging conditions while maintaining real-time speed. Localization, however, is only the first step: decoding remains infeasible when resolution is too low. To address this, Mosaic-SR was introduced—an adaptive multi-step super-resolution method that selectively allocates computational effort to complex image regions. Guided by uncertainty estimation, Mosaic-SR improves decoding accuracy and latency compared to uniform SR approaches, making high-quality reconstruction feasible on embedded hardware. The final part, conducted during a visiting period at ETH Zurich, focuses on model quantization and deployment. This work demonstrates that combining advanced model quantization strategies, such as SVDQuant, with cache quantization can reduce the memory footprint of these models by more than half, with minimal impact on image quality or stability. These results pave the way for deploying generative architectures on embedded or resource-constrained platforms and for leveraging them in synthetic data generation when real or open datasets are limited. Overall, the thesis demonstrates how efficient and adaptive deep learning can make advanced vision capabilities accessible to real-time ADC systems. By benchmarking, optimizing, and deploying neural architectures across detection, enhancement, and generative tasks, this work contributes to the evolution of industrial vision—from rigid, rule-based pipelines to flexible, data-driven solutions that operate reliably under real-world constraints.

I sistemi di Automatic Data Capture (ADC) rappresentano una tecnologia fondamentale per la logistica, il commercio e la produzione moderna, consentendo tracciabilità, automazione e monitoraggio dei processi tramite la rapida acquisizione di informazioni visive o codificate. Tra queste tecnologie, i codici a barre restano una delle soluzioni più diffuse ed economiche per l’identificazione dei prodotti. Tuttavia, nonostante la loro maturità, il riconoscimento di codici e simboli presenta ancora difficoltà in condizioni industriali reali, dove variazioni di illuminazione, sfocature, lunghe distanze o bassa risoluzione riducono la leggibilità. Gli algoritmi di visione artificiale tradizionale – basati su analisi geometriche, operatori morfologici o sulla trasformata di Hough – sono affidabili in contesti controllati, ma non quando le condizioni di acquisizione si discostano dai parametri nominali. Le tecniche di deep learning, invece, offrono maggiore flessibilità e robustezza, ma richiedono risorse computazionali elevate che ne limitano l’uso su piattaforme embedded. Colmare questo divario tra accuratezza ed efficienza è quindi essenziale per la prossima generazione di sistemi ADC intelligenti. La tesi analizza strategie di benchmarking, ottimizzazione e deployment di modelli di deep learning efficienti per applicazioni ADC industriali. Il lavoro, svolto in collaborazione con Datalogic S.p.A., si concentra sull’integrazione di architetture neurali adattive in ambienti vincolati e in tempo reale. La prima parte affronta la carenza di dati open source e benchmark riproducibili nella localizzazione di codici a barre. A tal fine è stato sviluppato BarBeR – Barcode Benchmark Repository, un framework pubblico con 8 748 immagini annotate che unifica approcci classici e metodi di deep learning sotto protocolli comuni, garantendo confronti equi e riproducibilità. I test hanno confermato che, sebbene i modelli deep superino quelli tradizionali in accuratezza, il loro costo computazionale resta un ostacolo per l’esecuzione in tempo reale su dispositivi embedded. Per superare tale limite è stato proposto BaFaLo, un localizzatore leggero basato sulla segmentazione, ottimizzato per operare su CPU senza acceleratori. Ispirato al paradigma Fast-SCNN, BaFaLo bilancia velocità e precisione, rilevando codici piccoli o degradati in condizioni difficili e mantenendo prestazioni real-time. Poiché la sola localizzazione non basta, e occorre leggere i codici anche in condizioni avverse, è stato introdotto Mosaic-SR, un metodo di super-risoluzione adattivo a più passaggi che alloca le risorse di calcolo alle regioni più complesse. Guidato da una stima di incertezza, Mosaic-SR migliora accuratezza e latenza rispetto agli approcci uniformi, consentendo ricostruzioni di alta qualità su hardware embedded. L’ultima parte, svolta presso l’Integrated Systems Laboratory dell’ETH Zurich, riguarda la quantizzazione e il deployment di modelli generativi. Combinando strategie avanzate come SVDQuant e la quantizzazione della cache, è stato possibile ridurre di oltre il 50 % la memoria richiesta senza compromettere qualità o stabilità. Questi risultati aprono la strada all’uso di modelli generativi su piattaforme a risorse limitate e alla creazione di dataset sintetici quando i dati reali o open source sono insufficienti. In sintesi, la tesi dimostra come il deep learning efficiente e adattivo renda accessibili capacità visive avanzate ai sistemi ADC in tempo reale. Attraverso benchmarking, ottimizzazione e deployment di architetture neurali per rilevamento, miglioramento e generazione, il lavoro contribuisce all’evoluzione della visione industriale: da pipeline rigide e basate su regole a soluzioni flessibili e guidate dai dati, affidabili anche in condizioni operative reali