In recent years, computer vision has empowered machines to "see" and recognize objects, yet tracking multiple objects over time, especially in video sequences, remains a significant challenge. Pedestrian tracking in crowded environments is particularly complex due to frequent occlusions, shape variations, and appearance changes. Traditional tracking methods, which rely on hand-crafted heuristics, have provided valuable insights into motion prediction and identity maintenance across frames but often falter in dynamic, real-world scenarios. Recent advances in deep learning have shown the potential to overcome these limitations by leveraging large datasets and learning more generalized models. In other fields, fully end-to-end approaches have outperformed heuristic-driven methods, offering more accurate representations. However, deep learning models continue to face difficulties in tracking, particularly in balancing detection with tracking tasks, often struggling to generalize across different scenarios. This Ph.D. thesis provides a comprehensive exploration of pedestrian tracking methodologies, from traditional heuristic-based approaches to modern deep learning advancements. It introduces novel geometric techniques to address the limitations of current systems. Additionally, the thesis proposes a modular framework for fully end-to-end, data-driven trackers, allowing for the dynamic selection of specialized modules based on scene characteristics. This framework enhances adaptability to unseen domains, offering operators the flexibility to tailor tracking systems to specific camera configurations and environments.

Negli ultimi anni, la visione artificiale ha permesso alle macchine di "vedere" e riconoscere oggetti, tuttavia il tracciamento di oggetti multipli nel tempo, specialmente in sequenze video, rimane una sfida significativa. Il tracciamento di pedoni in ambienti affollati è particolarmente complesso a causa di frequenti occlusioni, variazioni di forma e cambiamenti nell'aspetto. I metodi di tracciamento tradizionali, basati su euristiche progettate manualmente, hanno fornito utili intuizioni nella predizione del movimento e nel mantenimento dell'identità nei diversi frame, ma spesso falliscono in scenari dinamici del mondo reale. I recenti progressi nel deep learning hanno mostrato un potenziale per superare queste limitazioni, sfruttando grandi dataset e imparando modelli più generalizzati. In altri campi, approcci end-to-end e data-driven hanno superato i metodi basati su euristiche, offrendo rappresentazioni più accurate. Tuttavia, nel tracciamento, i modelli basati sul deep learning continuano a incontrare difficoltà, in particolare nell’equilibrare compiti di rilevazione e tracciamento, spesso faticando a generalizzare in diversi scenari. Questa tesi di dottorato offre un’esplorazione approfondita delle metodologie di tracciamento dei pedoni, dai tradizionali approcci basati su euristiche fino ai più recenti avanzamenti del deep learning. Vengono introdotte tecniche geometriche innovative per affrontare le limitazioni dei sistemi attuali. Inoltre, la tesi propone un framework modulare per tracker completamente end-to-end e data-driven, che consente la selezione dinamica di moduli specializzati in base alle caratteristiche della scena. Questo framework migliora l'adattabilità a domini non precedentemente visti, offrendo agli operatori la flessibilità di adattare i sistemi di tracciamento alle specifiche configurazioni delle telecamere e agli ambienti.

Tracciamento delle Persone nell'Era dell'Intelligenza Artificiale - Dai Vincoli Geometrici ai Modelli Data-Driven

MANCUSI, GIANLUCA
2025

Abstract

In recent years, computer vision has empowered machines to "see" and recognize objects, yet tracking multiple objects over time, especially in video sequences, remains a significant challenge. Pedestrian tracking in crowded environments is particularly complex due to frequent occlusions, shape variations, and appearance changes. Traditional tracking methods, which rely on hand-crafted heuristics, have provided valuable insights into motion prediction and identity maintenance across frames but often falter in dynamic, real-world scenarios. Recent advances in deep learning have shown the potential to overcome these limitations by leveraging large datasets and learning more generalized models. In other fields, fully end-to-end approaches have outperformed heuristic-driven methods, offering more accurate representations. However, deep learning models continue to face difficulties in tracking, particularly in balancing detection with tracking tasks, often struggling to generalize across different scenarios. This Ph.D. thesis provides a comprehensive exploration of pedestrian tracking methodologies, from traditional heuristic-based approaches to modern deep learning advancements. It introduces novel geometric techniques to address the limitations of current systems. Additionally, the thesis proposes a modular framework for fully end-to-end, data-driven trackers, allowing for the dynamic selection of specialized modules based on scene characteristics. This framework enhances adaptability to unseen domains, offering operators the flexibility to tailor tracking systems to specific camera configurations and environments.
7-apr-2025
Inglese
Negli ultimi anni, la visione artificiale ha permesso alle macchine di "vedere" e riconoscere oggetti, tuttavia il tracciamento di oggetti multipli nel tempo, specialmente in sequenze video, rimane una sfida significativa. Il tracciamento di pedoni in ambienti affollati è particolarmente complesso a causa di frequenti occlusioni, variazioni di forma e cambiamenti nell'aspetto. I metodi di tracciamento tradizionali, basati su euristiche progettate manualmente, hanno fornito utili intuizioni nella predizione del movimento e nel mantenimento dell'identità nei diversi frame, ma spesso falliscono in scenari dinamici del mondo reale. I recenti progressi nel deep learning hanno mostrato un potenziale per superare queste limitazioni, sfruttando grandi dataset e imparando modelli più generalizzati. In altri campi, approcci end-to-end e data-driven hanno superato i metodi basati su euristiche, offrendo rappresentazioni più accurate. Tuttavia, nel tracciamento, i modelli basati sul deep learning continuano a incontrare difficoltà, in particolare nell’equilibrare compiti di rilevazione e tracciamento, spesso faticando a generalizzare in diversi scenari. Questa tesi di dottorato offre un’esplorazione approfondita delle metodologie di tracciamento dei pedoni, dai tradizionali approcci basati su euristiche fino ai più recenti avanzamenti del deep learning. Vengono introdotte tecniche geometriche innovative per affrontare le limitazioni dei sistemi attuali. Inoltre, la tesi propone un framework modulare per tracker completamente end-to-end e data-driven, che consente la selezione dinamica di moduli specializzati in base alle caratteristiche della scena. Questo framework migliora l'adattabilità a domini non precedentemente visti, offrendo agli operatori la flessibilità di adattare i sistemi di tracciamento alle specifiche configurazioni delle telecamere e agli ambienti.
Tracciamento pedoni; Rilevamento oggetti; Tracciamento oggetti; Visione artificiale; IA
CALDERARA, Simone
ROVATI, Luigi
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Tesi definitiva Mancusi Gianluca.pdf

accesso aperto

Dimensione 13.62 MB
Formato Adobe PDF
13.62 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/202149
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-202149