In questa tesi vengono presentati schemi iterativi per la segmentazione di scene acquisite da sensori di colore e profondità. Sia il problema della segmentazione in diversi oggetti che il problema della classificazione semantica vengono affrontati. Un primo componente dei metodi proposti è l'algoritmo Normalized Cuts, basato su teoria dei grafi e analisi spettrale, che fornisce una segmentazione basata sia sulle informazioni di colore che di geometria. Una limitazione di questo metodo è il fatto che il numero delle regioni (equivalentemente, il numero degli oggetti nella scena) deve essere deciso a priori, oppure richiede l'impostazione di una soglia arbitraria sulla metrica normalized cut per essere controllato. Inoltre, il metodo tende a restituire segmenti di dimensioni similari, mentre le scene reali spesso contengono oggetti e strutture di grandezza molto variabile. Per superare questi limiti, vengono proposti schemi iterativi basati sull'approssimazione mediante superfici parametriche NURBS (Non-Uniform Rational B-Splines). L'idea principale consiste nel considerare il risultato dell'approssimazione come una stima di quanto sia buona la segmentazione corrente. Questo rende possibile costruire procedure di tipo region splitting e region merging in cui i risultati dell'approssimazione sono confrontati ad ogni passo con i precedenti, e l'iterazione viene proseguita in base al fatto che essi risultino migliorati oppure no, fino ad ottenere un risultato ottimale. L'assunzione di fondo è che se un segmento corrisponde ad un oggetto della scena ci si aspetta che l'approssimazione mediante superfici risulti buona, mentre segmenti che devono essere ulteriormente suddivisi o uniti ad altri debbano corrispondere ad un errore maggiore. Per valutare la bontà dell'approssimazione vengono discusse diverse possibili metriche. In tutti gli schemi presentati, l'impiego dell'approssimazione mediante superfici NURBS è in particolare un contributo nuovo. In seguito, viene descritto come per gli schemi iterativi proposti possano essere proficuamente utilizzate anche le informazioni di classificazione ottenute tramite l'impiego di reti neurali convoluzionali (CNN). Infatti, in base alla classificazione viene introdotta una nozione di similarità tra gli elementi di una sovrasegmentazione iniziale, e questa informazione viene utilizzata assieme al risultato dell'approssimazione mediante superfici ottenendo una variante della procedura iterativa di tipo region merging precedentemente sviluppata. Inoltre, alcuni dati risultanti dall'approssimazione (errore, curvature delle superfici) vengono forniti in ingresso alle stesse reti neurali convoluzionali; in base alla nostra conoscenza, questo è il primo lavoro in cui dati di questo tipo vengono utilizzati in un'architettura di tipo Deep Learning. Infine, la segmentazione in oggetti ottenuta dalla procedura iterativa viene sfruttata per raffinare ulteriormente la classificazione iniziale. Viene presentata una estensiva valutazione dei metodi proposti, mediante confronto quantitativo con diversi metodi allo stato dell'arte su un dataset standard. I risultati sperimentali mostrano come gli schemi proposti ottengano risultati equivalenti o migliorati rispetto ai metodi concorrenti sulla maggior parte delle scene considerate, sia per il problema della segmentazione nei diversi oggetti che per il problema della classificazione semantica. In particolare, il numero ottimale di regioni risultanti viene automaticamente determinato dalle procedure iterative, mentre deve essere arbitrariamente deciso a priori in diversi algoritmi di segmentazione. Inoltre, non vengono poste assunzioni sulla forma degli oggetti nelle scene, a differenza di vari metodi concorrenti che sono ottimizzati per superfici planari. Questo è reso possibile dall'utilizzo delle superfici NURBS, che possono rappresentare indifferentemente sia elementi semplici come piani, sfere, cilindri che forme articolate e complesse.
Segmentation of color and depth data based on surface fitting
PAGNUTTI, GIAMPAOLO
2017
Abstract
In questa tesi vengono presentati schemi iterativi per la segmentazione di scene acquisite da sensori di colore e profondità. Sia il problema della segmentazione in diversi oggetti che il problema della classificazione semantica vengono affrontati. Un primo componente dei metodi proposti è l'algoritmo Normalized Cuts, basato su teoria dei grafi e analisi spettrale, che fornisce una segmentazione basata sia sulle informazioni di colore che di geometria. Una limitazione di questo metodo è il fatto che il numero delle regioni (equivalentemente, il numero degli oggetti nella scena) deve essere deciso a priori, oppure richiede l'impostazione di una soglia arbitraria sulla metrica normalized cut per essere controllato. Inoltre, il metodo tende a restituire segmenti di dimensioni similari, mentre le scene reali spesso contengono oggetti e strutture di grandezza molto variabile. Per superare questi limiti, vengono proposti schemi iterativi basati sull'approssimazione mediante superfici parametriche NURBS (Non-Uniform Rational B-Splines). L'idea principale consiste nel considerare il risultato dell'approssimazione come una stima di quanto sia buona la segmentazione corrente. Questo rende possibile costruire procedure di tipo region splitting e region merging in cui i risultati dell'approssimazione sono confrontati ad ogni passo con i precedenti, e l'iterazione viene proseguita in base al fatto che essi risultino migliorati oppure no, fino ad ottenere un risultato ottimale. L'assunzione di fondo è che se un segmento corrisponde ad un oggetto della scena ci si aspetta che l'approssimazione mediante superfici risulti buona, mentre segmenti che devono essere ulteriormente suddivisi o uniti ad altri debbano corrispondere ad un errore maggiore. Per valutare la bontà dell'approssimazione vengono discusse diverse possibili metriche. In tutti gli schemi presentati, l'impiego dell'approssimazione mediante superfici NURBS è in particolare un contributo nuovo. In seguito, viene descritto come per gli schemi iterativi proposti possano essere proficuamente utilizzate anche le informazioni di classificazione ottenute tramite l'impiego di reti neurali convoluzionali (CNN). Infatti, in base alla classificazione viene introdotta una nozione di similarità tra gli elementi di una sovrasegmentazione iniziale, e questa informazione viene utilizzata assieme al risultato dell'approssimazione mediante superfici ottenendo una variante della procedura iterativa di tipo region merging precedentemente sviluppata. Inoltre, alcuni dati risultanti dall'approssimazione (errore, curvature delle superfici) vengono forniti in ingresso alle stesse reti neurali convoluzionali; in base alla nostra conoscenza, questo è il primo lavoro in cui dati di questo tipo vengono utilizzati in un'architettura di tipo Deep Learning. Infine, la segmentazione in oggetti ottenuta dalla procedura iterativa viene sfruttata per raffinare ulteriormente la classificazione iniziale. Viene presentata una estensiva valutazione dei metodi proposti, mediante confronto quantitativo con diversi metodi allo stato dell'arte su un dataset standard. I risultati sperimentali mostrano come gli schemi proposti ottengano risultati equivalenti o migliorati rispetto ai metodi concorrenti sulla maggior parte delle scene considerate, sia per il problema della segmentazione nei diversi oggetti che per il problema della classificazione semantica. In particolare, il numero ottimale di regioni risultanti viene automaticamente determinato dalle procedure iterative, mentre deve essere arbitrariamente deciso a priori in diversi algoritmi di segmentazione. Inoltre, non vengono poste assunzioni sulla forma degli oggetti nelle scene, a differenza di vari metodi concorrenti che sono ottimizzati per superfici planari. Questo è reso possibile dall'utilizzo delle superfici NURBS, che possono rappresentare indifferentemente sia elementi semplici come piani, sfere, cilindri che forme articolate e complesse.File | Dimensione | Formato | |
---|---|---|---|
pagnutti_giampaolo_tesi.pdf
accesso aperto
Dimensione
16.4 MB
Formato
Adobe PDF
|
16.4 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/173587
URN:NBN:IT:UNIPD-173587