Nell'ultimo decennio, siamo stati testimoni dell'esplosione dei servizi di media delivery su Internet, con la crescita esponenziale di popolari società di video streaming come YouTube e Netflix. In questo contesto tecnologico, le applicazioni di Realtà Virtuale e Aumentata stanno diventando sempre più popolari grazie ai miglioramenti e alla penetrazione di economici Head Mounted Displays (HMDs). Pertanto, la capacità di trasmettere video immersivi, o contenuti Omnidirectional Video (OV), è una tecnologia abilitante chiave per diverse applicazioni emergenti come il cinema immersivo, i social-media e la sanità, solo per citarne alcune. La fornitura di questi nuovi servizi pone numerosi nuovi problemi, tra i quali menziono: 1. la standardizzazione dei nuovi formati video; 2. la progettazione di nuovi algoritmi di streaming adattivo; 3. la progettazione di tecniche di compressione adatte ai video immersivi. Le organizzazioni standard mondiali - come il Video Coding Experts Group (VCEG) e il Moving Pictures Experts Group (MPEG) - hanno speso molti sforzi per creare e introdurre nuovi sistemi di streaming per video immersivi. Partendo da queste premesse, il presente lavoro si avvolge intorno al tema principale di fornire algoritmi di controllo avanzati per applicazioni di streaming immersivo, con l'obiettivo di ottimizzare le risorse, con particolare attenzione al consumo di banda di rete, allo storage del server e alle capacità di calcolo del client. Concentrandosi sugli aspetti di ottimizzazione della larghezza di banda, è stata concepita e implementata una metodologia per la generazione di contenuti immersivi specificamente progettata per ottimizzare il consumo di bitrate video. Sono stati valutati gli indicatori di performance della tecnica di ottimizzazione concepita, in termini di riduzione del bitrate e di qualità visiva risultante in funzione del viewport dell'utente. Attraverso un'estesa campagna sperimentale, sono state catturate alcune intuizioni utili per la codifica di video immersivi ed è stato trovato il miglior trade-off teorico tra la riduzione del bitrate e la qualità visiva (valutata con entrambe le metriche Peak Signal-to-Noise Ratio (PSNR) e Structural Similarity Index Measurement (SSIM) visual quality) in viewer side. Nel contesto del progetto Cloud-based pLatform for Immersive adaPtive video Streaming (CLIPS), è stata proposta l'architettura di un sistema di controllo basato su Dynamic Adaptive Streaming over HTTP (DASH) per lo streaming adattivo di contenuti immersivi. Il sistema basato su DASH è basato su due algoritmi di controllo distinti che cooperano dinamicamente per adattarsi sia alle condizioni variabili della rete che al movimento della finestra dell'utente. La metodologia di ottimizzazione descritta in precedenza è stata utilizzata come algoritmo di generazione del contenuto. La piattaforma di streaming completa è stata implementata ed è stata effettuata una valutazione delle prestazioni. Inoltre, seguendo i più recenti sviluppi dello Stato dell'Arte nelle tecniche di ottimizzazione per lo streaming video immersivo, sono state identificate le due tecniche utilizzate per implementare la riduzione del bitrate dei video immersivi partizionati spazialmente. Per indagare la relazione tra la riduzione di bitrate ottenibile e la qualità video risultante (valutata con la metrica di qualità visiva Video Multi-Method Assessment Fusion (VMAF)), le tecniche identificate sono state testate su un dataset video per un totale di circa 88 ore di contenuti video immersivi. Infine, il tool open-source TAPAS-360 è stato sviluppato con l'obiettivo di aiutare la comunità di ricerca nella prototipazione rapida di algoritmi di controllo adattivo delle viewport. Inoltre, altre attività di ricerca, strettamente connesse a quelle sopra citate, sono state svolte durante il lavoro di dottorato.

Video Streaming Systems in Immersive mode

2021

Abstract

Nell'ultimo decennio, siamo stati testimoni dell'esplosione dei servizi di media delivery su Internet, con la crescita esponenziale di popolari società di video streaming come YouTube e Netflix. In questo contesto tecnologico, le applicazioni di Realtà Virtuale e Aumentata stanno diventando sempre più popolari grazie ai miglioramenti e alla penetrazione di economici Head Mounted Displays (HMDs). Pertanto, la capacità di trasmettere video immersivi, o contenuti Omnidirectional Video (OV), è una tecnologia abilitante chiave per diverse applicazioni emergenti come il cinema immersivo, i social-media e la sanità, solo per citarne alcune. La fornitura di questi nuovi servizi pone numerosi nuovi problemi, tra i quali menziono: 1. la standardizzazione dei nuovi formati video; 2. la progettazione di nuovi algoritmi di streaming adattivo; 3. la progettazione di tecniche di compressione adatte ai video immersivi. Le organizzazioni standard mondiali - come il Video Coding Experts Group (VCEG) e il Moving Pictures Experts Group (MPEG) - hanno speso molti sforzi per creare e introdurre nuovi sistemi di streaming per video immersivi. Partendo da queste premesse, il presente lavoro si avvolge intorno al tema principale di fornire algoritmi di controllo avanzati per applicazioni di streaming immersivo, con l'obiettivo di ottimizzare le risorse, con particolare attenzione al consumo di banda di rete, allo storage del server e alle capacità di calcolo del client. Concentrandosi sugli aspetti di ottimizzazione della larghezza di banda, è stata concepita e implementata una metodologia per la generazione di contenuti immersivi specificamente progettata per ottimizzare il consumo di bitrate video. Sono stati valutati gli indicatori di performance della tecnica di ottimizzazione concepita, in termini di riduzione del bitrate e di qualità visiva risultante in funzione del viewport dell'utente. Attraverso un'estesa campagna sperimentale, sono state catturate alcune intuizioni utili per la codifica di video immersivi ed è stato trovato il miglior trade-off teorico tra la riduzione del bitrate e la qualità visiva (valutata con entrambe le metriche Peak Signal-to-Noise Ratio (PSNR) e Structural Similarity Index Measurement (SSIM) visual quality) in viewer side. Nel contesto del progetto Cloud-based pLatform for Immersive adaPtive video Streaming (CLIPS), è stata proposta l'architettura di un sistema di controllo basato su Dynamic Adaptive Streaming over HTTP (DASH) per lo streaming adattivo di contenuti immersivi. Il sistema basato su DASH è basato su due algoritmi di controllo distinti che cooperano dinamicamente per adattarsi sia alle condizioni variabili della rete che al movimento della finestra dell'utente. La metodologia di ottimizzazione descritta in precedenza è stata utilizzata come algoritmo di generazione del contenuto. La piattaforma di streaming completa è stata implementata ed è stata effettuata una valutazione delle prestazioni. Inoltre, seguendo i più recenti sviluppi dello Stato dell'Arte nelle tecniche di ottimizzazione per lo streaming video immersivo, sono state identificate le due tecniche utilizzate per implementare la riduzione del bitrate dei video immersivi partizionati spazialmente. Per indagare la relazione tra la riduzione di bitrate ottenibile e la qualità video risultante (valutata con la metrica di qualità visiva Video Multi-Method Assessment Fusion (VMAF)), le tecniche identificate sono state testate su un dataset video per un totale di circa 88 ore di contenuti video immersivi. Infine, il tool open-source TAPAS-360 è stato sviluppato con l'obiettivo di aiutare la comunità di ricerca nella prototipazione rapida di algoritmi di controllo adattivo delle viewport. Inoltre, altre attività di ricerca, strettamente connesse a quelle sopra citate, sono state svolte durante il lavoro di dottorato.
2021
Inglese
Mascolo, Saverio
De Cicco, Luca
Palmisano, Vittorio
Grieco, Luigi Alfredo
Politecnico di Bari
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/131491
Il codice NBN di questa tesi è URN:NBN:IT:POLIBA-131491