Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Compressione object-based del segnale video mediante trasformata Wavelet

La compressione di immagini e di sequenze video ha grande importanza per le moderne applicazioni multimediali: basti pensare alla trasmissione di sequenze video su canali a “banda stretta” come ad esempio un canale telefonico di terza generazione. Le tecniche di compressione più efficienti allo stato dell’arte si basano sull’uso della trasformata wavelet discreta (DWT) abbinata ad algoritmi efficienti di compressione nel dominio trasformato. La DWT gode della proprietà di rappresentare i segnali a diverse risoluzioni (analisi multirisoluzione), ha una buona caratteristica di localizzazione delle singolarità, sia nel tempo che in frequenza, ed ha la capacità di compattare l’energia in pochi coefficienti trasformati. Algoritmi efficienti di compressione, come SPIHT e EZW, basano la codifica dei coefficienti trasformati sulla rappresentazione della mappa di significatività mediante Zerotree.
Tuttavia la gran parte delle tecniche di compressione oggi più diffuse effettuano la codifica trattando immagini e sequenze video di forma rettangolare, trascurandone le caratteristiche strutturali e semantiche.
Un approccio alternativo è quello delle tecniche object-based nelle quali la sequenza video viene segmentata in modo da estrarre gli oggetti che la compongono che saranno poi codificati indipendentemente, preservando così le caratteristiche più importanti per il sistema visivo umano, come i confini fra gli oggetti stessi. I nuovi standard di compressione video, come ad esempio MPEG-4, hanno una struttura object-based, ma riescono a trattare un unico oggetto rappresentato dall’intera sequenza video a causa della complessità del problema affrontato. Un ulteriore problema è quello di ottenere un software di segmentazione automatica che permetta di generare mappe di segmentazione per oggetti semantici ma che nello stesso tempo diano un vantaggio alla codifica object-based rispetto alla codifica classica.
In questo lavoro di tesi è stata realizzata una versione software di un codificatore e decodificatore per sequenze video a colori, object-based, basato sulla trasformata Wavelet Shape Adaptive (che può operare su oggetti di forma qualsiasi e fornisce un numero di coefficienti trasformati coincidente con il numero di pixel nell’oggetto originario: proprietà molto importante per la compressione) e sull’algoritmo di SPIHT di Said & Pearlman, esteso ad oggetti di forma arbitraria in tre dimensioni. Anche non avendo a disposizione software di segmentazione ottima, abbiamo comunque ottenuto risultati interessanti se confrontati con i codificatori classici basati sull’algoritmo di SPIHT e se confrontati con gli standard di codifica video quali MPEG-x. Una compattazione dei dati in uscita dal coder SPIHT con l’agoritmo Lempal Ziv Welch ha fornito guadagni di codifica abbastanza modesti dimostrando la quasi totale assenza di ridondanza presente nel flusso di dati embedded generato da SPIHT. Sviluppi futuri dovranno essere volti alla creazione di un software di allocazione ottima delle risorse agli oggetti, alla creazione di un software di segmentazione ottima, al miglioramento della strategia di allineamento oggetti implementata nel nostro lavoro ed alla codifica ottima della mappa di segmentazione e dei contorni.

Mostra/Nascondi contenuto.
Capitolo 1 Codifica Video 1.1 Il segnale video Una sequenza video e` una successione di immagini fisse1 che, se proiettate in rapida successione danno all’occhio umano la sensazione di movimento. La fre- quenza ritenuta minima sufficiente per dare la sensazione di perfetta continuita´ e´ 25 frame/s. Il segnale video puo´ essere riprodotto sia da un sistema analogico che da un sistema digitale. Per quanto sia interessante l’approccio analogico, questo sistema sta cedendo sempre piu´ il passo ai sistemi digitali che presentano proprieta´ piu´ interessanti, quali ad esempio una minore vulnerabilita´ al rumore, qualita´ che non si deteriora nel tempo ecc. Un modo molto semplice di riprodurre una sequenza video digitale consiste nel visualizzare, in maniera sufficientemente rapida, una sequenza di frame per dare l’impressione di movimento. Ciascuna frame e´ un insieme di elementi luminosi colorati detti pixel. Ogni pixel e´ rappresentato da tre componenti di colore. Ad esempio, nella rappresentazione RGB (rosso verde blu) ad ogni componente si assegna una scala di 256 valori, e quindi 8 bit di informazione. In questa maniera si copre in modo abbastanza soddisfacente per le principali applicazioni lo spettro di colori percettibili e distinguibili dall’occhio umano. Nonostante l’approccio sia molto interessante, per molti anni e´ stato irrealiz- zabile a causa della quantita´ di dati da trattare. Per esempio, per memorizzare o trasmettere una sequenza video in formato RGB di dimensioni 720x576 per frame con un frame rate pari a 25 frame/s si arriverebbe ad un tasso r pari a 248,832 milioni di bit al secondo (Mbps2). Tale mole di dati era intrattabile sia per la 1Dette frame in inglese e nel gergo tecnico. 2Nell’ambito del networking e della teoria dell’informazione, i prefissi Kilo, Mega, . . . nelle misure di tasso, indicano le potenze di 10 e non (come nell’informatica) le potenze di 2: 1 Mbps

Tesi di Laurea

Facoltà: Ingegneria

Autore: Stefano Giugliano Contatta »

Composta da 160 pagine.

 

Questa tesi ha raggiunto 2913 click dal 20/03/2004.

 

Consultata integralmente una volta.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.