Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Studio ed implementazione di un algoritmo innovativo per la normalizzazione dei momenti cepstrali nel riconoscimento automatico del parlato

La normalizzazione cepstrale viene ampiamente utilizzata come potente approccio allo scopo di produrre caratteristiche più robuste del riconoscimento vocale. Esempi di questo approccio sono la Cepstral Mean Subtraction (CMS) e la Cepstral Mean and Variance Normalization (CMVN), in cui vengono normalizzati rispettivamente il 1° momento e il 1° e il 2° momento dei Mel-Frequency Cepstral Coefficients (MFCCs). In questa tesi viene proposta la famiglia degli approcci con normalizzazione dei momenti cepstrali di ordine superiore, i cui parametri MFCC sono normalizzati rispetto ad alcuni momenti di ordine superiore al 1° o al 2°. L’idea base è che i mo menti di ordine superiore sono dominati dai campioni di valore elevato, i quali, molto probabilmente, sono la causa primaria dell’asimmetria e dell’anormale piattezza e dimensione delle code delle distribuzioni dei parametri. La normalizzazione rispetto a questi momenti pone perciò più enfasi su tali componenti del segnale e forza le distribuzioni ad essere più simmetriche con ragionevole piattezza e dimensione delle code. I principi fondamentali dietro a questo approccio sono analizzati e discussi basandosi sulle proprietà statistiche delle distribuzioni dei parametri MFCC. I risultati sperimentali basati sul task AURORA 2, il quale è un task che include vari ambienti di test, mostrano che, con l’approccio proposto, la precisione del riconoscimento può essere significativamente e consistentemente migliorata per tutti i tipi di rumore e tutte le condizioni di SNR.

Mostra/Nascondi contenuto.
SOMMARIO La normalizzazione cepstrale viene ampiamente utilizzata come potente approccio allo scopo di produrre caratteristiche più robuste del riconoscimento vocale. Esempi di questo approccio sono la Cepstral Mean Subtraction (CMS) e la Cepstral Mean and Variance Normalization (CMVN), in cui vengono normalizzati rispettivamente il 1° momento e il 1° e il 2° momento dei Mel- Frequency Cepstral Coefficients (MFCCs). In questa tesi viene proposta la famiglia degli approcci con normalizzazione dei momenti cepstrali di ordine superiore, i cui parametri MFCC sono normalizzati rispetto ad alcuni momenti di ordine superiore al 1° o al 2°. L’idea base è che i momenti di ordine superiore sono dominati dai campioni di valore elevato, i quali, molto probabilmente, sono la causa primaria dell’asimmetria e dell’anormale piattezza e dimensione delle code delle distribuzioni dei parametri. La normalizzazione rispetto a questi momenti pone perciò più enfasi su tali componenti del segnale e forza le distribuzioni ad essere più simmetriche con ragionevole piattezza e dimensione delle code. I principi fondamentali dietro a questo approccio sono analizzati e discussi basandosi sulle proprietà statistiche delle distribuzioni dei parametri MFCC. I risultati sperimentali basati sul task AURORA 2, il quale è un task che include vari ambienti di test, mostrano che, con l’approccio proposto, la precisione del riconoscimento può essere significativamente e consistentemente migliorata per tutti i tipi di rumore e tutte le condizioni di SNR. 4

Laurea liv.I

Facoltà: Ingegneria

Autore: Alessandro Aloisi Contatta »

Composta da 64 pagine.

 

Questa tesi ha raggiunto 398 click dal 29/07/2009.

 

Consultata integralmente una volta.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.