Capitolo 1
INTRODUZIONE
L’inevitabile non corrispondenza tra condizioni di addestramento e condizioni
operative in approcci legati al riconoscimento vocale statistico molto spesso
degrada seriamente le prestazioni in condizioni estreme. Le varie cause di
questa non corrispondenza sono il rumore additivo, la distorsione del canale,
differenti interlocutori, diverse frequenze e modi di parlare, e così via. Gli
approcci usati per ridurre tale errore diventano perciò molto importanti e per
questo motivo sono stati fatti ragguardevoli sforzi per sviluppare tecniche con lo
scopo di migliorare le prestazioni in condizioni estreme.
Le tecniche per trattare il rumore additivo possono essere
approssimativamente raggruppate in due classi: model-based e feature-based.
Negli approcci model-based la compensazione è eseguita su parametri
predeterminati del modello del riconoscimento, cosicché il modello del
riconoscimento modificato sarà in grado di classificare le non corrispondenze
analizzando i parametri caratteristici raccolti nell’ambiente operativo [1]-[12]. Gli
approcci feature-based, d’altro canto, operano sui parametri caratteristici
piuttosto che sui parametri del modello, e possono essere ulteriormente
raggruppati in due sottogruppi. Il primo sottogruppo cerca di modificare le
feature vocali ottenute nell’ambiente operativo per renderle più adeguate alle
condizioni acustiche per i modelli addestrati, [7]-[9], [13]-[17]. L’altro
sottogruppo cerca di trovare un set di feature vocali più robuste, o basati su
ciascun frame, preso singolarmente [18]-[22], dei campioni del segnale, o
basati su un blocco di più frame insieme dei campioni del segnale [23]-[29], in
modo tale che questi parametri possano essere resi meno suscettibili alle
variazioni di condizioni acustiche; questo set di feature è poi usato sia
nell’addestramento che nel test. L’ultima direzione dell’ultimo sottogruppo per
l’ottenimento di feature più robuste basate su un blocco di più frame insieme
del segnale è stato dimostrato essere in grado di migliorare le prestazioni del
riconoscimento sotto molteplici condizioni senza cambiare il nucleo dei processi
di addestramento o di riconoscimento, ed è l’argomento focale di questa tesi.
Allo scopo di ottenere feature più robuste, la scelta del set di parametri
caratteristici è ricaduta sui Mel-Frequency Cepstral Coefficients (MFCCs), e più
5
precisamente la normalizzazione dei parametri MFCC è stato scelto come
approccio per il miglioramento della robustezza. La Cepstral Mean Subtraction
(CMS) [23] e la Cepstral Mean and Variance Normalization (CMVN) [24]-[26]
sono due metodi famosi e largamente utilizzati, in cui vengono normalizzati
rispettivamente il 1° momento e il 1° e il 2° momento dei coefficienti MFCC. La
ragione della migliorata robustezza dovuta alla CMS è data dal fatto che essa
rimuove la componente DC, la quale usualmente è la causa della distorsione
del canale, e inoltre annulla il rumore a bassa frequenza che sarebbe altrimenti
amplificato. La normalizzazione della media nella CMS e della media e della
varianza nella CMVN inoltre riduce la non corrispondenza tra le funzioni di
densità di probabilità (fdp) dei parametri MFCC ottenuti dai segnali vocali di test
e dall’addestramento. E’ stato inoltre proposto che la normalizzazione
supplementare dei momenti cepstrali del terzo ordine o addirittura di ordini
superiori può comportare anche un miglior rendimento [27]-[29], e con tale
normalizzazione le fdp dei parametri MFCC dei segnali vocali di test
effettivamente diventano ancora più simili alle fdp dei parametri MFCC dei
segnali vocali di addestramento. In questa tesi viene proposta la famiglia degli
approcci di normalizzazione dei momenti cepstrali di ordine superiore
(HOCMN), in cui i parametri MFCC sono normalizzati rispetto ad alcuni
momenti di ordine superiore al 1° o al 2°. L’idea base è che i momenti di ordine
superiore sono dominati dai campioni di valore elevato, che molto
probabilmente includono le parti dannose dei disturbi ambientali e costituiscono
la causa primaria di non corrispondenza. Tale non corrispondenza si riflette di
solito nell’asimmetria e nell’anormale piattezza delle distribuzioni dei parametri.
La normalizzazione rispetto a questi momenti pone pertanto più enfasi su
queste componenti del segnale e forza le distribuzioni ad essere più
simmetriche ed essere maggiormente piatte. Tali concetti sono facilmente
interpretabili usando le definizioni statistiche classiche di skewness e kurtosi e
saranno discusse nel seguito. E’ stato dimostrato che questo approccio offre
prestazioni migliori rispetto alle normalizzazioni convenzionali ed in seguito
saranno proposte discussioni e risultati relativi a questa affermazione. Test
approfonditi sul task AURORA 2, il quali è un task che include vari ambienti di
test, indicano che si possono ottenere significativi miglioramenti della
6
precisione del riconoscimento sotto diverse condizioni di rumore se i parametri
di processing sono scelti correttamente.
7
Capitolo 2
RICONOSCIMENTO AUTOMATICO DEL PARLATO
2.1 ASR (Automatic Speech Recognition)
2.1.1 Cenni introduttivi
Il sistema di riconoscimento umano del linguaggio parlato è naturale, robusto
ed efficiente. Questo sistema infatti riesce a funzionare correttamente anche in
situazioni sfavorevoli, come quando c’è rumore di sottofondo o riverbero. Il
sistema di riconoscimento umano compie, nel suo funzionamento,
computazioni, filtraggi e adattamenti ai diversi parlatori con cui ha a che fare,
riesce dunque a trasformare un segnale vocale in una successione di vocaboli,
alla quale poi da un’interpretazione. Lo scopo di un sistema di riconoscimento
vocale è quello di riconoscere i fonemi o le parole generate da un determinato
individuo.
La progettazione e la costruzione di sistemi di Riconoscimento Automatico del
Parlato (ASR) ha presentato difficoltà, a causa anche di problemi di
complessità e robustezza: fattori come la variabilità del parlato da persona a
persona, il rumore ambientale, la confondibilità delle parole, gli effetti di
coarticolazione, inficiano molto sul loro funzionamento e le prestazioni del
sistema uditivo umano sono ancora lontane dall’essere raggiunte. Un
riconoscitore dovrebbe prescindere dal parlatore con cui ha a che fare e questo
implica che gli ASR debbano avere un’architettura robusta a tali variazioni.
Anche il cambio di intonazione della voce ha grossa influenza nel
riconoscimento vocale: la voce del parlatore può essere influenzata da vari
fattori come lo stress, il dover urlare o il dover bisbigliare.
Attualmente il riconoscimento vocale è utilizzato in vari campi: ad esempio nei
telefoni cellulari, negli ambienti di ufficio, per l’aiuto di persone con handicap,
per accessi sicuri tramite l’identificazione della voce, per lo speech-to-text, per
corsi di lingue e traduzioni e così via. Proprio per l’ampio campo di
applicazione, il sistema di riconoscimento vocale si trova a lavorare in ambienti
molto eterogenei fra loro. L’eterogeneità caratterizzante il campo di
applicazione dei sistemi di riconoscimento vocale si traduce in un fattore non
8
trascurabile di complessità implementativa che incide sul corretto
funzionamento del sistema in contesti operativi che possono risultare molto
diversi tra loro. In particolare si pensi ad ambienti di lavoro particolarmente
rumorosi o ad ambienti di lavoro che provocano un cambio di intonazione o in
generale un fattore di deformazione nella voce del parlatore.
2.1.2 ASR in ambito rumoroso
Il rumore ambientale influisce negativamente sul riconoscimento vocale, sia
attraverso la degradazione del segnale, sia influenzando la pronuncia delle
parole.
Mentre la maggior parte dei riconoscitori vocali fornisce ottime prestazioni in
caso di assenza di rumore, le loro prestazioni decadono quando vengono
applicati a situazioni reali. Uno dei motivi principali per cui si verifica questo
decadimento delle prestazioni è la differenza sostanziale che c’è tra
l’addestramento e la fase operativa. I principali sforzi nel combattere il rumore
sono appunto diretti verso il ridurre le differenze che ci sono tra
l’addestramento e le reali condizioni operative.
Per mitigare gli effetti del rumore si applica una trasformazione del segnale in
modo da diminuire il disallineamento tra l’addestramento e le condizioni
operative. La suddetta trasformazione tenta di ottenere caratteristiche robuste:
si assume che il sistema sia indipendente dal rumore e che si usi la stessa
configurazione di sistema sia in presenza di rumore che in assenza di rumore.
In questo caso si cercano di isolare delle grandezze caratteristiche che siano
robuste rispetto al rumore. L’insieme di parametri in grado di ottenere dei buoni
risultati nel riconoscimento vocale in assenza di rumore può risultare inefficace
quando risulta presente il rumore; i parametri scelti potrebbero risultare molto
sensibili ai disturbi introdotti, inducendo un grosso disallineamento tra
l’addestramento e l’ambiente operativo e portando ad una grossa perdita di
prestazioni. Si è cercato quindi di caratterizzare gli effetti del rumore sulle
caratteristiche del segnale vocale piuttosto che focalizzarsi sulla rimozione del
rumore stesso. Lo scopo ultimo di questa tesi è rendere le features del segnale
quanto più possibile resistenti al rumore.
9