Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Sviluppo di un'interfaccia uomo - robot basata su sintesi vocale per concatenazione

La sintesi vocale (in inglese speech synthesis) è la tecnica per la riproduzione artificiale della voce umana. Un sistema usato per questo scopo è detto sintetizzatore vocale e può essere realizzato tramite software o via hardware. I sistemi di sintesi vocale sono noti anche come sistemi text-to-speech (TTS) (in italiano: da testo a voce) per la loro possibilità di convertire il testo in parlato. Esistono inoltre sistemi in grado di convertire simboli fonetici in parlato.
La sintesi vocale si può realizzare concatenando registrazioni di parti vocali memorizzate in un database. I vari sistemi di sintesi vocale si differenziano a seconda delle dimensioni dei campioni vocali memorizzati: un sistema che memorizza singoli fonemi o fonemi doppi consente di ottenere il numero massimo di combinazioni a discapito della chiarezza complessiva mentre in altri sistemi concepiti per un impiego specifico si ricorre alla registrazione di parole intere o di intere frasi per ottenere un risultato di qualità elevata. In alternativa, un sintetizzatore può incorporare un modello dei tratti vocali e di altre caratteristiche umane per creare una voce completamente di sintesi.
La qualità di un sintetizzatore vocale si valuta sulla base sia della somiglianza con la voce umana che con il suo livello di comprensibilità. Un programma di conversione da testo a voce con una buona resa può avere un ruolo importante nell'accessibilità, per esempio consentendo a persone con problemi di vista o di dislessia di ascoltare documenti scritti sul computer. Per questo tipo di applicazione fin dai primi anni ottanta molti sistemi operativi includono funzioni di sintesi vocale. Per gli utenti non-vedenti risulta uno strumento fondamentale per l’interazione con la macchina, ma spesso non sufficiente vista l’estrema diffusione di sistemi operativi basati sulla logica interattiva tra occhio e mano.
Nei capitoli che seguono verrà illustrata la realizzazione di un sintetizzatore vocale TTS basato sulla concatenazione di parole intere e il suo relativo sistema di ottimizzazione che si serve di una struttura di tipo grafo per scegliere la migliore intonazione possibile e la migliore transizione lettera-lettera realizzabile tra parole diverse. Il database fonetico risulterà ingente ma aggiornabile, con la possibilità quindi di ampliare il range di farsi pronunciabili. Ci si aspetta che il sistema sia multipiattaforma, di elevata qualità e con la possibilità di inserire diversi parlatori. E’ stata implementata inoltre una funzione di “pessimizzazione” che permette di far apprezzare all’ascoltatore la differenza tra la sintesi migliore e la sintesi peggiore. Per concludere, è stata condotta un’indagine di tipo statistico su 20 campioni, in modo da poter trarre conclusioni di tipo oggettivo sulla qualità finale del progetto sviluppato.
La tesi è strutturata nel seguente modo:
• Capitolo 1: introduzione al mondo dei sintetizzatori vocali, progetto sviluppato e struttura del testo.
• Capitolo 2: cenni storici e stato dell’arte, resoconto sugli apparecchi esistenti e problematiche da affrontare.
• Capitolo 3: tecniche di sintesi comunemente utilizzate con relativi pregi e difetti, approfondimento sulla tecnica di sintesi vocale mediante concatenazione di parole intere (in quanto base del progetto realizzato).
• Capitolo 4: implementazione del software, struttura del programma, specifiche riguardanti JavaSound API, analisi completa sui due sistemi di ottimizzazione adottati.
• Capitolo 5: indagine statistica, dati raccolti, risultati attesi, risultati conseguiti.
• Capitolo 6: conclusioni, applicazioni e sviluppi futuri.

Mostra/Nascondi contenuto.
4 Capitolo 1 Introduzione La sintesi vocale (in inglese speech synthesis) Ł la tecnica per la riproduzione artificiale della voce umana. Un sistema usato per questo scopo Ł detto sintetizzatore vocale e pu essere realizzato tramite software o via har dware. I sistemi di sintesi vocale sono noti anche come sistemi text-to-speech (TTS) (in italiano: da testo a voce) per la loro possibilit di convertire il testo in p arlato. Esistono inoltre sistemi in grado di convertire simboli fonetici in parlato. La sintesi vocale si pu realizzare concatena ndo registrazioni di parti vocali memorizzate in un database. I vari sistemi di sintesi vocale si differenziano a seconda delle dimensioni dei campioni vocali memorizzati: un sistema che memorizza singoli fonemi o fonemi doppi consente di ottenere il numero massimo di combinazioni a discapito della chiarezza complessiva mentre in altri sistemi concepiti per un impiego specifico si ricorre alla registrazione di parole intere o di intere frasi per ottenere un risultato di qualit elevata. In alternativa, un si ntetizzatore pu incorporare un modello dei tratti vocali e di altre caratteristiche umane per creare una voce completamente di sintesi. La qualit di un sintetizzatore vocale si val uta sulla base sia della somiglianza con la voce umana che con il suo livello di comprensibilit . Un programma di conversione da testo a voce con una buona resa pu avere un ruolo importante nell’accessibilit , per esempio consentendo a persone con problemi di vista o di dislessia di ascoltare documenti scritti sul computer. Per questo tipo di applicazione fin dai primi anni ottanta molti sistemi operativi includono funzioni di sintesi vocale. Per gli utenti non-vedenti risulta uno strumento fondamentale per l interazione con la

Laurea liv.I

Facoltà: Ingegneria

Autore: Michele Furlan Contatta »

Composta da 69 pagine.

 

Questa tesi ha raggiunto 1436 click dal 29/04/2010.

 

Consultata integralmente 2 volte.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.