Viene descritta una procedura per la creazione di una funzione di trasformazione di un segnale vocale neutro in uno caratterizzato emotivamente. Questa funzione è stata
sviluppata sulla base di un modello statistico, a mistura di funzioni gaussiane, dello spettro del segnale vocale.
Sono utilizzati, come segnali di riferimento per l'allenamento del modello, due database di segnali vocali creati ad hoc: uno registrato da un parlatore, simulando l'emozione della
collera, e uno neutro, con la stessa intonazione e durata dei fonemi, ottenuto con un sintetizzatore vocale per concatenazione di difoni, che utilizza la "voce" dello stesso
parlatore. Il modello a mistura di gaussiane, addestrato sui coefficienti mel-cepstrali estratti dal segnale neutro, è utilizzato per dividere questo spazio acustico in classi fonetiche
equivalenti e per calcolare, per ogni classe identificata, i parametri delle funzioni di conversione.
Il metodo di trasformazione del segnale nel dominio delle frequenze ha fornito delle ottime prestazioni, come è stato dimostrato da un test percettivo in cui un segnale neutro
convertito è stato riconosciuto come "arrabbiato".
Modellizzazione della Prosodia e del Timbro per la Sintesi del Parlato Emotivo
Tipo Pubblicazione:
Contributo in atti di convegno
Publisher:
EDK Editore, Torriana, ITA
Source:
AISV 2005, 2° Conveno Nazionale Associazione Italiana di Scienze della Voce - "Analisi prosodica - teorie, modelli e sistemi di annotazione", pp. 87 (CD Rom 285)–87 (CD Rom 313), Fisciano, Salerno, Italy, Novembre 30 - December 2, 2005
Date:
2006
Resource Identifier:
http://www.cnr.it/prodotto/i/139812
http://www.aisv.it/AISV2005/default.htm
urn:isbn:88-95112-21-0
Language:
Ita