Per la generazione di facce parlanti naturali, espressive e realistiche è necessario riprodurre fedelmente la variabilità contestuale dovuta alla reciproca influenza dei movimenti articolatori durante la produzione di sequenze fonetiche. Questo particolare fenomeno, definito "coarticolazione", è estremamente complesso e difficile da modellare. Vi sono, infatti, in letteratura, vari modelli di strategie coarticolatorie e queste, inoltre, possono anche differire in funzione della lingua utilizzata.
Fra i vari metodi esistenti per il controllo automatico di una faccia sintetica parlante, quelli ritenuti in letteratura più interessanti sono senza dubbio i metodi a "parameterizzazione geometrica", i metodi basati sul "morphing" fra differenti configurazioni articolatorie/visive" e i metodi basati sui modelli fisiologici dei muscoli e pseudo-muscoli facciali. Più recentemente, si sono imposti all'attenzione dei ricercatori anche i metodi basati sulla sintesi audiovisiva comandata direttamente da testo scritto, in cui il segnale acustico viene generato da un sistema di sintesi vocale (TTS - Text-To-Speech synthesis) e l'informazione fonetica estratta dal testo viene utilizzata per definire i corrispondenti movimenti articolatori.
Particolare interesse ha suscitato negli ultimi anni un modello di coarticolazione proposto da Cohen e Massaro, basato sulla "gestural theory of speech production" di Löfqvist, che viene utilizzato in moltissimi motori di animazione facciale.
Una variazione del modello originale, in cui per determinare le caratteristiche dinamiche del modello, è stata utilizzata una tecnica semi-sutomatica di minimizzazione basata sui dati cinematici reali di specifici movimenti articolatori labiali acquisiti da un sistema opto-elettronico denominato ELITE, è stata recentemente utilizzata, in GRETA, una faccia parlante in italiano, al fine di riprodurre più fedelmente i reali movimenti labiali coinvolti nella produzione vocale.