Semnalul acustic este compus dintr-o secventa de sunete generate de sistemul fonator uman la comanda creierului.
Simplificat mecanismul producerii vorbirii este urmatorul:
Plamânii comprimându-se, vor trimite aerul prin trahee spre exterior. Sub actiunea acestui aer, corzile vocale intra în rezonanta producând sunetul. Rezonanta este determinata de anumite proprietati fizice si fiziologice ale corzilor. Acest sunet este preluat de aerul aflat în miscare si trasportat mai departe spre exterior prin tractul vocal. Tractul vocal este compus din cavitatea laringeala, bucala si nazala. Forma acestor cavitati va modula rezonanta acustica fundamentala dând nastere unui sunet produs din multiplii ai frecventei fundamentale de rezonanta, fiecare multipli având amplitudine si faza determinata de forma tractului vocal. Intensitatea sunetului este direct determinata de presiunea cu care plamânii elimina aerul. Inaltimea sunetului este data de frecventa fundamentala a corzilor.
Deoarece tractul vocal se modifica pe durata vorbirii rezulta sunete variate. Aceste sunete se numesc vocale . Tractul vocal produce niste maxime locale în domeniul frecventa. Acestre maxime locale se numesc formanti . Vorbirea nu ar fi posibila fara existenta limbii si buzelor a caror actiune duce la producerea sunetelor numite consoane. Consoanele se produc prin blocarea fluxului de aer sosit de la plamâni, cu ajutorul limbii sau buzelor si apoi eliberarea brusca a acestuia. Consoanele nu sunt caracterizate de formanti sau de frecventa fundamentala si au o durata scurta. Datorita acestor caracteristici vocalele se numesc sunete sonore iar consoanele sunete nesonore. Pe lânga buze si limba, elemente ale cavitatii bucale, în producerea vorbirii un rol important îl are si cavitatea nazala care are rolul de a nazaliza sunetele. [11]

Fig. 3.1 Elemente ale aparatelor digestiv si respirator implicate în vorbire [12]
Daca ar fi sa elaboram un model matematic al producerii sunetului vocal acesta ar fi reprezentat de urmatoarea formula:
(3.1.1)
unde
U(z) - reprezinta excitatia sonora sau nesonora. În cazul excitatiei sonore aceasta genereaza un tren de impulsuri de frecventa fundamentala a corzilor vocale ale vorbitorului si amplitudine constanta pe o scurta perioada. În cazul excitatiei nesonore aceasta este un zgomot alb: zgomot aleator cu spectru plat.
H(z) – reprezinta functia de transfer a tractului vocal, caracterizat de frecventa de rezonanta, ce determinã formanti. Datorita faptului ca analiza se face pe o perioada de 10-40ms parametrii functiei de transfer ramân nemodificati într-un cadru supus analizei.
R(z) – reprezinta radiatia care apare de-a lungul tractului si atenuarea efectuata de buze.
În cadrul formulei anterioare daca vom considera efectul undei glotale ca un filtru trece tot, ea se poate separa de partea de excitatie. De asemenea radiatia se poate transfera în blocul de procesare. Prin urmare forma simplificata va fi:
(3.1.2)
Pentru analiza semnalului vocal este necesara determinarea valorilor parametrilor
ecuatiei anterioare.[Curatelli 1999]

Fig. 3.2 Modelul produceri vorbirii

Fig. 3.3 Modelul simplificat al sistemului fonator