<< Inapoi

Cuprins

Inainte >>

3.4 Analiza prin predictie liniara a semnalului vocal

3.4.1 Introducere în LPC

Linear Predictive Coding (LPC) este una dintre cele mai puternice tehnici de analiza a semnalului vocal si de asemenea una din cele mai utilizate metode de codare a semnalului vocal de buna calitate la un bit-rate scazut. Aceasta metoda ofera o estimare extrem de fidela a parametrilor vorbirii si este relativ eficienta în ce priveste volumul de calcul.

Alte caracteristici ale acestei metode care o fac preferata sunt:

•  Aplicarea modelului LPC permite separarea contributiei sursei (în cazul vorbirii, sursa fiind corzile vocale), de cea a tractului vocal.

•  Modelul LPC este tratabil analitic de unde posibilitatea implementarii atât hard cât si soft. Timpul de calcul cerut este mult mai mic decât în cazul altor metode cum ar fi cele care folosesc bancuri de filtre.

•  Modelul LPC ofera rezultate buna în cazul recunoasterii vocale, performantele fiin comparabile si chiar mai bune decat în cazul folosirii bancurilor de filtre.

Parametrii vorbirii obtinuti prin analiza liniar predictiva sunt: spectrul, formantii, functia de transfer a tractului vocal, frecventa fundamentala, etc. [Balázs 1998]

Ideea de baza a acestei metode este ca daca se cunosc parametrii functiei de transfer a sistemului fonator, si parametrii excitatiei, atunci forma de unda se poate reconstrui printr-o combinatie liniara a esantioanelor anterioare din cadrul semnalului. Coeficientii de ponderare poarta numele de coeficienti de predictie . [10]

Dupa cum aratam mai sus modelul matematic simplificat al producerii vorbirii poate fi exprimat prin:

(3.4.1)

de unde: (3.4.2)

unde G reprezinta castigul filtrului,iar sunt coeficientii filtrului digital. Semnalul vocal la iesirea modelului se poate scrie:

(3.4.3)

Predictorul liniar cu coeficienti de predictie se defineste ca fiind sistemul a carei functie de transfer este

sau (3.4.4)

Pentru ca semnalul d la iesirea predictorului sa fie egal cu cel adevarat, trebuie sa consideram si semnalul de eroare de predictie . Astfel:

(3.4.5)

Daca se compara relatiile (3.4.3) si (3.4.5), daca egalam , atunci semnalul de eroare va fi :

(3.4.6)

Pe baza relatiei (3.4.5) se poate afirma ca semnalul de eroare este iesirea unui sistem a carei functie de transfer este

(3.4.7)

Rezulta ca functia de transfer al tractului vocal se poate scrie:

(3.4.8)

A(z) se numeste filtrul invers al sistemului.

Pentru determinarea parametrilor functiei de transfer a tractului H(z) (sau a filtrului invers al sistemului A(z) ), se impune criteriul de minimizare a semnalului de eroare. Deoarece în practica se lucreaza cu cadre de scurta durata ale semnalului vocal, se considera fereastra de esantionare de latime N , în afara careia esantioanele sunt nule. Criteriul ales impune minimizarea parametrului eroarea medie patratica de predictie (EMP), definit de relatia

(3.4.9)

Obtinerea coeficientilor se face prin aplicarea criteriului de minimizare, adica derivarea lui EMP în functie de , p=1…P , si egalarea ecuatiilor obtinute cu zero, ceea ce ne duce la urma toarele formule:

p=1…P (3.4.10)

unde sunt acele valori ale lui , pentru care energia semnalului de eroare este minima. Deoarece sunt unice, se omite în continuare notatia cu caciula, ramînînd numai . Daca se defineste functia:

k,p=1…P (3.4.11)

atunci relatia (3.4.10) se poate scrie sub o forma mai compacta:

p=1…P (3.4.12)

Setul de P ecuatii reprezentat în (3.4.12) are P necunoscute, , k=1…P . Rezolvarea acestui sistem de ecuatii produce valorile coeficientilor de predictie .

Valoarea EMP al semnalului de predictie se poate determina pe baza ecuatiilor (3.4.9) si (3.4.11) ca fiind:

(3.4.13)

Factorul de amplificare G se poate determina pe baza egalitatii (3.4.6), ca fiind

(3.4.14)

În cazul semnalelor vocalice, , adica impulsul unitate, cu perioada în esantioane P, rezultînd din frecventa fundamentala. În acest caz, , rezultînd

(3.4.15)

În cazul semnalelor nevocalice avem formula:

(3.4.16)

În ceea ce urmeaza, se prezinta cîteva metode de determinare a coeficientilor de predictie, adica metode de rezolvare a sistemului de ecuatii (3.4.12) [Spanias 2001]

3.4.2 Determinarea coeficientilor LPC prin metoda autocorelatiei.

Pentru un cadru oarecare luat în considerare valoarea semnalului dincolo de limitele cadrului respectiv va fi egala cu 0. Asadar semnalul este nul între limitele 0, N-1. EMP de predictie calculata pe paza predictorului de ordin P, va fi nenula în intervalul 0...N-1+P. În acest vaz, EMP de predictie se calculeaza cu formula:

(3.4.17)

EMP de predictie va fi mare la extremitatile intervalului 0…N-1+P . La începutul intervalului eroarea va fi mare pîna la ordinul P-1 , deoarece se încearca prezicerea esantioanelor curente din esantioane cu valoare nula. La capatul intervalului, eroarea va fi mare de la N-1 pîna la N-1+P , deoarece se încearca prezicerea esantioanelor cu valoare nula, din esantioane nenule. Deoarece s(n) este nula în afara intervalului 0…N-1 , se poate scrie relatia

(3.4.18)

Se observa ca (3.4.18) este identica cu coeficientul de autocorelatie de timp scurt, calculat pentru (p-k) . Deci

(3.4.19)

unde (3.4.20)

Deoarece R(k) este functie para, adica , ecuatia (3.4.11) poate fi scrisa sub forma

p=1…P (3.4.21)

EMP de predictie va avea forma

(3.4.22)

Din relatia (3.4.21) se poate scrie sistemul de ecuatii reprezentat sub forma matriceala, de dimensiune PxP

k

p

(3.4.23)

Se observa ca elementele diagonale sunt identice (matrice Toeplitz). Aceasta proprietate este folosita pentru a obtine solutia sistemului de ecuatii mai usor. Metoda cea mai eficienta de rezolvare a acestui sistem de ecuatii este cea numita metoda iterativa Levinson-Durbin , prezentata în continuare :

Initializare

EMP de predictie de ordin 0 (sau i ) .

Recursie

k i - coeficientul de reflectie de ordin i

Pentru i=1…P

(3.4.24)

(3.4.25)

Terminare

Solutiile vor fi , p=1…P .

Având mai multe cuvinte, pentru fiecare cuvânt sa presupunem ca s-au calculat coeficientii LPC. Pentru compararea a doua cuvinte, în vedearea stabilirii asemanarii este necesara o masurare a distantei între cele doua seturi de coeficienti corespunzatoare. Cu cât distanta între doua astfel de seturi este mai mica, putem spune ca respectivele cuvinte sunt mai asemanatoare. Acest aspect este evident folosit în recunoasterea cuvintelor. Prin urmarea în continuare ne vom ocupa tocmai de calculul distantei între seturile de coeficienti LPC. [Bek 2002]

3.4.3 Calculul distantei dintre coeficientii LPC

Deoarece coeficienti sunt în relatie strânsa cu spectrul semnalului vocal, prin calculul distantei, de fapt se obtine o masura a asemanarii spectrale a semnalului vocal. Pentru calcularea distantei exista mai multe metode, în continuare oprindu-ma asupra celor mai frecvent folosite si de asemenea care ofera cele mai bune rezultate.

O astfel de distanta, foarte mult utilizata pentru calculul distantei LPC este cea propusa de Itakura (1975). Pentru definitia acestei distante, în primul rînd se procedeaza astfel. Pe baza relatiilor (3.4.21) si (3.4.22), se pot scrie urmatoarele

(3.4.24)

Acest sistem de ecuatii se poate rescrie sub forma matriceala: (3.4.25)

În forma matriceala anterioara deoarece relatiile din (3.4.24) sunt scrise pentru vectorul cu coeficientii de predictie notata cu a , se foloseste indicele a .

Mai compact (3.4.25) se scrie:

(3.4.26)

unde reprezinta matricea de autocorelatie extinsa din relatia (3.4.25), de dimensiune (P+1) x (P+1) , iar reprezinta vectorul cu coeficientii de predictie liniara. Daca se noteaza , atunci relatia (3.4.26) se scrie:

(3.4.27)

Daca se înmultesc ambele parti ai relatiei (3.4.27) cu , prin produs interior, din cauza valorii de 1 de pe prima pozitie a acestuia, vom avea

(3.4.28)

Sa presupunem ca se încearca folosirea unui predictor reprezentat de vectorul b , care este propus sa reprezinte acealsi cadru de semnal din care s-a obtinut vectorul a . În mod asemanator, se poate calcula eroarea medie patratica cu care vectorul b reprezinta cadrul de semnal vocal, adica:

(3.4.29)

unde si . Din afirmatia precedenta, relatia

(3.4.30)

este adevarata, pentru ca vectorul a se obtine efectiv din cadrul de semnal vocal prin minimizarea erorii medii patratice, iar vectorul b este o aproximare presupusa a acestuia. Se pune problema masurarii “cu cât a este mai bun decât b ”, sau b cu cât este mai rau decât a . Aceasta masura se poate obtine prin raportul celor doua. Daca se logaritmeaza raportul, se obtine distanta Itakura dintre cei doi vectori LPC, definita de relatia

(3.4.31)

Pe baza relatiei (3.4.30), raportul din (3.4.31) este întotdeauna mai mare ca 1 deci distanta va fi întotdeauna non-negativa. Însa aceasta distanta nu este o distanta reala pentru ca nu respecta criteriul simetriei pentru ca . Distanta Itakura este o reprezentare intuitiva a raportului dintre erorile de predictie a aceluiasi cadru de semnal, obtinut prin doua grupuri de coeficienti de predictie. Aceasta interpretare s-a nascut din urmatoarele considerente. Sa consideram ca semnalul s(n) , în realitate, a fost generat de un sistem cu predictie liniara, bazîndu-se pe coeficienti de predictie b , excitat cu zgomot alb, gausian. Atunci, coeficienti de predictie obtinuti din semanlul s(n) , prin metoda autocorelatiei, vor avea o distributie gausiana, descrisa de functia de densitate de probabilitate:

(3.4.32)

unde a si b sunt reprezentate ca si înainte, iar:

(3.4.33)

În acest caz, distanta dintre vectorii a si b se poate calcula cu o distanta tip Mahalonobis, definita de relatia

(3.4.34)

Aceasta distanta se mai numeste si distanta Itakura-Saito . În cazul în care vectori a si b sunt foarte asemanatori, atunci si .[Balázs 1998]

 

<< Inapoi

Cuprins

Inainte >>