Aplicatia WaveIO s-a dorit a fi atât o colectie de unelete pentru utilizatorul ce intra pentru prima oara în domeniul prelucrarii semnalului sonor, si mai ales al semnalului vocal, cât si o aplicatie utila pentru un utilizator experimentat, în vederea realizarii unor algoritmi performanti de recunoastere a cuvintelor si a vorbitorilor, dar mai ales o aplicatie care aduce proprii algoritmi în acest domeniu.
Aceasta gama larga a adresabilitatii aplicatiei sunt convins ca o determina sa-si gaseasca propriul loc în piata produselor de gen.
Mai mult necesitatea existentei unei astfel de aplicatii mi-a fost confirmata în urma unui sondaj în rândul unor persoane, cadre didactice sau studenti, implicate în studiul semnalelor audio.
Pe langa utilitatea uneltelor deja implementate în cadrul aplicatiei aceasta îsi demonstreaza viabilitatea si prin usurinta unei dezvoltari ulterioare, datorita faptului ca modularitatea ridicata a aplicatiei permite utilizatorului adaugarea cu usurinta a propriilor unelte în oricare din modulele de prelucrare.
Nu ma voi opri aici asupra performantei algoritmilor de recunoastere a cuvintelor folosind coeficienti LPC si cepstrali deoarece fiecare utilizator îsi poate defini proprii pasi pentru un astfel de algoritm, aplicatia punându-i la dispozitie toate uneletele necesare, dându-i mâna libera acestui în ce priveste parametrizarea.
Ma voi opri însa asupra algoritmilor proprii în ce priveste localizarea vorbirii folosind spectru de frecvente si respectiv a algoritmilor de recunoastere a vorbitorului.
În ce priveste algoritmul de localizare a vorbirii singura limitare este data de posibilitatea utilizatorului de a determina pe baza unor semnale vocale anterioare apartinând aceluiasi vorbitor a limitelor intervalului în care este localizata vorbirea respectivului în domeniul frecventa. În ce priveste algoritmul de recunoastere a vorbitorului bazat pe frecventa fundamentala si N-1 formanti performantele au fost foarte bune megandu-se pâna la 95 % în conditii de relativa lipsa a perturbatiilor si o rostire normala în toate cazurile a cuvintelor.
În orice caz setarea parametrilor operatiilor trebuie sa se faca pe baza conditiilor în care se foloseste algoritmul. Astfel daca poate aparea posibilitatea ca vorbitorul sa îsi schimbe mult stilul de vorbire: într-un caz sa vorbeasca normal, apoi de exemplu soptit, performante mai bune vor fi asigurate daca se reduce numarul formantilor la 2 sau chiar la 1. Daca însa se considera ca vorbirea de fiecare data va fi normala atunci o crestere a numarului formantilor pâna la 4 va asigura performante excelente.
În ce priveste dezvoltarile ulterioare cea mai interesanta ar fi stabilirea unui algoritm, ceea ce ar implica si adaugarea de noi unelte/operatii, care sa faca posibila recunoasterea cuvintelor pentru mai multi vorbitori.
De asemenea de real interes ar fi si dezvoltarea unui algoritm care sa detecteze vorbitorul doar bazându-se pe frecventa fundamentala, prin eliminarea formantilor reusindu-se eliminarea parametrilor tractului vocal.
Un alt punct al aplicatiei care ar necesita îmbunatatiri este legat de viteza de calcul si afisare a spectrului de frecvente.