Beruflich Dokumente
Kultur Dokumente
87-91
RSUM
La modlisation neuro-prdictive pour la classification phontique de la langue arabe est une branche de la reconnaissance
automatique de la parole qui suppose lapplication de deux processus fondamentaux : la para mtrisation du signal de parole et
le dcodage phontique. La para mtrisation acoustique a pour but dextraire linformation pertinente du signal acoustique afin
de fournir une description aussi complte et reprsentative que possible. Sa mise en uvre repose essentiellement sur des
mthodes issues du traitement du signal. Le dcodage phontique consiste classifier des formes acoustiques en vue de la
reconnaissance. Diffrents dcodeurs ont t utilis (Modles de Markov Cachs, Ondelettes, Rseaux de neuronesetc.)
ayant chacun leur propre algorithme dapprentissage. Dans la littrature, nous avons constat que le processus de
paramtrisation acoustique et le processus dcodage (classification) utilisent des critres doptimisation diffrents, alors quils
ont pour objectif commun la reconnaissance des units phontiques. Dans ce papier, Nous allons procder la mise en forme
dun signal de parole que lon injectera dans un rseau de neurone MLP(Multi Layer Perceptron) et ensuite faire une
comparaison entre les rsultats obtenus par les MFCC()Mel Frequency Cepstral Coding et NPC(Neuronal Predictive
Coding).Notre contribution sera sans doute limplication da le langue arabe dans ce processus.
Bruit blanc
Filtre AR
2.1.2 FENETRAGE
Sons non
Le signal de la parole est de nature non stationnaire, il est vois
donc ncessaire, avant dextraire les paramtres de la
Figure 1: Modle autorgressif de production de la parole
reconnaissance de la subdiviser en segments. Cette tape
permet dobtenir pour chaque segment de parole un signal
quasi stationnaire. Comme le conduit vocale peut tre assimil un filtre
Les discontinuits aux extrmits des segments peuvent tre rcursif, ple seulement dfini par :
amoindries en multipliant chaque segment par une fentre
de Hamming. La fentre de Hamming est donne par
lquation suivante :
Et
Ou : G est le gain, G/A(Z) est la fonction de transfert du
s2(n) = s1(n).(0,54+0,46.cos( - )) filtre, les paramtres ai sont les coefficients de prdiction,
O N est le nombre dchantillons du segment. Y(Z) est le signal de sortie du filtre et U(Z) reprsente le
signal dexcitation, qui est form dimpulsion priodique
2.1.3 FFT : pour le son vois.
Cette tape transforme le signal de parole en domaine
frquentiel [1] avec la formule :
Lquation donne :
Dans le domaine temporel, lquation devient :
Xn= k , n=0,1.,N-1 o j =
88
Modlisation neuro-prdictive pour la classification phontique de la langue arabe
3 METHODE UTILISEE
Le codage neuro-prdictif est une extension du codage
Coefficients : LPC, donc une mthode de codage temporelle, le codeur
NPC extrait les caractristiques non linaires dun
phonme. Il est bas sur un MLP une couche cache suivi
dune couche de sortie 1 neurone appel cellule de
prdiction. Ltape dapprentissage consiste prdire un
chantillon (extrait du signal acoustique dun phonme)
2.2.2 MFCC partir des n chantillons prcdents. Tous ces coefficients
sont inject dans un rseau de neurone MLP [6,7] qui doit
La methode MFCC est une mthode d'extraction des dterminer lerreur quadratique afin de rajuster les poids
paramtres selon l'echelle MEL. En effet, la perception de de la couche dentr jusqu' pouvoir avoir une erreur
la parole par le systme auditif humain est fonde sur une dsire acceptable, cette algorithme est bas sur la rtro
echelle frquentielle semblable a l'echelle MEL. Cette propagation du gradient.
echelle est linaire aux basses frquences et logarithmique
en hautes frquences et elle est donne selon l'equation
suivante:
Wijl(k+1)=Wijl(k) - Wijl
4 RESULTAT ET DISCUTION
Afin de tester les performances de notre systme, nous
allons lappliquer sur notre base de donnes. Pour cela,
nous allons extraire une suite de vecteurs de coefficients
(MFCC/NPC) de nos fichiers wav, et lancer le mcanisme
(apprentissage/test).
89
M.DIDICHE & al
15% 46% 55% 33% 13% 85% 0% 98% 71% 97% 97% 67%
72% 62% 82% 62% 68% 94% 63% 98% 73% 63% 65% 69%
90
Modlisation neuro-prdictive pour la classification phontique de la langue arabe
[5] Rimah Amani, Dorra Ben Ayed et Noureddine Ellouz [10] Tahar Saidane, Mounir Zrigui et Mohamed Ben
Application de la mthode Adaboost la Ahmed La transcription orthographique phontique
reconnaissace Automatique de la parole dpartement de la langue arabe 1999
de genie electrique, ENIT tunis Tunisie 2011
[11] AMROUCHE A., DEBIECHE M., TALEB-AHMED
[6] Patrice Wira Rseaux de Neurones artificiels : A., (2010). An efficient speech recognition system in
architectures et applications , universit de haute adverse conditions using the nonparametric regression.
Alsace, laboratoire MIPS avril 2009, p : 32, 49-56, Engineering application of artificiel intelligence,
23(1), pp 85-94.
[7] Claude Touzet Introduction au connexionnisme:
cours, exercices et travaux pratiques juillet 1992, p: [12] AMROUCHE A., TALEB-AHMED A., ROUVAEN.
65-67,112 J-M., YAGOUB M. (2009) improvement of the speech
recognition in noisy environments using a
[8] M.Bellanger Traitement Numrique du signal : nonparametric regression. International journal of
Thorie et pratique edition Masson 1987, p : 363 parallel , emergent and distributed system, vol 34,
[9] D.E.Kouloughli Grammaire de larabe issue 1, pp .49-67
daujourdhui 2001
91