VAD Approche Statistique

Table des matires
Introduction gnrale
1 Prsentation de ltablissement daccueil

1.1 Prsentation de ltablissement . . . . . . . . . . . . . . . . . . . . . . .
1.2 organisation du CRDT/1 RM . . . . . . . . . . . . . . . . . . . . . . . .
7
7
8
2 Gnralits sur la dtection dactivit vocale

2.1 Notions lmentaires sur le signal de parole . . . . . . . . . . . . . . . . .
2.2 La detection dactivit vocale VAD . . . . . . . . . . . . . . . . . . . . .
2.3 Les mthodes de base de la VAD . . . . . . . . . . . . . . . . . . . . . .
10
10
15
17
3 Elaboration dun VAD bas sur une approche statistique

3.1 Modle statistique du signal de parole . . . . . . . . . . . . .
3.2 Dtermination de la rgle de dcision par le GLRT . . . . . .
3.2.1 Le rapport de vraisemblance gnralis : . . . . . . .
3.2.2 La rgle de dcision : . . . . . . . . . . . . . . . . . .
3.3 Dtermination du seuil adaptatif . . . . . . . . . . . . . . .
3.3.1 Simulation de Monte Carlo . . . . . . . . . . . . . . .
3.4 Estimation des paramtres du bruit . . . . . . . . . . . . . .
.
.
.
.
.
.
.
18
19
21
23
23
24
25
26
.
.
.
.
.
.
29
29
33
34
34
34
37
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Analyse des performances du VAD propos

4.1 Etude des performances pour diffrents types de signaux de parole
4.2 tude des performances lies au temps dexcution . . . . . . . .
4.3 tude de linfluence des diffrents paramtres . . . . . . . . . . .
4.3.1 La longueur de la trame . . . . . . . . . . . . . . . . . . .
4.3.2 Le paramtre de lissage . . . . . . . . . . . . . . . . . .
4.3.3 la courbe ROC . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Conclusion gnrale
38
Annexes
39
A La variable alatoire gaussienne complexe
41
B Simulation de Monte Carlo
42
C Code Matlab de lalgorithme VAD
43
Bibliographie
46
Table des figures

1.1
organigramme du CRDT/1RM . . . . . . . . . . . . . . . . . . . . . . .
2.1
2.2
2.3
Appareil phonatoire humain . . . . . . . . . . . . . . . . . . . . . . . . .

Modle mcanique de production de la parole . . . . . . . . . . . . . . .
Modle numrique de production de la parole . . . . . . . . . . . . . . .
11
12
14
3.1
3.2
3.3
schma qui rsume le fonctionnement du VAD .

les rgions de dcision . . . . . . . . . . . . . .
les variations des 2 priodogrammes au cours du
spectral k=25 . . . . . . . . . . . . . . . . . . .
lorganigramme du lalgorithme VAD propos .
18
24
3.4
4.1
4.2
4.3
4.4
4.5
4.6
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
temps pour lchantillon
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation du

seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
signal S2 "Medium" : a)signal bruit - b)signal non bruit - c)adaptation
du seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
signal S3 "High" : a)signal bruit - b)signal non bruit - c)adaptation du
seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
influence de la longueur de la trame :a)Tw=40ms - b)Tw=15ms - c)Tw=30ms
- d)signal non bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
influence du paramtre alpha :a) = 0.005 - b) = 0.85 - c) = 0.05 d)signal non bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
28
30
31
32
35
36
37
Liste des abrviations

VA
Variable Alatoire.
DFT Discret Fourier Transformation.
PDF Probability Density Function.
SNR Signal to Noise Ratio.
LUT Look Up Table.
VAD Voice Activity Detection.
FFT Fast Fourier Transformation.
LR
Likelihood Ratio.
LRT Likelihood Ratio Test.
GLRT Generalized Likelihood Ratio Test.
DSP Digital Signal Processing.
FPGA Field Programmable Gate Array.
Introduction gnrale
Dans le but de mettre en application nos connaissances scientifiques et techniques,

acquises au cours de notre formation, On nous a donn la chance de faire un stage pratique
qui sest droul du 27 dcembre 2015 au 21 janvier 2016 au sein du CRDT/1re RM.
larrive notre tablissement daccueil, le CRD/Transmission, on nous a propos
comme problmatique le dveloppement dun dtecteur dactivit vocal (VAD :Voice Activity Detector). On sait bien que le traitement, lamlioration et la reconnaissance de
la parole constituent lune des proccupation centrales de lingnieur spcialis dans les
communications et la transmission, donc ce travail aura pour objectif de nous donner un
avant got sur les dfis rencontrs dans ces domaines. De plus ,comme notre projet de fin
dtude porte sur le traitement statistique du signal et la thorie de dtection, on a opt
pour la ralisation dun VAD bas sur une approche statistique.
Le traitement numrique de la parole est une des disciplines qui a profit pleinement
du progrs technologique des dernires dcennies. Des algorithmes autrefois utopiques
cause du volume de calcul sont maintenant utiliss dans des applications complexes
telles que le codage, le rehaussement ou la reconnaissance de la parole. Plusieurs de
ces applications utilisent un module de dtection dactivit vocale pour augmenter les
performances et rduire le cot du traitement numrique.
Un algorithme de dtection d activit vocale est une solution la question "Pourquoi
traiter la parole alors quil ny a pas de parole ? !" , en effet le VAD a comme but de
discriminer entre les rgions o la parole est prsente et les rgions o la parole est absente
dans le signal vocal analys.
Pour une prsentation claire et comprhensible, ce rapport est organis comme suit :
Dans le premier chapitre, on commence par la prsentation de ltablissement daccueil le CRDT/1RM, ainsi que la description des diffrentes structures qui le constituent.
5
EMP
Dans le second chapitre, on va faire un rappel de quelques notions sur le signal de parole
suivi dune tude thorique et gnrale de la dtection dactivit vocale VAD. Le troisime chapitre consiste en une prsentation dtaille du VAD propos. Cette prsentation
comprend le choix du modle statistique du bruit, ltablissement de la rgle de dcision
ainsi que la description de la mthode destimation des paramtres du bruit. Une analyse
des performances du VAD propos, ainsi que les rsultats des simulations sur Matlab,
sont prsents dans le dernier chapitre. Une conclusion gnrale clture ce rapport.
Chapitre 1
Prsentation de ltablissement
daccueil
1.1
Prsentation de ltablissement
Le Centre de recherche et de dveloppement des transmissions de la premire rgion

militaire est une entit scientifique et technique dont la vocation est lexcution des travaux dtudes, de recherche-dveloppement, dessais et dvaluation technique du matriel
des Transmissions et autres composantes lectroniques des systmes darmes. Le CRDT
est charg de :
Dapporter son soutien scientifique et technique ncessaire la rnovation des matriels de transmission ;
De participer aux tudes de faisabilit(les projets relevant de son domaine et intressant le commandement) ;
Dassurer la maitrise duvre des projets ou des programmes dont la responsabilit
lui est confie ;
Dvelopper les techniques et les applications du domaine de tlcommunication et
les rseaux de commutation ;
De favoriser lacquisition, la maitrise et la diffusion des connaissances scientifiques,
techniques des quipements de transmission ncessaire la dfense nationale.
EMP
1.2
Le
Le
Le
Le
Le
Le
CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL
organisation du CRDT/1 RM
Pour lexcution de ses missions, le CRDT est organis comme suit :

Une Direction,
Un Dpartement Administration, Finances et Services Communs (DAFSC) ;
Un Dpartement Tlcommunications (DT) ;
Un Dpartement Systmes dInformation et Gnie Logiciel (DSIGL) ;
Un Dpartement Guerre Electronique (DGE) ;
Un Dpartement Conversion et Conditionnement dEnergie (DCCE) ;
Un Dpartement Evaluation et Exprimentation (DEE).
Dpartement Administration, Finances et Services Communs est compos de :
Secrtariat ;
Service Approvisionnement (magasin PDR) ;
Service Technique ;
Bureau Archives + bibliothque.
Dpartement Tlcommunications est compos de :
Laboratoire Radio ;
Laboratoire Commutation ;
Laboratoire Antennes et Propagation des Ondes.
Dpartement Systme dInformation et Gnie Logiciel est compos de :
Laboratoire Rseaux Informatiques et Applications Spcifiques ;
Laboratoire Systme dInformation et de Communication ;
Laboratoire Systme dInformation Gographique et Algorithmes Dcisionnels.
Dpartement Guerre Electronique est compos de :
Laboratoire Reconnaissance Radio Electronique ;
Laboratoire Electronique des Systmes dArmes et Systmes Embarqus ;
Laboratoire Brouillage Radio Electronique.
Dpartement Conversion et Conditionnement dEnergie est compos de :
Laboratoire Energies Renouvelables ;
Laboratoire Conditionnement et Stockage dEnergie ;
Laboratoire Electronique de Puissance.
Dpartement Evaluation et Exprimentation est compos de :
Atelier dEssais Mcaniques ;
Atelier dEssais Environnement ;
Atelier dEssais Electromagntiques.
EMP
CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL
Figure 1.1 organigramme du CRDT/1RM
Chapitre 2
Gnralits sur la dtection dactivit
vocale
2.1
Notions lmentaires sur le signal de parole
Si lon tente une dfinition, la parole est la capacit de ltre humain de communiquer
la pense par lintermdiaire de sons articuls . D son importance, la parole a proccup
depuis toujours les scientifiques. Ainsi quelques-unes des sciences qui se proccupent de
ltude de la parole ont dj des centaines dannes. Dautres sont plus rcentes, comme
le traitement numrique de la parole, qui ne compte pas plus de quarante ans.
La production de la parole commence avec la formulation de la pense tre communique. La personne qui parle, suite des processus neurologiques et musculaires, produit
les fluctuations de la pression de lair qui constituent le signal vocal. Celui-ci se propage
dans le milieu, qui dhabitude est lair, jusquaux oreilles de lcouteur o il est reu et,
aprs une certaine analyse, il est envoy vers le cerveau qui linterprte. Donc le signal
vocal a une nature duale. Il peut tre analys de point de vue objectif comme tant une
ralit physique ou de point de vue subjectif si on regarde la sensation psycho-acoustique
produite au niveau du cerveau .
Comme on vient de voir, la production de la parole est un processus complexe, qui implique des phnomnes neurologiques, physiologiques et physiques. Dans un tel contexte
ltude de la parole est une science multidisciplinaire. Pour une meilleure comprhension,
lingnieur qui travaille dans ce domaine devrait connatre les notions de base caractristiques chacune de ces disciplines quil rencontre dans son travail.
10
EMP
CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE
Figure 2.1 Appareil phonatoire humain

Techniquement parlant, la parole est une onde sonore produite par action volontaire
et coordonne des structures anatomiques qui forment lappareil phonatoire humain. Ce
processus est coordonn par le systme nerveux central. Les sons produits sont analyss
par rtroaction auditive pour assurer la qualit acoustique de la parole.
Les muscles abdominaux actionnant sur le diaphragme, en poussant lair des poumons
vers la trache artre. Au bout suprieur de celle-ci se trouve le larynx qui module le
courant dair sous la forme dimpulsions priodiques appliques au conduit vocal. Celui
est form dun ensemble de cavits : la cavit pharyngienne suivie de la cavit buccale et
en drivation la cavit nasale. La luette, qui prolonge le bord postrieur du voile du palais,
contribue la fermeture des fosses nasales. Comme rsultat, pendant la production de
la parole, la cavit nasale peut tre couple soit totalement, soit partiellement, o mme
dcouple de la cavit buccale. Autres organes anatomiques importants qui participent
la production des sons sont : la langue et les dents dans la cavit buccale, les narines
dans la cavit nasale et les lvres , comme montr dans la figure 2.1.
Le larynx a un rle extrmement important dans la production de la parole.Il est
11
EMP
Figure 2.2 Modle mcanique de production de la parole

form dun ensemble de muscles et cartilages mobiles entourant une cavit situe la
partie suprieure de la trache. Les cordes vocales, partie intgrale du larynx, peuvent le
fermer ou peuvent former une ouverture variable appele glotte. La fonction du larynx est
de fournir une excitation priodique au reste du systme sous la forme dune suite dimpulsions priodiques de pression dair pendant la phonation du son vois. Au contraire,
il laisse passer librement lair pendant la voix chuchote et la phonation des sons sourds
ou non voiss. Ainsi le conduit vocal peut tre vu comme une suite de tubes acoustiques
dont la section peut varier avec le temps. Son diagramme est reprsent dans la figure 2.2
Les paramtres qui dcrivent le signal vocal rel changent avec le temps car le systme
physique qui les produit change rapidement avec le on dit que le signal parole est non
stationnaire . Nanmoins le signal vocal peut tre divis en segments temporels (trames
ou fentres) de longueurs comprises entre 10 et 30 ms dont les proprits acoustiques
demeurent quasi stationnaire (stationnaire par morceaux). ltude de la forme donde de
la parole rvle des caractristiques telles que lintensit , le comportement priodique ,les
limites et la dure de chaque son qui forme le signal .La DFT est un outils trs puissant
qui donne la possibilit dtudier le signal parole numrique dans le domaine frquentiel
discret ,Ce signal peut rvler un comportement priodique ou non et ventuellement les
frquences les plus importantes qui dcrivent la parole.
Lune des plus importantes caractristiques du signal vocal est la nature de lexcita12
EMP
tion. Il existe deux types lmentaires dexcitation qui produisent les sons voiss et non
voiss.
Les sons voiss sont produits partir dune excitation qui agit sur le conduit vocal et
qui consiste en une suite dimpulsions priodiques dair fournies par le larynx. Les cordes
vocales au dbut sont fermes. Sous la pression continue de lair qui vient des poumons
elles souvrent graduellement dlivrant cette nergie potentielle. Pendant cette ouverture
la vitesse de lair et lnergie cintique augmentent jusqu ce que la tension lastique
des cordes vocales gale la force de sparation du courant dair. A ce point louverture de
la glotte est maximale. Lnergie cintique qui a t accumule comme tension lastique
dans les cordes vocales va acclrer la fermeture abrupte de la glotte . Ce processus
priodique est caractris par une frquence propre chaque personne, connue sous le
nom de frquence du fondamental F0 ou pitch et il donne la hauteur normale de la voix.
La frquence fondamentale peut varier de 80 200 Hz pour une voix masculine, de 150
450 Hz pour une voix fminine et de 200 600 Hz pour une voix denfant .
Cette frquence fondamentale peut varier suite des facteurs lis au stress, intonation et motions. Le timbre de la voix est dtermin par les amplitudes relatives des
harmoniques du fondamental.
Les sons non voiss sont gnrs par le passage de lair dans une constriction troite
situ en un point du conduit vocal. ils sont gnrs sans lapport du larynx et ne prsentent
pas de structure priodique.
Une modlisation exhaustive pour la production de la parole est trs difficile et pour
des raisons pratiques, inefficace. Lide de base dans la modlisation numrique est darriver un modle linaire qui produit en sortie un signal quivalent au signal vocal. Le
modle est correct dans la mesure ou sa sortie sapproche du signal vocal sans modliser les phnomnes physiques intrinsques la production du signal vocal . La figure 3
prsente un tel modle gnral qui est utilis dans le traitement numrique de la parole.
Dans ce modle gnral (figure 2.3) on utilise deux sources dexcitation. Pour les sons
non voiss la source dexcitation est un bruit blanc. Pour la production des sons voiss la
source dexcitation est un train priodique dimpulsions qui traverse un filtre passe bas
dordre 2. Ce filtre, qui modlise le fonctionnement du larynx, a une frquence de coupure
denviron 100 Hz.
G(z) =
A
(1 +
az 1 )(1
13
+ bz 1 )
EMP
Figure 2.3 Modle numrique de production de la parole

Un modle mcanique simplifi du conduit vocal le reprsente sous la forme dune
succession de tubes acoustiques lmentaires. Chaque tube o rsonateur mcanique est
assimil un filtre numrique dordre deux. La transmittance globale du modle est de
la forme :
B
H(z) = QK
1 + b z 2 )
2k
k=1 (1 + b1k z
La frquence centrale de chaque rsonateur correspond un formant et est donne
par :

1
b1k /2
1
Fk =
fs cos
2
b2k
Au bout du conduit vocal le son passe travers louverture des lvres. Celles-ci sont vues
comme une composante qui transforme le dbit volumique dans une onde de pression
une certaine distance. Dans le domaine spectral le rayonnement des lvres a leffet dun
filtrage passe haut. Le plus simple filtre numrique qui a cette proprit est :
R(z) = C(1 z 1 )
Pour des raisons de stabilit numrique et encore certaines dtails physiques le zro
introduit par R(z) est dplac lintrieur du cercle unit :
R(z) = C(1 z0 z 1 ) , z0 1, z0 < 1
14
EMP
La prsence dun numrateur diffrent dune constante rend difficile lestimation des
paramtres du systme. Pour liminer cet inconvnient on spcule sur lidentit :
1 z0 z 1 = PK
k k
k=0 z0 z
o K est thoriquement infinie mais pratiquement finie car z0 < 1

En conclusion la fonction de transfert globale est de la forme :
(
T (z) =
H(z)R(z)
pour les sons voiss
G(z)H(z)R(z)
pour les sons non voiss
Cette fonction de transfert de type tous-ples qui est la base de la modlisation par
prdiction linaire a t justifie thoriquement et vrifie pratiquement. Cependant elle
prsente une srie de limitations.
La reprsentation numrique dun signal analogique implique lchantillonnage, la
quantification du chaque chantillon et le codage. La frquence dchantillonnage doit
respecter le thorme de Shannon . Le pas de quantification est en rapport avec la prcision dsir . Le codage est reli au problme technique particulier en vue de sa transmission ou de son enregistrement. Ce domaine est trs vaste, il stend depuis le codage
MIC (Modulation par impulsions Codes) utilis en tlphonie numrique commerciale
jusquaux algorithmes trs complexes qui permettent dliminer la redondance du signal
vocal.
Le spectre du signal vocal stend jusqu 12 kHz et en consquence, si on veut garder toute linformation, une frquence dchantillonnage dau moins 24 kHz simpose.En
faisant un compromis sur la qualit en faveur du cot du traitement numrique la frquence dchantillonnage peut varier dans des limites assez larges et devenir efficace pour
le problme concret rsoudre. Ainsi on utilise une frquence dchantillonnage de 8 kHz
pour la tlphonie et de 6 16 kHz pour lanalyse ou la synthse du signal vocal.
2.2
La detection dactivit vocale VAD
Un algorithme de dtection d activit vocale (Voice Activity Detection) VAD a comme

but de discriminer entre les rgions o la parole est prsente et les rgions o la parole est
15
EMP
absente dans le signal vocal analys. Un algorithme de VAD fonctionne selon une logique
binaire. Il produit les valeurs logiques 1 ou 0 pour chaque segment ou trame de signal
analys, indiquant respectivement la prsence ou labsence de la parole.
Le VAD est un module important dans une large gamme dapplications concernant le
traitement de la parole soit la reconnaissance, la transmission ou le rehaussement de la
parole.On le trouve gnralement dans le bloc du pr-traitement .
Dans le domaine de reconnaissance de la parole le VAD est utilis pour localiser le
dbut et la fin des rgions reconnatre. La prcision du VAD utilis se matrialise dans
une amlioration du taux de reconnaissance.
Pour les systmes de transmission de la parole tels que la tlphonie cellulaire, le
VAD est utilis pour contrler la transmission discontinue qui active la transmission
uniquement pendant les priodes dactivit vocale. La transmission discontinue permet
daugmenter la capacit du systme pour loprateur tandis que pour labonn prolonge
lautonomie du mobile . Dans le cas du rehaussement de la parole les priodes de silence
dtectes par le VAD peuvent servir actualiser le paramtre du bruit.
Autres aspects importants dont il faut tenir compte quand on apprcie un algorithme
de VAD sont la prcision, le dlai introduit dans la rponse, la robustesse par rapport au
bruit et le cot du traitement numrique.
Ainsi il existe des algorithmes de VAD qui sont conus pour rpondre aux exigences
du travail en temps rel et utiliss spcialement dans les applications de transmission de
la parole telles que la tlphonie. Un tel algorithme doit fournir la dcision pour la trame
courante avant quune nouvelle trame soit rceptionne et donc disponible.Dans dautres
applications telles que la reconnaissance de la parole, la condition de fonctionnement en
temps rel nest pas exige ; ce quon impose est plutt une meilleure prcision.
La tche dun algorithme de dtection dactivit vocale est loin dtre facile sauf pour
le cas dun rapport entre le signal vocal et le bruit SNR trs lev, condition qui est loin
dtre ralisable dans des applications relles de traitement de la parole. La nature non
stationnaire et la grande varit des bruits de fond et du signal vocal auquel un SNR
inconnu au concepteur et parfois variable rendent le problme de dtection dactivit vocale difficile. videmment, ce quon cherche est un algorithme prcis, robuste par rapport
au bruit et qui demande un minimum de calculs .
16
EMP
2.3
Les mthodes de base de la VAD
Parmi les mthodes de base de la dtection dactivit vocale on site :

Le VAD bas sur la distance LPC (Lineaire Predictive Coding),lide
principale de cette mthode est de dterminer une caractrisation spectrale de trois
diffrentes classes de sons , savoir la parole voise,la parole non voise et le silence.Les distances LPC mesures par un filtre de prdiction linaire vont servir a
faire la classification.
Le VAD bas sur le seuillage de lnergie consiste calculer lnergie court
PL1 2
terme de chaque trame du signal par la formule E =
i=0 x [i], en suite on la
compare avec un seuil dpendant du niveau de bruit.Si lnergie est suprieure
cette limite, la trame est dite active, dans le cas contraire ,on considre quelle ne
contient pas de parole.
Le VAD bas sur le taux de passage par zro qui repose sur lhypothse
que contrairement la parole,le bruit fluctue rapidement autour du zero et que le
nombre de fois que cela se produit est alatoire.Ainsi,il est possible de dterminer
un intervalle pour le nombre habituel de passages par zro dune trame de parole
en fonction de sa longueur.ensuite en dduire une rgle de classification base sur
le nombre de passage par zro.
Les mthodes numres sont pratiques et efficaces ,cependant elles sont toutes bases
sur des approches heuristique.En 1998,Jongseo Sohn et Wonyong Sung [1] ont propos
une approche statistique pour dterminer un VAD optimal ,cest lobjet de notre travail
durant le stage.En effet nous avons suivi cette approche afin dlaborer notre VAD.
17
Chapitre 3
Elaboration dun VAD bas sur une
approche statistique
Afin de raliser notre VAD, on a organis notre travail selon le plan suivant :
1. Le choix dun modle statistique adquat pour dcrire le signal parole [1],[3].
2. Trouver la rgle de dcision base sur le GLRT, en supposant que les statistiques
du bruit sont connues priori [1].
3. Estimation des paramtres du bruit par la mthode des statistiques minimum [2].
Le schma bloc suivant reprsente les partie principales du VAD propos :
Figure 3.1 schma qui rsume le fonctionnement du VAD
18
EMP
3.1
CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE
Modle statistique du signal de parole
Comme il a t mentionn dans le chapitre prcdant, la parole et mme le bruit sont

des processus alatoires qui ne sont ni stationnaires ni ergodiques, Cette ralit exclus
la possibilit davoir un modle statistique en examinant le signal vocal dans le domaine
temporelle car les fonctions de densit de probabilit PDF (probability density Function)
sont variantes dans le temps a cause de la non stationnarit du processus.
Pour les raisons prcdentes, Ephraim et Malah [3] ont propos un modle statistique
utilisant les proprits asymptotique de la transform de Fourier.
La transformation de Fourier discrte (DFT :Discret Fourier Transformation) de Fourier est un outil mathmatique de traitement du signal numrique, qui est lquivalent
discret n DFT de la transformation de Fourier continue qui est utilise pour le traitement du signal analogique. Il ne faut pas confondre avec la transformation de Fourier
rapide (Fast Fourier Transformation) FFT qui est un algorithme particulier de calcul de
la transformation de Fourier discrte.
Gnralement, le signal parole est subdivise en trames temporelles de longueur typique variante de 10 ms 40 ms afin dobtenir une quasi-stationnarit. En supposant quil
ny a pas de corrlation entre ces trames chacune delles est traite indpendamment des
autres.
La DFT dune trame x[n + nf L] n = 0, 1 , L 1 :
X[k] =
L1
X
n
x[n] exp(2jk )
L
n=0
(3.1)
O k est lindice de la frquence discrte, L le nombre dchantillons temporels dans une

trame et nf lindice de la trame.
A partir de lquation 1.1 on voit bien quun chantillon de la DFT X[k] nest aprs
tout quune somme pondre de plusieurs variables alatoires VA x[n].De plus dire que
les VA x[n] sont indpendant est quivalent dire que les coefficients de la DFT X[k]
sont dcorrls[3]. Ceci nest vrai que si on a un signal de dure infini L .Or a cause
des longueur des trames limites pour des raisons de quasi-stationnarit,les X[k] ont un
certains degr de corrlation,Nanmoins lhypothse de lindpendance entre les x[n] est
utilise dans la suite pour simplifier lalgorithme.
19
EMP
En vertu du thorme centrale limite,La somme de plusieurs VA x[n] indpendantes

tends vers une VA gaussienne.En dautre termes,la partie relle et imaginaire de X[k] sont
des VA gaussiennes de moyennes nulles (car le signal de parole est un processus alatoire
centr) et de variance variable dans le temps a cause de la non stationnarit de la parole.
Tous a nous amne a choisir le modle statistique dune VA gaussienne complexe
(Annexe A) pour X[k] dont la PDF est :

|X[k]|2
1
exp
P (X[k]) =
[k]
[k]
(3.2)
O (k) est la variance de lchantillon de la DFT X[k] qui est variable dans le temps.
Les PDF des variables alatoires du spectre du signal parole S[k] et du bruit W [k]
sont respectivement dduites partir de (1.2) :

1
|S[k]|2
P (S[k]) =
exp
s [k]
s [k]
(3.3)

|W [k]|2
P (W [k]) =
exp
w [k]
w [k]
(3.4)
O s [k] et w [k] sont respectivement les variances de la parole et du bruit durant la

trame nf et elle sont donnes thoriquement par [1] :
s [k] = Ss (2k/L)
w [k] = Sw (2k/L)
avec Sw et Ss sont respectivement les densits spectrales de puissance durant la trame nf
.
20
EMP
3.2
Dtermination de la rgle de dcision par le GLRT
La rgle de dcision dun VAD peut tre formule par deux termes :
Une statistique de dcision T (x),qui est une grandeur qui mesure la diffrence entre
le bruit et les statistiques du signal observ.
un seuil de dcision , qui est souvent dtermin de faon empirique.
Dans cette section, nous drivons une statistique de dcision partir du test du
rapport de vraisemblance gnralis (Generalized Likelihood Ratio Test) GLRT,tout en
supposant que les statistiques du bruit sont connues a priori.
Dans le contexte de la VAD, On veut gnralement distinguer entre deux hypothses
(test dhypothses binaire) :
(
H0 : x[n] = w[n]
abscense de la parole
H1 : x[n] = s[n] + w[n]
prsence de la parole
(3.5)
o s[n], w[n] et x[n] sont respectivement les chantillons de la parole, du bruit et de

la parole bruite linstant n. En introduisant la DFT sur (3.3) le problme de dcision
dans le domaine frquentiel est :
(
H0 : X[k] = W [k]
H1 : X[k] = S[k] + W [k]
(3.6)
X[K],S[K] et W [k] sont donns par la relation (3.1).Les PDF des variables alatoires
S[k] et W [k] sont respectivement donnes par (3.3) et (3.4) :

|S[k]|2
1
exp
P (S[k]) =
s [k]
s [k]

|W [k]|2
P (W [k]) =
exp
w [k]
w [k]
1
En utilisant la stabilit de la loi Gaussienne, les PDF sous les deux hypothses sont
donnes par :

1
|X[k]|2
P (X[k]|H0 ) =
exp
(3.7)
w [k]
w [k]

1
|X[k]|2
P (X[k]|H1 ) =
exp
(3.8)
(w [k] + s [k])
(w [k] + s [k])
21
EMP
la dtection dactivit vocale est galement effectue pour chaque trame de L chantillons sur laquelle la parole est suppos tre stationnaire.Donc on aura a dcider entre :
(
H0 : X = W
H1 : X = X + W
(3.9)
O S = [S[0]S[1] S[L1]]t , W = [W [0]W [1] W [L1]]t , X = [X[0]X[1] X[L

1]]t et sont les vecteurs des chantillons spectraux L-dimensionnels de la parole, du bruit
et de la parole bruite.
En supposant que les chantillons spectraux sont des VA indpendantes [1],les PDF
conjointes sous les hypothses H0 et H1 sont :
L1
Y

|X[k]|2
exp
w [k]
w [k]
(3.10)

|X[k]|2
1
exp
(w [k] + s [k])
(w [k] + s [k])
(3.11)
P (X|H0 ) =
k=0
P (X|H1 ) =
L1
Y
k=0
Si on suppose que la variance du bruit w [k] est connue priori (estimer par une mthode
quon prsentera dans ce qui suit), H0 devient une hypothse simple et H1 devient une
hypothse compose avec L paramtres inconnus dterministes :
= {S (k) : k = 0, , L 1}
Pour tablir la rgle de dcision,On fait appel au test de rapport de vraisemblance

gnralis (Generelized Likelihood Ratio) GLRT , qui est lune des mthodes les plus
puissantes dans le cas des tests dhypothse composs avec dterministe.
M L obtenu par
Dans le GLRT le paramtre inconnus est remplac par son estim
le mthode du maximum de vraisemblance (Maximum Likelihood Estimator) MLE.
22
EMP
Lestimation du paramtre :
on dveloppe le MLE pour dterminer :

|Xk |2
1
exp
P (Xk |, H1 ) =
(N (k) + S (k))
(N (k) + S (k))
|Xk |2
1
ln P (Xk |, H1 ) = ln
(N (k) + S (k)) (N (k) + S (k))
ln P (Xk |, H1 )
1
|Xk |2
=
+
S (k)
N (k) + S (k) (N (k) + S (k))2
ln P (Xk |, H1 )
= 0 |Xk |2 = N (k) + S (k)
S (k)
M LE (k) = |Xk |2 N (k)
3.2.1
(3.12)
Le rapport de vraisemblance gnralis :
g (x) =
H1 )
P (X|,
=
P (X|H0 )
QL1
1
S (k))
k=0 (N (k)+
QL1
k=0
exp
|Xk |2
( (k)+
S (k))

|Xk |2
exp
N (k)
N (k)
1
M LE (k) (1.12), on obtient :

en remplaant S (k) par son estim
S
g (x) =
L1
Y
k=0
3.2.2
N (k)
exp
|X(k)|2

|X(k)|2
1
N (k)
La rgle de dcision :
g (x) =
L1
Y
k=0
N (k)
exp
|X(k)|2
H1

>
|X(k)|
1
N (k)
<
H0
2
en introduisant loprateur logarithmique dans les deux cots de lingalit, on obtient :
L1
X
k=0
H1

>
|Xk |2
|Xk |2
log
1
log
N (k)
N (k)
<
H0
23
EMP
Figure 3.2 les rgions de dcision
T (X) =
L1
X
k=0
H1

>
|Xk |2
|Xk |2
log
1
log =
N (k)
N (k)
<
H0
(3.13)
Lquation (1.3) reprsente notre rgle de dcision, elle est compose dune statistique de
dcision T (X) et un seuil quon va dterminer par la suite.
3.3
Dtermination du seuil adaptatif
La nature non-stationnaire ainsi que la grande varit de bruit rendent lide de fixer
un seuil unique tout au long du traitement peu efficace et pas trs pratique. De plus
les fluctuations rapides et soudaines des niveaux de bruits au cours de lacquisition du
signal(par exemple lors dune communication mobile le bruit de passage dune voiture
sajoute au bruit initiale) nous oblige concevoir un VAD robuste avec un seuil adaptatif.
La mthode dadaptation du seuil que nous avons propos est semblable celle utilise dans les systme Radar, en particulier dans les dtecteurs CFAR, o on cherche
fixer la probabilit de fausse alarme PF A en adaptant le seuil dune manire a la rendre
indpendante des valeurs des paramtres du bruit do le nom du dtecteur Constant
False Alarme Rate ou taux de fausse alarme constant.
On cherche a dterminer le seuil de manire garder PF A = o est une valeur
fixe et qui est reprsentatif des performances du systme. Par exemple, dans les systmes
Radars le niveau de fausse alarme PF A a des valeurs typiques variantes de 104 106 ,
cependant, dans le cas dun VAD la PF A se situe aux environ de 102 , ce qui est largement
suffisant pour le traitement du signal parole.
Nous savons que la probabilit de fausse alarme est par dfinition le rsultat dune
24
EMP
prise de dcision dans un choix deux hypothses H1 et H0 , dclar H1 , l o il est en

ralit H0 . Autrement dit :
Z
Z
fT |H0 (t|H0 )dt
(3.14)
PF A = P [H1 |H0 ] =
fT |H0 (t|H0 )dt =
Z1
Dans la relation (3.14) on voit apparaitre fT |H0 (t|H0 ) qui reprsente

la PDF sous H0
PL1 |Xk |2
|2
de la statistique de dcision T (X). Or, on sait que T (X) = k=0 N (k) log |XNk(k)
1
o Xk est une VA gaussienne. Malheureusement, on na pas pu trouver une expression
analytique ou des approximations numriques de la pdf fT |H0 (t|H0 ). Par consquent on
a fait appel a la mthode de Monte Carlo qui consiste a faire des simulation numrique
pour estimer le seuil
3.3.1
Simulation de Monte Carlo
Lide principale dune simulation de Monte Carlo est de gnrer une multitude de
fois ( B fois) des ralisations de la VA alatoire T dont la PDF est inconnue. Par la suite
calculer B le nombre de fois que cette VA dpasse une valeur (un seuil) . Enfin on
calcule une estime de la probabilit P [T > ] = B /B.
Pour lestimation du seuil on suivra le chemin inverse, autrement dit, on doit chercher le seuil qui garantit un PF A = P [T > |H0 ] = B /B = . Voici la procdure quon
a suivit :

PL1 |Xk |2
|Xk |2
1. Gnrer T (X) = k=0 N (k) log N (k) 1 B fois sous H0 (bruit uniquement),
ensuite stocker les ralisations dans un vecteur V de taille B. Le nombre ditration
B est donn par la formule empirique B = P100
FA
2. Calculer B = PF A B
3. Trier le vecteur V par ordre dcroissant
4. Le seuil est pris comme tant la composante a la position B du vecteur V tri
En supposant que les statistique du bruit fluctuent moins rapidement que celle du
signal, ladaptation du seuil se fait chaque fois que la variance du bruit est mise jour
car le calcul du seuil ne dpend que de ce paramtre.
Le seuil obtenu par cette mthode est un seuil adaptatif, il change selon le niveau du
bruit, ce qui va rendre notre VAD robuste, de plus comme on a fixer notre PF A une
valeur on peut considrer que notre VAD possde le comportement dun CFAR.
25
EMP
3.4
Estimation des paramtres du bruit
Lors due ltablissement de la rgle de dcision par le moyen du GLRT, nous avons
suppos que la variances des chantillons spectraux du bruit w [k] est connu priori. Dans
cette section on va prsenter une mthode destimation de la puissance du bruit w [k]
introduite par Rainer Martin, en 2001 [2],et qui est base sur un lissage du priodogramme
et une statistique minimale[1].
Sachant que thoriquement w [k] = Sw (2k/L), nous somme dans lobligation destimer la densit spectrale de puissance du bruit, puisque la DFT du signal est disponible,
on a opt pour le priodogramme.
Le lissage du priodogramme
le priodogramme est une mthode paramtrique destimation de la densit spectrale

de puissance, qui ncessite pour tre calcul, la mise au carr de la Transforme de
Fourier (DFT) du signal numrique x[n] sur L points.Il est, depuis la mise au point de
lalgorithme de Transformation de Fourier Rapide FFT par J. Cooley et J. Tuckey en
1965, lestimateur le plus employ. lexpression de lestimateur :

2
L1

X
kn
1
x[n] exp j2
P [k] =
= |Xk |2
L
L
(3.15)
n=0
Le priodogramme P [k], obtenu par lquation (1.14), est estim partir des chantillons de la trame en cours danalyse. Cependant lexistence dun certain degr de corrlation entre les diffrentes trames due a la nature du signal parole va engendrer des
fluctuations brusques du priodogramme (figure 1.3) qui vont influencer ngativement les
performances du VAD. Pour palier ce problme on propose un priodogramme liss,qui
est obtenu par :
P [k, nf ] = P [k, nf 1] + (1 )|Xk |2
(3.16)
O nf est lindice de la trame en cours danalyse et un paramtre de lissage (ou doubli)
qui est obtenu exprimentalement.En effet au cours des simulations de fonctionnement
que nous avons effectu, il sest avr que les meilleurs performances sont obtenues pour
= 0.05.
La mthode destimation de la variance du bruit est base sur le principe que mme
26
EMP
Figure 3.3 les variations des 2 priodogrammes au cours du temps pour lchantillon
spectral k=25
durant la prsence de la parole, la densit spectrale de puissance du signal bruit atteint
des minimums qui sont reprsentatives du niveau de puissance du bruit [2].Donc cette
mthode est fond sur le principe que durant les pauses de silences ou pendant les brefs
intervalles entre les mots et les syllabes, lnergie du signal parole non bruit est presque
nulle. Par consquent, on peut suppos que la puissance du bruit est le minimum des
priodogrammes calculer durant un intervalles de temps dans lequel on suppose que le
bruit est le mme ou il a subi de lgres variations.
En gnrale, le bruit prsente une non-stationnarit plus faible que celle de la parole,
par consquent les priodes de mise jour de la variance du bruit sont beaucoup plus
grandes que les trames analys.Typiquement les priode de mise jour de w [k] varie
entre 0.1s et 1s .
Lors des simulations on a trouv quune priode de mise jour T s = 0.7s et une
longueur de trames de T w = 30ms donnaient les meilleures performances.
27
EMP
Dbut
Initialisation de la variance du
bruit et du seuil
FFT de la trame x[n] n=0,1L-1
:, :
Calcul du periodogramme
s=|X[k]|^2 k=0,1...L-1
Lissage du periodogramme :
P=aP+(1-a)s
K=0,1,..,L-1
Vrifier si Ts est
oui
non
coul depuis la
dernire mise
jour
Calculer la variance de bruit en

prenant le minimum
Prendre lancienne valeur de

la variance de bruit
Adaptation de seuil par la mthode

de Monte Carlo
Prendre lancien seuil
oui
Test GLRT
non
Si T>
Lincrmentation vers la
prochainne trame
non
Fin du signal
sous test
oui
Fin
Figure 3.4 lorganigramme du lalgorithme VAD propos
28
Chapitre 4
Analyse des performances du VAD
propos
4.1
Etude des performances pour diffrents types de

signaux de parole
Afin dvaluer les rsultats du VAD propos, on a essayer de dtecter lactivit vocale
dans des signaux obtenus partir de la base de donne Aurora qui est une rfrence dans
le domaine de traitement de la parole, et particulirement la dtection dactivit vocale.
Les niveaux de SNR des signaux de cette base de donne varient de -5 dB 20 dB. Ces
niveaux sont rpartis en trois groupes :
1. Quiet
2. Medium
3. High
Lors des simulations, on a pris un signal de chaque niveau et on les a not : S1 pour le
signal "Quiet", S2 pour le signal "Medium" et S3 pour le signal "High".
En observant les figures 4.2, 4.3 et 4.4 dun point de vue subjectif, on peut constater
que le VAD propos prsente des performances acceptable. Mais une mesure objectives
de ces performances est donne par lensemble des paramtres : PD et PF A . PD est dfinie
par le rapport entre le nombre de trames contenant le signal vocal classifi correctement
et le nombre rel de trames de parole. La PF A est fixe au pralable. La dcision idale
de rfrence est obtenue par un marquage manuel des rgions de silence et de parole pour
le signal non bruit.
29
EMP
CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS
Figure 4.1 signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation du
seuil
30
EMP
Figure 4.2 signal S2 "Medium" : a)signal bruit - b)signal non bruit - c)adaptation
du seuil
31
EMP
Figure 4.3 signal S3 "High" : a)signal bruit - b)signal non bruit - c)adaptation du
seuil
32
EMP
4.2
tude des performances lies au temps dexcution
Le nombre requis ditrations de Monte Carlo B est inversement proportionnel la

), donc pour avoir un seuil qui garantit PF A = 104
PF A (la relation empirique B = P100
FA
il faut que B = 1000000, sachant que pour B = 100 lexcution de notre algorithme
sur Matlab sur un PC portable avec microprocesseur Intel I5 a pris 4.57s, lexcution
de lalgorithme pour B = 1000000 prendra approximativement 4.57 10000 = 45700s =
12heureset41minutes. Ce qui rend notre algorithme non pratique pour les petites valeurs
de PF A . Cependant dans les applications de traitement de parole une PF A de lordre de
0.01 jusqu 0.1 est largement suffisante [1]. Pour ces valeurs, le temps de traitement pour
un signal dont la dure est de 10 s est variant de 4 s 40 s ce qui est appropri pour
un traitement "offline". Lanalyse dune seule trame de 30 ms prend 0.270 ms pour une
PF A = 0.1.
Pour amliorer le temps de calcul on peut construire au pralable une Look Up Table
(LUT) qui fait la correspondance entre le seuil et la variance du bruit estim. Ceci nous
permet dviter de faire des simulations de Monte Carlo chaque excution du programme.
33
EMP
4.3
4.3.1
tude de linfluence des diffrents paramtres

La longueur de la trame
Les simulations exprimentales nous on conduit choisir une longueur de trame de

T w = 30 ms car elle prsentait le meilleur compromis entre la probabilit de dtection
PD et la probabilit de fausse alarme PF A .
1. T w = 15ms prsente une bonne PD mais une grande PF A

2. T w = 40ms prsente une faible PF A mais une PD dgrad
3. T w = 30ms prsente un bon compromis entre PF A etPD
4.3.2
Le paramtre de lissage
Linfluence du paramtre de lissage est trs importante (Facteur doubli), car il traduit le degr de corrlation entre les diffrentes trames du signal. Donc un choix adquat
de est vital pour le bon fonctionnement de notre algorithme.
Gnralement, est calcul exprimentalement [2], cependant il existe des mthodes
pour trouver le optimal. Pour notre VAD, on a opt pour la mthode exprimentale en
choisissant le qui prsente le meilleur compromis entre PD et PF A .
1. = 0.005 prsente une bonne PD mais une grande PF A

2. = 0.85 prsente une faible PF A mais une PD dgrad
3. = 0.05 prsente un bon compromis entre PF A et PD
34
EMP
Figure 4.4 influence de la longueur de la trame :a)Tw=40ms - b)Tw=15ms c)Tw=30ms - d)signal non bruit
35
EMP
Figure 4.5 influence du paramtre alpha :a) = 0.005 - b) = 0.85 - c) = 0.05 d)signal non bruit
36
EMP
4.3.3
la courbe ROC
Pour le trac de la courbe ROC (Reciever Operating Characteristic), on va se contenter

de quelques valeurs PD et PF A pour le signal S3 donnes dans le tableau 4.1.
PF A
PD
0.01
0.02
0.05
0.1
0.3
0.5
0.7
0.8
0.9
0.8240 0.8369 0.8422 0.8424 0.8452 0.8470 0.8507 0.8537 0.8570
Table 4.1 Tableau des points de la courbe ROC
Daprs la courbe de la figure 4.6, on a obtenu des valeurs de PD > 0.84 pour une
PF A aux environs de 0.1.
Figure 4.6 courbe ROC
37
Chapitre 5
Conclusion gnrale
Llaboration de ce travail dans le cadre du stage de troisime anne ingnieur, nous

a permis dapprofondir nos connaissances thoriques dans le domaine de la dtection et
dacqurir des nouvelles mthodes de travail.
Le stage consistait dvelopper un algorithme de la dtection dactivit vocale pour
loptimisation de traitement de signal de parole lors des communications mobiles.
Lalgorithme propos lors de cette tude na t test que sur des signaux de la communication mobile noys dans diffrents types de bruits acoustiques pour diffrents niveaux
de SNR.
La dtermination de la densit de probabilit de la statistique du test a t difficile,
donc nous avons opt pour lapplication de la mthode de Monte Carlo.
Les valeurs qui ont t affectes aux diffrents paramtres sont :
Tw = 30 ms qui est la largeur de la trame.
a = 0.05 qui est le coefficient de lissage.
Tms = 0.7 qui reprsente la largeur de la fentre de lissage.
Ces paramtres ont t choisis exprimentalement de telle sorte avoir un compromis
entre la probabilit de dtection et la probabilit de fausse alarme, cest--dire, pour
amliorer les performance de notre dtecteur dactivit vocale.
Par contraintes de temps de calcul lies aux simulations de Monte Carlo, nous tions
obligs de prendre des valeurs de PF A mdiocres, cependant, pour amliorer les performances, nous avons propos une solution base sur lutilisation dune LUT (Look Up
38
EMP
CHAPITRE 5. CONCLUSION GNRALE
Table) construite au pralable.

Comme perspective, on propose de faire limplmentation de notre algorithme sur un
processeur des signaux (un DSP ou un FPGA).
Nous avons russi atteindre lobjectif demand qui est llaboration dun algorithme
de la dtection dactivit vocale, bas sur une approche statistique.
Ce stage concide avec notre thme de projet de fin dtude, il nous a permis dappliquer nos connaissances thoriques dans le domaine du traitement du signal de la parole.
En conclusion, ce stage nous a permis dapprendre travailler en autonomie, ainsi qu
synthtiser une mthodologie de travail pour rsoudre les problmes que peut rencontrer
un ingnieur.
39
Annexes
40
Annexe A
La variable alatoire gaussienne
complexe
On appelle une variable alatoire Z = X +jY une VA gaussienne complexe si sa partie

relle et sa partie imaginaire sont toutes les deux des VA gaussiennes indpendantes qui
ont la mme variance.
2
X
Si on suppose que les VA sont centres c--d : E[X] = E[Y ] = 0 et de variance

2
2
+ Y2 = 2
= Y2 = 2 ,la VA Z sera centre et aura comme variance Z2 = X
On sait que la PDF dune VA gaussienne 2 dimensions X = [XY ] centr est donne
par :

1
fX (X, Y ) = p
exp X t C1 X
2 det(C)
!
2
0
2
Avec C la matrice de covariance de la VA X. En remplaant C =
2
0 2
On trouve :
f(X,Y ) (x, y) =
2
1
q
4
4

(x2 + y 2 )
exp
2
On peut crire :

1
|z|2
fZ (z) =
exp 2
2
Cest la PDF quon a utilis pour modliser le signal parole.

41
Annexe B
Simulation de Monte Carlo
Lorsque nous nous somme pas en mesure de determiner la probabilit quune variable
alatoire dpasse une valeur donne par des mthodes analytiques ou des valuation
numriques dune forme dexpression proche ,on fait appel aux simulation de Monte
Carlo.
Dans les problmes de dtection on cherche la probabilit quune VA ou une statistique T dpasse un seuil en dautre termes :P [T > ].Lexemple suivant illustre les
PN
tapes suivre pour faire une simulation de Monte Carlo. Soit T (x) =
k=1 x[k] o
2
X N (0, I)
Gnration des donnes

1. Gnrer une vecteur colonne de VA ,cela se fait facilement sur Matlab par
x=sqrt(var)*randn(N,1) o var est la variance du BBG 2
P
2. Calculer T (x) = N
k=1 x[k] et cela se fait sur Matlab par T=sum(x)
3. Rpter la procdure M fois pour obtenir M ralisations de Ti {T1 , T2 , , TN } on
prend gnralement M = 100/PF A [1]
Estimation de la probabilit
1. Compter M le nombre de Ti qui dpasse le seuil
2. Estimer la probabilit P [T > ] = M /M
42
Annexe C
Code Matlab de lalgorithme VAD
clc
clear
close all
[s,Fs]=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.1.wav);%lowSNR
S1=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.0.wav);
Ts=1/Fs;
a=0.05;
Tms=0.7;
Tw=30*10^-3;%largeur de la fenetre
LL=round(Tms/Tw);
L=Tw/Ts+1;%nbr dechentillons par fenetre
ch=round(L/2);%chauvauchement entre les trames
%%% estimation de la variance des echantillons spectraux du bruit
%%% Initialisation
ss=s(1:L);
FF=fft(ss);
lambdan=abs(FF).^2;
Pf=0.1;
B=100;
x=zeros(1,B);
y=zeros(1,B);
z=zeros(1,B);
for j=1:B
Z0=0;
for k=1:L
43
EMP
x(k)=sqrt(lambdan(k)/2)*randn(1,1);
y(k)=sqrt(lambdan(k)/2)*randn(1,1);
z(k)=norm(x(k)+1i*y(k));
Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;
end
T0(j)=Z0;
end
gammapos=ceil((B+1)*(1-Pf));
T0=sort(T0);
gammaamp=T0(gammapos);
gammaampv=gammaamp;
%%% analyse de trames
D=0;
P=lambdan;
PP=[P];
for i=1+L-ch:L-ch:length(s)-L
ss=s(i:i+L-1);
nf=(i-1)/(L-ch);
FF=abs(fft(ss)).^2;
P=a*P+(1-a)*FF;%%
PP=[PP P];
%% Adaptation
if mod(nf,LL)==0
PPP=PP(:,(nf-LL+1):nf);
lambdan=min(PPP);
for j=1:B
Z0=0;
for k=1:L
x(k)=sqrt(lambdan(k)/2)*randn(1,1);
y(k)=sqrt(lambdan(k)/2)*randn(1,1);
z(k)=norm(x(k)+1i*y(k));
Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;
end
T0(j)=Z0;
end
gammapos=ceil((B+1)*(1-Pf));
T0=sort(T0);
gammaamp=T0(gammapos);
gammaampv=[gammaampv gammaamp];
44
EMP
end
%%%
Z=0;
for k=1:L
Z=Z+FF(k)/lambdan(k)-log(FF(k)/lambdan(k))-1;
end
if Z>=gammaamp
D=[D 1];
else
D=[D 0];
end
end
%%% trac des resultat
DD=D(1)*ones(1,L-ch);
for k=2:length(D)
DD=[DD D(k)*ones(1,L-ch)];
end
G=gammaampv(1)*ones(1,LL*(L-ch));
long=length(gammaampv);
for k=2:long
G=[G gammaampv(k)*ones(1,LL*(L-ch))];
end
amp=max(s);
t=0:Ts:(length(s)-1)*Ts;
subplot(3,1,1)
plot(t,s)
title(signal bruit);
hold on
t=0:Ts:(length(DD)-1)*Ts;
plot(t,(amp)*DD,r)
hold off
subplot(3,1,2)
t=0:Ts:(length(S1)-1)*Ts;
plot(t,S1)
title(signal parole non bruit);
subplot (3,1,3)
t=0:Ts:(length(G)-1)*Ts;
plot(t,G)
xlabel(le temps (s))
title(adaptation du seuil);
45
Bibliographie
[1] J. Sohn and W. Sung, "A voice activity detector employing soft decision based
noise spectrum adaptation",in Proc. Int. Conf. Acoustics, Speech, and Signal Processing,
1998, pp. 365368.
[2] R. Martin, "Noise Power Spectral Density Estimation Based on Optimal Smoothing
and Minimum Statistics", IEEE Trans. Acoust., Speech, Signal Processing , VOL. 9, NO.
5, JULY 2001.
[3] Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square
error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32, pp. 11091121, Dec. 1984.
46

VAD Approche Statistique

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

VAD Approche Statistique

Hochgeladen von

Copyright:

Verfügbare Formate

Table des matires

1 Prsentation de ltablissement daccueil

2 Gnralits sur la dtection dactivit vocale

3 Elaboration dun VAD bas sur une approche statistique

4 Analyse des performances du VAD propos

A La variable alatoire gaussienne complexe

B Simulation de Monte Carlo

C Code Matlab de lalgorithme VAD

Table des figures

Appareil phonatoire humain . . . . . . . . . . . . . . . . . . . . . . . . .

schma qui rsume le fonctionnement du VAD .

signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation du

Liste des abrviations

Dans le but de mettre en application nos connaissances scientifiques et techniques,

Le Centre de recherche et de dveloppement des transmissions de la premire rgion

CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL

Pour lexcution de ses missions, le CRDT est organis comme suit :

CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL

Figure 1.1 organigramme du CRDT/1RM

Notions lmentaires sur le signal de parole

CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

Figure 2.1 Appareil phonatoire humain

CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

Figure 2.2 Modle mcanique de production de la parole

CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

Figure 2.3 Modle numrique de production de la parole

CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

o K est thoriquement infinie mais pratiquement finie car z0 < 1

La detection dactivit vocale VAD

Un algorithme de dtection d activit vocale (Voice Activity Detection) VAD a comme

CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

Les mthodes de base de la VAD

Parmi les mthodes de base de la dtection dactivit vocale on site :

Le schma bloc suivant reprsente les partie principales du VAD propos :

Figure 3.1 schma qui rsume le fonctionnement du VAD

CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

Modle statistique du signal de parole

Comme il a t mentionn dans le chapitre prcdant, la parole et mme le bruit sont

O k est lindice de la frquence discrte, L le nombre dchantillons temporels dans une

CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

En vertu du thorme centrale limite,La somme de plusieurs VA x[n] indpendantes

O s [k] et w [k] sont respectivement les variances de la parole et du bruit durant la

CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

Dtermination de la rgle de dcision par le GLRT

o s[n], w[n] et x[n] sont respectivement les chantillons de la parole, du bruit et de

CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

O S = [S[0]S[1] S[L1]]t , W = [W [0]W [1] W [L1]]t , X = [X[0]X[1] X[L

Pour tablir la rgle de dcision,On fait appel au test de rapport de vraisemblance

CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

on dveloppe le MLE pour dterminer :

Le rapport de vraisemblance gnralis :

M LE (k) (1.12), on obtient :

en introduisant loprateur logarithmique dans les deux cots de lingalit, on obtient :

CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

Figure 3.2 les rgions de dcision

Dtermination du seuil adaptatif

CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

prise de dcision dans un choix deux hypothses H1 et H0 , dclar H1 , l o il est en

Dans la relation (3.14) on voit apparaitre fT |H0 (t|H0 ) qui reprsente

Simulation de Monte Carlo

CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

Estimation des paramtres du bruit