Sie sind auf Seite 1von 140

Traitement de la parole

-Introduction-

Tlcommunications,

TSI

Jean-Marie Gorce

Codage

Restauration

-quantification
-codage par modles
-transmission

-analyse SNR
-filtrage

Analyse-synthse
Com. Multimodale
-multimdia
-son-image
-les 5 sens

-modlisation physique
-modlisation lectrique
-analyse spectrale
-prdiction linaire

Comprhension
-base de donnes
-grammaire, analyse smantique

Tlcommunications,

TSI

Reconnaissance
-modlisation du langage
-thorie de la dcision
-intelligence artificielle

Identification
speaker specific
Jean-Marie Gorce

Locuteur
ide,
niveau cognitif,
pense.

Auditeur

La
parole
?????????

comprhension

objectif : la communication
traitement
cognitif

construction
grammaticale.

commande
musculaire.

systme
phonatoire
Tlcommunications,

signal
acoustique
=
vecteur de la
parole
TSI

prtraitement
sensoriel

systme
auditif
Jean-Marie Gorce

la parole aux tlcoms


problme :
limit dans lespace
Locuteur

signal acoustique

microphone
signal
lectrique

Auditeur
couteur

transmission
lectromagntique

CAN
signal
numrique

Tlcommunications,

cble
hertzien
TSI

signal
lectrique
CNA
signal
numrique
Jean-Marie Gorce

Le codage de la parole
degr de complexit
-analogique

E
-numrique
quantification
chantillonnage

CAN

CNA

-codage
modlisation
compression

CAN codeur dcod.

CNA

Normes de communication
Tlcommunications,

TSI

Jean-Marie Gorce

Aspects abords dans ce cours

modlisation du signal de parole


le codage direct (PCM, DPCM, APCM, ADPCM)
la prdiction linaire (APC,LPC,RPE-LTP)
la quantification vectorielle (VSELP, CELP,
ACELP)
transforme en sous-bande (MBE,MELP)
signal audio musical : HD, (MPEG, MIDI)
Tlcommunications,

TSI

Jean-Marie Gorce

Traitement de la parole
-Etude du signal de parole-

Tlcommunications,

TSI

Jean-Marie Gorce

Plan

production naturelle de la parole

modlisation physique

modlisation spectrale, analyse de Fourier

modlisation paramtrique autorgressive

Tlcommunications,

TSI

Jean-Marie Gorce

I-Production naturelle de la parole


1) un peu de physiologie

narines

C. buccale
langue

lvres

ph

ar

yn

Cavit
nasale

oesophage
glotte
larynx

Tlcommunications,

Trache artre
TSI

Jean-Marie Gorce

Cordes
vocales

Le larynx :
- vois ou non vois
- frquence fondamentale (pitch)

piglotte

muqueuse
glotte
Tlcommunications,

TSI

Jean-Marie Gorce

2) Le rle des cordes vocales : sons voiss


Un son vois est dfini par :
- sa frquence fondamentale (=hauteur)
- son timbre = rapport entre fondamental et harmonique
0.4

amplitude

0.3

0.2
0.1
0

-0.1
-0.2
-0.30

0.05

0.1

Tlcommunications,

0.15
0.2
temps
TSI

0.25

0.3

Jean-Marie Gorce

0.35

3) Reprsentation simplifie :
souffle

Pharynx
cordes
vocales

Cavit
buccale

Cavit
nasale

0.6

amplitude

0.4
0.2
0
-0.2
-0.4

b
0

on
0.1

0.2

j
0.3

Tlcommunications,

ou
0.4

temps

TSI

0.5

r
0.6

0.7

0.8

Jean-Marie Gorce

0.9

4) Les diffrents types de sons (phonmes)


Les voyelles (voises)
Orales
[A, E, I, O, U, OU...]

souffle

cordes
vocales

Pharynx

Cavit
buccale

Nasales
souffle

cordes
vocales

[IN, UN, AN, ON]

Tlcommunications,

TSI

Pharynx

Cavit
buccale

Cavit
nasale

Jean-Marie Gorce

0.4

[e]

50
40
(dB)

0.2
0
-0.2
0
0.4

30
20
10

50
t (ms)
[on]

0
0

100

2
3
f (kHz)
PSD [on]

2
3
f (kHz)

50
40
(dB)

0.2
0
-0.2
0

PSD [e]

30
20
10

50
t (ms)

Tlcommunications,

0
0

100
TSI

Jean-Marie Gorce

Les consonnes
Liquides
souffle

cordes
vocales

[R,L]

Pharynx

Cavit
buccale

Nasales
souffle

cordes
vocales

[M,N,GN]

Tlcommunications,

TSI

Pharynx

Cavit
buccale

Cavit
nasale

Jean-Marie Gorce

Fricatives non voises


[F, S, CH]
souffle

Pharynx

Cavit
buccale

Fricatives voises

[V, Z, J]

souffle

Pharynx

Cavit
buccale

cordes
vocales

Tlcommunications,

TSI

Jean-Marie Gorce

[ch]

0.1
0.05
0
-0.05
-0.1
0

10

20

30

40

50
t (ms)

60

70

80

90

100

10

PSD [ch]

30

(dB)

20
10
0
-10
-20
0

Tlcommunications,

5
f (kHz)
TSI

Jean-Marie Gorce

Occlusives non voises


[P, T, K]
souffle

Pharynx

Cavit
buccale

Occlusives voises

[B, D, G]

souffle

Pharynx
cordes
vocales

Tlcommunications,

TSI

Cavit
buccale

Cavit
nasale

Jean-Marie Gorce

[bon]

1
0.5
0
-0.5
-1
0

[b]
50

0.1

[on]
t (ms)
[par]

100

150

0.05
0
-0.05
-0.1
0

[p]

Tlcommunications,

50

[a]
t (ms)
TSI

[r]

100

150
Jean-Marie Gorce

II-Modlisation physique

Tlcommunications,

TSI

Jean-Marie Gorce

III-Modlisation harmonique
Modle de Dudley (VOCODER) galement dvelopp en 1930
Bandpass
filter 1

Nonlinearity

Lowpass
filter

Sampling
rate
reduction

Amplitude
Compression

Bandpass
filter Q

Nonlinearity

Lowpass
filter

Sampling
rate
reduction

Amplitude
Compression

speech

Tlcommunications,

TSI

Jean-Marie Gorce

[e]

0.4

PSD [e]

50
40
(dB)

0.2
0
-0.2
0

30
20
10

50
t (ms)

0
0

100

2
3
f (kHz)

DFT

Transforme de Fourier = dcomposition spectrale

Tlcommunications,

TSI

Jean-Marie Gorce

Quelques proprits spectrales


Sons voiss
Fondamental (pitch)
Harmoniques
Formants
PSD [e]

50

(dB)

40
30
20
10
0

f (kHz)
0

Tlcommunications,

2
TSI

4
Jean-Marie Gorce

Sons non voiss


Bruit blanc
(souffle)

PSD [ch]

30

(dB)

20
10
0
-10
-20
0

Tlcommunications,

5
f (kHz)
TSI

Jean-Marie Gorce

10

Non stationnarit : le spectrogramme


bonjour

0.6
0.4
0.2
0
-0.2
-0.4
0

0.1

0.2

0.3

0.4

0.5
t (s)

0.6

0.7

0.8

0.9

0.1

0.2

0.3

0.4

0.5
t (s)

0.6

0.7

0.8

0.9

2
f (MHz)

1.5
1

0.5
0
0

Tlcommunications,

TSI

Jean-Marie Gorce

sachez parler

0.1
0.05
0
-0.05
-0.1
0

0.1

0.2

0.3

0.4

0.5 0.6
t (s)

0.7

0.8

0.9

0.1

0.2

0.3

0.4

0.5 0.6
t (s)

0.7

0.8

0.9

4
f (MHz)

3
2
1
0
0

Tlcommunications,

TSI

Jean-Marie Gorce

Signal alatoire :

Transforme de Fourier
Signal
Densit spectrale de puissance

Processus stationnaire, ergodique


Plusieurs ralisations,
Energie finie

Tlcommunications,

DSP=mean(TSF)

TSI

Jean-Marie Gorce

Processus gaussien non corrl

Signal
Signal

Fourier

DSP

Tlcommunications,

TSI

Jean-Marie Gorce

IV-Modlisation paramtrique
La modlisation paramtrique prsente repose sur les proprits
de la transforme en z et de la modlisation ARMA
(filtres IIR; FIR).

Quelques rappels :
- transforme en z
-modlisation ARMA
-les diffrentes reprsentations des modles AR
Tlcommunications,

TSI

Jean-Marie Gorce

1) La transforme en z
la transforme en Z est aux signaux chantillonns ce que la
transforme de Laplace est aux signaux continus (automatisme)

df.

X( z) x k z

X(z) est dfinie comme la


somme dune srie relative
aux chantillons temporels x[k]

tude du domaine de convergence en fonction de z


prop.

linarit
dcalage temporel
convolution temporelle

Tlcommunications,

TSI

cf. cours
TSI
Jean-Marie Gorce

liens avec la transforme de Fourier discrte


si on restreint lespace de z au cercle unit, z=e(j) , on retrouve
la transforme de Fourier :
j

Xd (f ) X( z e )

j2 fk
x
[
k
]

Im(z)

la priodicit du spectre
apparat naturellement, en
fonction de la frquence
dchantillonnage

f=0
|z|<1
Re(z)
f=fe

Tlcommunications,

TSI

Jean-Marie Gorce

Fonction de transfert numrique H(z)


x[k]

y[k]=(x*h)|k

h[k]
H(z)

X(z)

Y(z)=X(z).H(z)

z=exp(j2f)
Xd(f)

z=exp(j2f)
Yd(f)

Hd(f)

Comme pour la TFD, le passage dans le domaine des z, permet


de remplacer lopration de convolution par une opration de
multiplication => mathmatiquement trs intressant
Tlcommunications,

TSI

Jean-Marie Gorce

cas spcifique o H(z) est un polynme du type


H ( z)

b 0 b1 z 1 ... b q z q
1 a 1 z 1 ... a p z p

Tous les ples dans le cercle unit => stabilit du filtre


Tous les zros dans le cercle unit =>phase minimale
remarques :
a0=1 pour unicit du modle
ai, bi rels si signal rel
factorisation numrateur => q zros
factorisation dnominateur => p ples
Tlcommunications,

TSI

Jean-Marie Gorce

intrt de cette structure


y( k ) a 1 y( k 1) ... a p y( k p ) b 0 x( k ) b1x( k 1) ... bp x( k p )

expression dans le domaine temporel


Y(z)=X(z).H(z)
expression dans le domaine spectral

H(f ) H( z e j )
Tlcommunications,

b 0 b1 e j ... b q e jq
1 a1 e j ... a p e jp
TSI

Jean-Marie Gorce

2) Modlisation ARMA

def. dun gabarit

problme de filtrage :
x[k]

y[k]

H (z)

x[k]

problme de modlisation:
u[k]

Tlcommunications,

H (z)

TSI

y[k]
-

Jean-Marie Gorce

e[k]

modlisation ARMA (moving average autoregressive)


- les zros caractrisent la partie moyenne ajuste.
- les ples caractrisent la partie autorgressive.
modlisation MA (moyenne ajuste)
- modle tout zros
spectres doux
modlisation AR (autorgressive)
- modle tout ples
- algorithmes destimation trs rapides.
- spectres prsentant des pics.
MA
AR ordre infini
Tlcommunications,

TSI

Jean-Marie Gorce

p=0.85
p=0.6
p=0.3

Exemple de modles AR, 1 ple rel


rponse impulsionnelle

rponse spectrale
20

position des ples

0.9
0.25

15

0.8
0.7
(dB)

0.6
0.5
0.4

10

0.5
-0.5

0.3
0.2

-0.25

0.1
0
0

50

Tlcommunications,

-5
-0.5

0
TSI
fr

0.5
Jean-Marie Gorce

p=0.85; 0.3
p=0.85 exp(j/4)
p=0.3 exp(j/2)

Exemple de modles AR, 2 ples conjugus


rponse impulsionnelle

rponse spectrale

position des ples

20

0.25

15

(dB)

0.5
-0.5

10

0
5

-0.25

-1

-5

50 -0.5

Tlcommunications,
n

TSI

0
f

0.5

Jean-Marie Gorce

3) Modlisation ARMA de la parole


reprsentation shmatique du signal de parole :
source

Canal n

Canal 1

la source peut tre un bruit blanc (sons non voiss ou chuchots)


ou 1 train priodique pour les sons voiss.
le conduit vocal peut tre reprsent par une succession de tubes acoustiques,
(pharynx, cavit buccale, nasale) modliss par des rsonateurs.
lmetteur, lvres ou narines, reprsente une charge acoustique pour londe
sonore qui y arrive.

Tlcommunications,

TSI

Jean-Marie Gorce

source pour les sons voiss


G0
G ( z)
1 z 1 1 z 1

xv(k)

G(z)

rponse spectrale
60

rponse impulsionnelle
10

50

=0.97, =0.85,
fE=44kHz

(dB)

40

30
20
10

00

00

100 200 300 400 500


n

Tlcommunications,

TSI

2
f (kHz)

Jean-Marie Gorce

Source (sortie de G(z) ) pour les sons voiss

5
4
3
2
1
0

500

1000

1500

2000

n
fE=44kHz

Tlcommunications,

TSI

Jean-Marie Gorce

2500

source pour les sons non voiss

Tlcommunications,

TSI

Jean-Marie Gorce

canal ou tube acoustique


La rponse acoustique dun tube est caractrise par un rsonateur.
La rponse dun rsonateur est donne par

Ai
Vi ( z)
1 a 1,i z 1 a 2,i z 2

modle AR dordre 2

Chaque rsonateur est un formant dont la frquence centrale est :

1
1 a 1, i / 2
Fi
f E cos

2
a 2,i

Le conduit vocal est donc bien modlis par un modle AR, ordre 2n

V ( z)

1
2
1

a
z

a
z
1,i
2,i
i1

Tlcommunications,

TSI

Jean-Marie Gorce

rponse spectrale

rponse impulsionnelle

1.5

position des ples

11kHz

(dB)

0.5

-2
-4

22kHz

-6

-8
-11kHz

-10

-0.5

-12
-14

-1
0

50
n

100

Tlcommunications,

5
f (kHz)
TSI

Jean-Marie Gorce

Lmetteur (lvres ou narines)

La pression observe une certaine distance des lvres est proportionnelle


la drive du volume des lvres :

R ( z) C 1 z 1

Tlcommunications,

modle MA dordre 1

TSI

Jean-Marie Gorce

Son vois
Vn(z)

V1(z)

G(z)

R(z)

V(z)

T( z)

1 a

T0 1 z 1

1 z

1 z

i1

1
2
z

a
z
1i
2i

qui tend vers 1 modle AR dordre 2n+1, si un des ples de G(z)


est proche de lunit
Tlcommunications,

TSI

Jean-Marie Gorce

Son nasalis
les sons nasaliss font intervenir simultanment les cavits nasale et bucale.

G(z)

T( z )

V1(z)

T1
T2
A ( z)T1 A 1 ( z)T2

2
A 1 ( z) A 2 ( z)
A 1 ( z) A 2 ( z)

Tlcommunications,

TSI

Vn(z)

R(z)

V (z)

R(z)

modle ARMA

Jean-Marie Gorce

4) En rsum
complexit de la production de la parole (sons voiss,
occlusifs etc...).
principales proprits spectrales du signal de parole
(lectrique ou acoustique) : fondamentale, harmonique,
formants, bande passante vocale, non stationnarit,
stationnarit locale (20ms), signal stochastique
modles ARMA dun processus physique (intrt pour le
codage)
un modle AR pouvait suffire dans certains cas.
Tlcommunications,

TSI

Jean-Marie Gorce

Traitement de la parole
-Le codage de la parole-

Tlcommunications,

TSI

Jean-Marie Gorce

Problmatique du codage
qualit
dbit
complexit

cot

Compression

Tlcommunications,

TSI

Jean-Marie Gorce

Exemple :
norme CCITT G.711
chantillonnage : 8kHz
Quantification : non uniforme (A-law ou -law) sur 8 bits
Dbit : 64kb/s

Tlcommunications,

TSI

Jean-Marie Gorce

A-La quantification scalaire


(quantization)

Lchantillonnage

La quantification uniforme

La quantification non uniforme

La quantification diffrentielle

La quantification adaptative

Tlcommunications,

TSI

Jean-Marie Gorce

I-Lchantillonnage
(sampling)

Frquence d chantillonnage ???


Tlcommunications,

TSI

Jean-Marie Gorce

Recouvrement spectral
PSD [ch]

30

(dB)

20
10
0

-10
-20
0

5
6
f (kHz)

Thorme de Shannon : fmax=Fe/2


filtre anti-repliement (anti-aliasing)
Initial
Tlcommunications,

aliased
TSI

prefiltered
Jean-Marie Gorce

10

II-La quantification

Exemple : quantification sur 3 bits

Tlcommunications,

TSI

Jean-Marie Gorce

1 quelques dfinitions
La quantification
x

Q(x)

y D q ; D q q1 , , qn

- L : nombre de valeurs quantifies


- b : nombre de bits de codage; L = 2b
- x(0) ... x(L) : niveaux de dcision
- x(0),x(L) : seuils
- (i)=x(i)-x(i-1) : pas de quantification
- y(1) ... y(L) : valeurs quantifies

Tlcommunications,

TSI

Jean-Marie Gorce

Lerreur de quantification : q(x)=Q(x)-x


- granulation : erreur lie au nombre de valeurs choisies (e2)
- saturation : erreur lie au dpassement des seuils (d2).
q(n)
x(n)

q(n)
+

y(n)

signaux alatoires
le signal de parole est considr comme un signal alatoire
moyenne nulle et variance x2.
lerreur de quantification sera donc appele bruit de
quantification, en gnral moyenne nulle (0, e2).
Tlcommunications,

TSI

Jean-Marie Gorce

VS ???

[sachez parler]

histogramme

Tlcommunications,

-0.1
TSI

0.1

Jean-Marie Gorce

facteur de charge
=xs/ x
Rapport Signal-Bruit (RSB ou SNR)

x2

RSB 10 log 2
2
e d

[dB]

RSB 6.02 b 4.77 20 log( )

Tlcommunications,

TSI

Jean-Marie Gorce

2 la quantification uniforme
dfinition :
- y(i)=1/2 ( x(i-1)+x(i) )
-(i)= qlqsoit i
-valeurs seuils : -xs, xs
proprits :
- =2 xs /L
- erreur de granulation |e|< /2

Tlcommunications,

TSI

Jean-Marie Gorce

Tlcommunications,

TSI

Jean-Marie Gorce

Tlcommunications,

TSI

Jean-Marie Gorce

3 la quantification non-uniforme

Tlcommunications,

TSI

Jean-Marie Gorce

Transformation non-linaire pralable


q(n)
x(n)

Compression
des
amplitudes

Dilatation
des
amplitudes

y(n)

Signal de distribution uniforme

Tlcommunications,

TSI

Jean-Marie Gorce

Norme: Modulation par Impulsions Codes (MIC, 64kbits/s)


(Pulse Code Modulation, PCM)
ch.
fE=8kHz

Filtre
100-3400Hz

Compression
d amplitude

Quantification
8bits

Norme europenne

F( x )

Ax
1 ln( A )

F( x) x max

sgn( x); 0

1 ln( A

x
x max

A 1

)
x
x max
1
sgn( x); A
1
1 ln( A )
x max

Tlcommunications,

TSI

Jean-Marie Gorce

Reprsentation de la loi de compression

Tlcommunications,

TSI

Jean-Marie Gorce

Tlcommunications,

TSI

Jean-Marie Gorce

Tlcommunications,

TSI

Jean-Marie Gorce

III-La quantification diffrentielle


(differential quantization)
1 Principe

q(n)

x(n)

r(n)
z-1

x(n-1)

Dcorrlation >>>

Tlcommunications,

y(n)

r2 2 x2 1 x (1)
TSI

Jean-Marie Gorce

2 Gain RSB
Si x(1)>0.5, r2 < x2,
A nombre de niveaux constant, on peut rduire le pas de quantification
et amliorer le RSB dans un rapport r2/ x2

RSB 10 log(

Tlcommunications,

21 x (1)

TSI

Jean-Marie Gorce

3 Mise en uvre codage-dcodage


q(n)
x(n)

r(n) +
z

-1

t(n)

y(n)
+
y(n-1)

x(n-1)

y(n)=x(n)+e(n);

z-1

e(n)=q(n)+e(n-1)

Intgration de l erreur !!!!


Tlcommunications,

TSI

Jean-Marie Gorce

Ide : coder la diffrence par rapport la sortie


q(n)
x(n)

r(n) +
-

t(n)

y(n)
+
y(n-1)

y(n-1)

z-1

Remarque : OK si le signal est correctement cod ; quantification suffisante

Tlcommunications,

TSI

Jean-Marie Gorce

Dlocalisation du dcodage
q(n)
x(n)

r(n) +
-

t(n)

y(n)
+
y(n-1)

y(n-1)

z-1

z-1
+

Tlcommunications,

TSI

Jean-Marie Gorce

4 Prdiction linaire
r(n)=x(n)-x(n-1)

r(n)=x(n)-a1.x(n-1) - a2.x(n-2) - - ap.x(n-p)

Variance de l erreur faible.


Erreur = bruit blanc
Justification de ce modle
daprs la thorie de la parole

Quel ordre p ?
Quels paramtres AR ?
Quel gain ?

Tlcommunications,

TSI

Jean-Marie Gorce

Modlisation AR
q(n)
x(n)

r(n) +
-

t(n)

y(n)
+
y(n-1)

y(n-1)

P(z)

P(z)
+

P(z)=a1z-1 + a2z-2 + ... + apz-p


Tlcommunications,

TSI

Jean-Marie Gorce

2 Systme DPCM (MICD)


0.1
0.05
0
-0.05
-0.1

20ms (160 ech);


8kHz
ARMA(6,2);
2-5 bits/ech. (16-64 kb/s)

Tlcommunications,

TSI

Jean-Marie Gorce

IV-La quantification adaptative


(adaptive quantization)
1 Principe : adapter au fur et mesure les paramtres (AR, gain)
du signal de parole
couple avec la quantification diffrentielle

Modulation par Impulsions Codes Diffrentielle Adaptative (MICDA)


Adaptive Differential Pulse Code Modulation (ADPCM)

Tlcommunications,

TSI

Jean-Marie Gorce

Disponible sur le site Texas Instrument


http://www.ti.com/sc/docs/psheets/abstract/apps/bpra053.htm

Tlcommunications,

TSI

Jean-Marie Gorce

4) En rsum
systme PCM : fe=8kHz, 8pts/ech. 64kb/sec,
Systme ADPCM : fe=8kHz, 4<.<8pts/ech. 16-64kb/sec
Objectif :
<16 kb/sec

Moins de
2bits/point !!!!!!!!

Tlcommunications,

TSI

Jean-Marie Gorce

B-La quantification vectorielle

Principe de la quantification vectorielle

Quantification vectorielle prdictive


(CELP).

1 exemple de codeur utilis en tlphonie


cellulaire : GSM.

Tlcommunications,

TSI

Jean-Marie Gorce

I-La quantification vectorielle


(vectorial quantization)
1 Principe : Regrouper les chantillons pour les transmettre.
Mieux rentabiliser chaque bit utilis.

V(m)

Rgle du
plus proche
voisin

i(m)

V1V L

Inspection V(m)
dans une
table

V1V L

V(m ) x m 1 N 1 m N

Tlcommunications,

TSI

Jean-Marie Gorce

Exemple pour M=2 : le codage vectoriel permet d adapter la


rpartition des codes.

Tlcommunications,

TSI

Jean-Marie Gorce

2 Algorithmie : Comment choisir le dicitonnaire ??


algorithme de Lloyd-Max
1- Initialiser le dictionnaire >> niveaux
2- Appliquer la rgle du plus proche voisin
(minimiser lerreur de codage) >> seuils implicites
3- Appliquer la rgle du centrode
(minimiser lerreur de dcodage) >> niveaux
4- Refaire 2 et 3 jusqu convergence...
Tlcommunications,

TSI

Jean-Marie Gorce

II-LPC (linear predictive coding)


1 Principe : Minimiser la corrlation entre chantillons cods
simultanment pour simplifier le travail du dictionnaire .
V(m)

A(z)

R(m)
-

Optimisation
des paramtres AR
pour chaque vecteur

Rgle du
plus proche
voisin

i(m)

R1R L

V(m)
Inspection R(m)
1/A(z)
dans une
table

R1R L

Coder l erreur aprs modlisation AR

V(z) = Bruit(z)/A(z)

Tlcommunications,

TSI

Jean-Marie Gorce

2 Codeur prdictif excit par des codes (Code Excited


Linear Predictive Coding, CELP) :
Minimiser les distorsions en minimisant l erreur relative
au signal initial.
V(m)

Rgle du
plus proche
voisin

i(m)

Inspection
dans une
table

V1V L
1/A(z)

VM
AR(m)

1/A(z)

R1R L

Tlcommunications,

R1R L
TSI

Jean-Marie Gorce

V(m)

3 Prdiction long terme (long terme prediction, LTP) :


Ajouter un 2ime tage de prdiction pour prendre en compte
la priodicit des sons voiss....
4 Introduction d un facteur perceptuel
(prfiltrage W(z)) :
Utiliser les principes de masquage du son pour concentrer
l erreur dans les zones non perceptuelles
(cf. cours sons audio).

Tlcommunications,

TSI

Jean-Marie Gorce

III-Codeurs GSM

passe-haut
(>80Hz)

Estimation
AR

Prdiction
long terme

Modlisation
du bruit

Paramtres AR
Paramtres b,Q
Index du dictionnaire

Tlcommunications,

TSI

Jean-Marie Gorce

Norme GSM, FR (Full Rate)


(RPE-LTP, Regular Pulse Excitation with Long Term Prediction)

1- Pr-accentuation H(z)=(1-0.86z-1 )
2- LPC ordre 8, algorithme de Schur sur N=160chantillons.
Codage des coefficients sur 36bits/fen160ech
1.8kbit/s
3- Prdiction long terme (2 coefs b et Q) sur fentres N=40ch.
Codage des coefficients (7+2)bits/fen40ech
1.8
4- Sous chantillonnage par 3 =>4 signaux de 13 ch.
On garde seulement le plus nergtique (2bits).
Quantification non uniforme sur 3bits des 13 ch.
Quantification non uniforme du facteur dchelle sur 6bits.
Codage (2+3*13+6)bits /fen40ech
9.4kbit/s
13kbit/s
Tlcommunications,

TSI

Jean-Marie Gorce

Norme GSM, EFR (Enhanced Full Rate)


(CELP Code Excited Linear Prediction)
(GSM 06.60 version 6.0.1, release 1997)

http://www.etsi.org/
P:/gorceGSM_juillet2000

1- Pr-filtrage (passe-haut, 80Hz)


2- LPC ordre 10, par fentres pondres, N=160 chantillons
Codage des coefficients sur 38bits/fen160ech
1.9kbit/s
3- Prdiction long terme (2 coefs b et Q) sur fentres N=40ch.
Codage des coefficients (9;6 +4)bits/fen 40ech
2.3kbit/s
4- Dictionnaire structure algbrique.
Codage des coefficients 35 bits/fen 40ech
Codage du gain statique 5bits/fen 40 ech

7 kbit/s
1 kbit/s
12.2kbit/s

Tlcommunications,

TSI

Jean-Marie Gorce

2- LPC ordre 10, par fentres pondres, N=160 chantillons

f1

f2

f3

f4

Estimation d un modle AR ordre 10 aprs fentrage WI(n) et WII(n) :


- directement modles pour les sous-fentres f2 et f4.
- par interpolation modles pour les sous-fentres f1 et f3.

Tlcommunications,

TSI

Jean-Marie Gorce

Codage des coefficients AR (2 vecteurs) sous forme d une matrice, pour les 2 fentres.
(on code ensemble les modles des 4 sous fentres d un frame
Rem : on ne code pas directement les coefficients AR, mais des coefficients
quivalents dans un espace frquentiel quivalent. (LSF, linear spectral frequencies)
On obtient en sortie un bruit
Filtre de blanchiment

H( z ) A z
Filtre de synthse quantifi

Tlcommunications,

TSI

Jean-Marie Gorce

A( z )
W( z )
A z /

2b- filtrage perceptuel

Limiter le bruit de quantification dans les zones frquentielles


haute nergie (formants)

s(t)

|S(z)|

|W(z)|

Tlcommunications,

TSI

Jean-Marie Gorce

Rsum de la phase de prdiction linaire

s(n)

(z)

w(n)

w(n)

A(z)/A(z/)

160 ch.

Paramtres AR dfinis pour des fentres de 40 ch. (5ms)


(z)=1+ a1.z-1 + a2.z-2 + +a10.z-10

Transmission et codage des paramtres d une fentre sur 2


regroupement par 2 :
codage sur 38bits pour 160 chantillons (20ms), de la diffrence avec les vecteurs
prcdents.

Tlcommunications,

TSI

Jean-Marie Gorce

s(n)

w(n)

Reste une certaine priodicit >>> Prdiction long terme

Tlcommunications,

TSI

Jean-Marie Gorce

3- Prdiction long terme


pitch synthesis filter

1
1
H LT ( z )

B z 1 bz Q

y(n)=e(n)+b.y(n-Q)
i.e. priodicit de priode Q.

Filtrage
w(n)

B(z)

w(n)

160 ch.

Paramtres b,Q dfinis


pour des fentres de 40 ch.
B(z)=1-bz-Q

Tlcommunications,

TSI

Pour b : 4bits / sous-fentre


Pour Q, codage sur les sous-fentres
- codage f1 et f3 (9bits x2)
- codage de la diffrence pour f2 et f4
(6bits x2).
Jean-Marie Gorce

4- Codage Par dictionnaire algbrique


Dans une fentre, codage des 10 / 40 chantillons les plus forts
10 ech = 5 mots de 2 impulsions

Mot Code

Impulsions Positions

i0, i5

0,5,10,15,20,25,30,35

i1, i6

1,6,11,16,21,26,31,36

i2, i7

2,7,12,17,22,27,32,37

i3, i8

3,8,13,18,23,28,33,38

i4, i9

4,9,14,19,24,29,34,39

Tlcommunications,

TSI

Jean-Marie Gorce

Codage de l erreur W(n) par mots codes : c1+c2+c3+c4+c5


Minimisation de l erreur de synthse
Mot Code i : 2 impulsions =>
- position de chaque impulsion (8 positions) sur 3bits.
- signe de la premire sur 1 bit (l autre signe est dduit).

code Gray

000

001

011

010

Code transmettre : 1 101 011

110

111

101

100

7 bits par mot code => 35 bits / ssfen

Codage d un coefficient de gain statique :


Conservation de l nergie du signal

Tlcommunications,

TSI

5 bits /ssfen
Jean-Marie Gorce

En rsum
Codage de base (PCM) 64kbit/s. qualit tlphonique
(pas audio).
Codage adaptatif diffrentiel (ADPCM), mme qualit
32kbit/s. Acceptable jusqu 16kbit/s.
Codage vectoriel : regrouper les valeurs coder pour
diminuer la redondance. Autour de 10kbit/s. (militaire :
4.kbit/s).
Complexit des mthodes hybrides. Augmentation des
performances. Codage en sous-bandes???
Tlcommunications,

TSI

Jean-Marie Gorce

Traitement de la parole
-Le codage du son-

Tlcommunications,

TSI

Jean-Marie Gorce

Problmatique du codage
qualit
dbit
complexit

cot

Compression

Tlcommunications,

TSI

Jean-Marie Gorce

A-Qu est-ce qu un son ?

La parole (cf. cours prcdent)

La musique

Les autres sons

Tlcommunications,

TSI

Jean-Marie Gorce

I-La parole
(rsum)
Proprits connues :
- fmax=3,4kHz (=> Fe=8kHz)
- Processus de formation (formants, pitch, harmoniques)
- Modlisation AR performante.
- Loi de distribution ~ Laplace (=>A-law, -law)
Objectif :transmission d un
message comprhensible
et reconnaissance du locuteur

Mise en uvre de codeurs spcifiques trs performants


Tlcommunications,

TSI

Jean-Marie Gorce

II-La musique
(naturelle ou synthtique)
1 Les notes
pitch, fondamental, tonalitdo, re.

mme note,
octave diffrente
0

La
La
110Hz 220Hz

Tlcommunications,

La
440Hz

TSI

f
1 octave = x2
Jean-Marie Gorce

2 Les harmoniques
1

-1

Tlcommunications,

10

15
TSI

20
Jean-Marie Gorce

25

3 Le timbre (forme d onde; waveform)

Tlcommunications,

TSI

Jean-Marie Gorce

4 Musique :
- Somme de plusieurs notes (pitch)
- Diffrentes formes d ondes (les instruments)
+ chant =parole module.

IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE

Tlcommunications,

TSI

Jean-Marie Gorce

III-Les autres sons


Applications : TVHD, Vido, Multimdia .
Les bruits ambiants, les onomatopes, etc.
Bruits sourds (chute d eau)
Bruits brusques (bris de glace)

= transmettre tout ce qui est susceptible d tre peru


par l auditeur.

Tlcommunications,

TSI

Jean-Marie Gorce

B-Codage Audio

codeur

dcodeur

metteur

Rcepteur

N autoriser que les pertes non perceptibles

Tlcommunications,

TSI

Jean-Marie Gorce

I-Modle psychoacoustique
1 Bande passante : Seuil daudibilit dune sinusode

BP=[20Hz ; 20kHz]
Tlcommunications,

TSI

fE>40kHz
Jean-Marie Gorce

3 Masquage frquentiel

(f1,P1=80 dB) : sinusode masquante


(f2,P2) : P2 mettre pour entendre f2

Tlcommunications,

TSI

Jean-Marie Gorce

2 Bandes critiques frquentielles (critical bands)


Dtection
de f+df
Passage
des Hertz
au??
Bark
10

Bark

f
f

B f 6 log

600
600

10

Tlcommunications,

100

f(Hz)
TSI

1k

10k

Jean-Marie Gorce

Courbes de masquage >> segments de droite indpendante de f 1

Tlcommunications,

TSI

Jean-Marie Gorce

Exemple de bande critique en BF (120Hz)


2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0

1 bark

20

40

60

80

100

120

140

160

180

200

32 bandes critiques de 20 Hz 20 kHz, f : 80-3500 Hz

Tlcommunications,

TSI

Jean-Marie Gorce

4 Masquage temporel
Aprs un son relativement fort, masquage de la bande critique
(et voisines) pendant un certain dlai.

Tlcommunications,

TSI

Jean-Marie Gorce

4 Masquage frquentiel et temporel

Tlcommunications,

TSI

Jean-Marie Gorce

5 Nouvelle approche de compression :


utilise dans MPEG
Principe : utiliser les proprits de masquage de certaines
zones de frquence pour rduire le dbit ncessaire.
Pertes non perceptibles
Passage dans le domaine de Fourier ncessaire

Codage en sous-bandes
Tlcommunications,

TSI

Jean-Marie Gorce

II-norme MPEG Audio


1) Etat des lieux
Qualit Audio Numrique
44.1kHz
16bit (96dB relativement au seuil d audibilit)
loi de distribution inconnue (pas de A-law)
stro

Dbit de 1,4Mbit/s

Tlcommunications,

TSI

Jean-Marie Gorce

2) Objectifs
Stockage (CD) : morceau de musique de 50
1.4Mbit/s*50*60=5.05Gbit=630MO
Transmission (TVHD, multimedia) : temps rel
diminuer le dbit pour amliorer les capacits de
transmission.

Compression sans pertes audibles


Normalisation ncessaire
Tlcommunications,

TSI

Jean-Marie Gorce

3) MPEG Audio
Moving Pictures Coding Experts Group
http://drogo.cselt.it/mpeg/
Janvier 1988 : naissance, groupe mandat par ISO/EIC
MPEG = normalisation vido / audio / system
MPEG-1 : qualit VHS sur CD-rom
(352x288 + CD audio @ 1.5Mbit/s)
MPEG-2 : TVHS, multimedia
==>TV numrique
AAC (fin Avril97) Advanced Audio Coding
MPEG-4 : diminuer le dbit; coder infos complmentaires
==>Multimdia
Tlcommunications,

TSI

Jean-Marie Gorce

4) MPEG-1 audio
3 couches dfinies (qualit/complexit du codage)
pour qualit audio :
Tx de rduction
layer 1 : 384 kb/s
layer 2 : 256192 kb/s
layer 3 : 128112 kb/s

1/4
1/6..1/8
1/10..1/12

Mais diffrentes frquences d chantillonnage et dbits


autoriss (32kHz, 44.1kHz, 48kHz)

Tlcommunications,

TSI

Jean-Marie Gorce

Qualit de compression, couche 3


sound quality
telephone
sound
better than
shortwave
better than
AM radio
similar to
FM radio
near-CD
CD

bandwidth

mode

bitrate

reduction
ratio

2.5 kHz

mono

8 kbps *

96:1

4.5 kHz

mono

16 kbps

48:1

7.5 kHz

mono

32 kbps

24:1

11 kHz
15 kHz
>15 kHz

stereo
stereo
stereo

56...64 kbps
96 kbps
112..128kbps

26...24:1
16:1
14..12:1

*) Fraunhofer uses a non-ISO extension of MPEG Layer-3


for enhanced performance ("MPEG 2.5")
From the Fraunhofer Institute for Integrated Circuits, Applied Electronics
Center, IIS-A, http://www.iis.fhg.de/about/index.html

Tlcommunications,

TSI

Jean-Marie Gorce

Principe gnral de MPEG-1 (et suivants)

in

Filtres
Dcomposition
en bandes critiques

Allocation des
bits (f())

Quantification
+Codage

Exploitation
masquage

Tlcommunications,

TSI

Jean-Marie Gorce

384 ech.

Layer 1 : Masquage frquentiel + QScal


Layer 2 : + Masquage temporel
Layer 3 : + Redondance stro + Huffman

Tlcommunications,

TSI

Jean-Marie Gorce

III-Codage en sous-bandes
1) Sous-chantillonnage

Tlcommunications,

TSI

Jean-Marie Gorce

Spectre d un signal chantillonn


A

-fE

-fE/2

f0

fE/2

fE

Composante continue ??

Constante, Sinusode f0=fE, ou f0=2.fE


Tlcommunications,

TSI

Jean-Marie Gorce

Recouvrement spectral
A

-fE

-fE/2

f0

fE/2

fE

Sous-chantillonnage
A/2

-fE

-fE/2

Tlcommunications,

f0

fE/2
TSI

fE
Jean-Marie Gorce

Filtre anti-repliement
A/2

-fE

-fE/2

f0

fE/2

fE

fE/4
A/2

-fE

-fE/2

Tlcommunications,

f0

fE/2
TSI

fE
Jean-Marie Gorce

2) Dcomposition en 2 sous-bandes
A
-fE

-fE/2

f0

fE/2

fE

fE/2

fE

Priodicit!!!
A
-fE

-fE/2

Tlcommunications,

f0
TSI

Jean-Marie Gorce

Reprsentation des 2 sous-bandes


A
-fE

-fE/2

f0

fE/2

fE

A
-fE

-fE/2

Tlcommunications,

f0

fE/2
TSI

fE
Jean-Marie Gorce

Sous-chantillonnage des 2 sous-bandes


A/2
-fE

-fE/2

f0

fE/2

fE

A/2
-fE

-fE/2

Tlcommunications,

f0

fE/2
TSI

fE
Jean-Marie Gorce

3) Sur-chantillonnage
A

-fE

-fE/2

f0

fE/2

fE

-2.fE

-fE -fE/2 f0 fE/2 fE

Tlcommunications,

TSI

2.fE
Jean-Marie Gorce

dans le domaine temporel

Tlcommunications,

TSI

Jean-Marie Gorce

Filtre passe-bas=interpolateur
A

-2.fE

-fE -fE/2 f0 fE/2 fE

Tlcommunications,

TSI

2.fE

Jean-Marie Gorce

4) Sous / Sur-chantillonnage d un facteur m


perte d information
x(n)

xSE(n)

H(z)

Tlcommunications,

F(z)

TSI

xSE(n)

x(n)

Jean-Marie Gorce

Schma de principe de la dcomposition en 2 sous-bandes

x(n)

H0(z)

N points
2

H1(z)

x0(n)
N/2 points
x1(n)
N/2 points

H0 : filtre rel [0; fe/4]


H1 : filtre rel [fe/4; fe/2]

Tlcommunications,

TSI

Jean-Marie Gorce

5) Gnralisation en N sous-bandes
N/m points
x(n)
N points

H0(z)
H1(z)

Hm(z)

Tlcommunications,

x0(n)

m F0(z)

x1(n)

m F1(z)

xm(n)

m Fm(z)

TSI

Jean-Marie Gorce

Tlcommunications,

TSI

Jean-Marie Gorce

6) Les problmes techniques


1) Le choix des filtres H : parfaits => IIR
2) Approximation => choix des filtres F adapts
(transforme en Cosinus)
3) Slectionner la bonne longueur de vecteur initial
4) Nombre de bandes de frquences

Tlcommunications,

TSI

Jean-Marie Gorce

7) Les progrs MPEG-2, 4


Utiliser le modle psycho-acoustique pour choisir le nombre
de bits par bande de frquence.
Utiliser une rpartition non homogne de l chelle
des frquences.
Utiliser la redondance entre voies stro (ou 5 voies, surround).
Intgration du codage vectoriel / prdiction linaire sur les
bandes de frquences.

Tlcommunications,

TSI

Jean-Marie Gorce

IV-Conclusion
Codage
parole
(tlphonie)
full-duplex

Codage
audio
(musique)

Un bon codeur = rpondre des contraintes spcifiques


au plus prs.

Interactions entre vectoriel / sous-bandes

Tlcommunications,

TSI

Jean-Marie Gorce

Das könnte Ihnen auch gefallen