Theo Inf

LMENTS DE THORIE DE LINFORMATION
POUR LES COMMUNICATIONS.

a thorie de linformation est une discipline qui sappuie non seulement sur les (tl-)
communications, mais aussi sur linformatique, la statistique, la physique statistique, la
thorie de linfrence.
Il est indniable que le dveloppement des communications a nourri la thorie de
linformation et inversement. Une contribution fondamentale et extrmement importante est
larticle de C.E. Shannon, A mathematical theory of communications , paru dans le journal
de ATT Bell, en 1948. (Cet article a t ensuite rdit sous la forme dun livre, curieusement
cette fois-ci avec un co-auteur).
La presque totalit de ce cours est contenue dans larticle original de Shannon. On
prsentera dabord lentropie (dite de Shannon) comme mesure dinformation.
laide des notions dinformation, ou dentropie, on introduira ensuite trois thormes de
Shannon.
- Le premier thorme indique quune source, dentropie H, peut tre code de faon
dchiffrable, avec des mots dont la longueur moyenne est borne par lentropie de la source.
Lentropie H reprsente alors une limite fondamentale sur la longueur moyenne minimale des
mots utiliss pour coder la source.
- Le second thorme de Shannon, ou thorme du codage de canal, ou thorme du
canal bruit, est tout aussi fondamental, et peut tre plus. Ce thorme indique que si
lentropie de la source est infrieure ou gale la capacit du canal, alors il est possible de
L
2 lments de thorie de linformation pour les communications
trouver un code tel que la probabilit derreur lors de la transmission soit aussi faible que lon
veut.
- Le troisime thorme de Shannon, appel thorme de la capacit dinformation,
permet de relier la capacit dinformation la bande du canal, la puissance transmise et la
puissance du bruit additif. Il fournit en outre la capacit limite (lorsque la bande tend vers
linfini), et la limite de Shannon.
Avant de poursuivre, un point essentiel, emprunt au Professeur G. Demoment (poly
Thorie de linformation, licence EEA, Orsay).
Lexpditeur et le destinataire dun tlgramme ont des attitudes diffrentes de celles de
lemploy de la Poste : pour les deux premiers, le message a une signification. Pour lemploy
de la Poste, cette signification est indiffrente ; il compte les caractres quil transmet en vue
de faire payer un service : la transmission dune quantit dinformation proportionnelle
la longueur du texte.
La thorie de linformation est un outil, dvelopp pour et par lingnieur charg de
concevoir un systme de transmission, et les notions probabilistes nont de sens clair que de
son point de vue.
1. Incertitude, information et entropie
Le problme de rfrence est le suivant : on considre un alphabet E de N lments, et
on sintresse un message de longueur K compos laide des lments de E.
Lensemble des mots de longueur K, que lon note E
k
, est de cardinal N
k
. On suppose
que les symboles mis par la source sont indpendants ; la source est alors dite source
discrte sans mmoire .
Chaque mot vhicule une certaine quantit dinformation , que lon peut
raisonnablement relier la longueur du mot. On peut chercher quantifier linformation
gagne la rception dun mot de E
k
(o linformation transmise par lemploy de la Poste).
On note I
k
cette information. Celle-ci devrait vrifier deux proprits intuitives :
lments de thorie de linformation pour les communications 3
(a) I(E
k+l
) = I(E
k
) + I(E
l
)
(b) I(E
k
) I(E
k+l
)
Prcisons la signification de lexigence (a). On peut dcomposer lensemble E
k+l
, qui
comprend N
k+l
lments, en N
k
sous-ensembles de N
l
lments. Dans ces conditions, la
slection dun lment de E
k+l
peut tre vue comme la slection dun des sous-ensembles, qui
ncessite une information I(E
k
), suivie par la slection dun lment du sous-ensemble, avec
linformation I(E
l
). Linformation apporte par llment est alors I(E
k+l
)=I(E
k
)+I(E
l
).
La seconde proprit indique que plus lensemble est grand, plus la slection dun
lment ncessite dinformation.
Ces deux proprits suffisent dterminer la forme prise par la mesure dinformation :
I(E
k
) = K.log(N),
o N est le nombre de lettres dans lalphabet, K la longueur du message, et une constante
arbitraire qui fixe la base du logarithme.
En communications, on sintresse souvent des squences binaires, et on impose la
normalisation I(E
2
) = 1, ce qui conduit :
I(E
k
) = Klog
2
(N).
Cette dernire relation est la formule de HARTLEY, propose ds 1928.
Le raisonnement prcdent sappuie implicitement sur une hypothse dquiprobabilit
des mots de mme longueur. Ceci ne sera videmment pas souvent le cas, en fait ds que les
lettres de lalphabet ne seront plus quiprobables.
Considrons un ensemble de N mots M
1
, ..., M
N
, de probabilit doccurrence P
1
, ..., P
N
,
avec P
i
i
N
1
1
.
On peut de la mme faon que prcdemment chercher dfinir linformation porte par la
connaissance dun mot.
Notons I(M
i
) linformation relative un mot de probabilit P
i
. Deux exigences suffisent
encore dterminer la forme de cette information.
(a) I(M
kl
) = I(M
k
) + I(M
l
)
(b) I(M
i
) est une fonction dcroissante de la probabilit P
i
.
La premire proprit illustre le fait que linformation apporte par un mot M
kl
, compos
de deux mots M
k
et M
l
, supposs indpendants, est gale la somme des informations
apportes par ses parties. La seconde exigence indique que linformation apporte par un mot,
ou linformation ncessaire pour le caractriser est dautant plus importante que sa probabilit
est faible.
Ces deux exigences, auxquelles on ajoute une exigence de continuit, conduisent :
I(M
i
) = -log(P
i
),
o la constante est nouveau arbitraire. Comme prcdemment, on utilisera souvent le
logarithme de base 2.
Remarques sur les units :
Lorsquon choisit le logarithme nprien, lunit dinformation est le nat (natural unit).
Lorsquon choisit le logarithme en base 10, lunit est le dit (decimal unit), ou Hartley.
Lorsquon choisit le logarithme en base 2, lunit est le bit (binary unit), ou Shannon, quil ne
faut pas confondre avec le bit de linformatique (binary digit), et qui est simplement un
chiffre binaire.
Linformation tablie ci-dessus nentre pas en contradiction avec la formule de Hartley.
En effet, dans lensemble E
k
, o lon considre tous les mots quiprobables avec la probabilit
N
-k
, on obtient
I(M
i
) = klog(N).
On sintresse galement linformatique apporte en moyenne par ces mots {M
1
, ..., M
N
}.
Cette information caractrisera par exemple linformation moyenne mise par une source.
Cette information ne dpend que de la loi P. On la note H(P), ou H(P1, ..., PN), ou encore
H(x), o x reprsente une variable prenant ces valeurs dans { } M M
N 1
,..., , avec la loi P.
[ ] H(X) = E I(X)
p

P P
i i
i
N
log
1
Cette relation a t tablie par Shannon (1948), et indpendamment par Wiener (1948, dans
son livre Cybernetics).
Le parallle avec lentropie de la thermodynamique et de la physique statistique nest
pas fortuit. Shannon a reconnu avoir t guid par les rsultats de Boltzmann, et lanecdote
conte que cest von Neumann qui a conseill Shannon de baptiser entropie sa mesure
dinformation, en raison de la similitude des expressions, et parce que personne ne sait
vraiment ce quest lentropie .
Les relations entre lentropie de la physique et lentropie de la thorie de linformation ont t
discutes par exemple par Brillouin (Science and Information Theory, Academic Press, 1956).
Lentropie possde plusieurs proprits naturelles que nous donnons ci-aprs :
(i) lentropie est maximale lorsque les vnements sont quiprobables, P
N
i

1
et vaut
alors log( ) N ; cest dans cette configuration que le systme est le moins bien dfini et
que les messages sont les plus surprenants et apportent le plus dinformation.
(ii) linformation est minimale lorsque lun des vnements est certain : le systme est
parfaitement connu, et aucun apport dinformation nest possible.
(iii) pour N vnements quiprobables, lentropie crot avec N.
(iv) lentropie est une fonction positive, continue et symtrique en ses arguments.
(v) linformation acquise en deux tapes sajoute :
H P P H Q Q Q H
P
Q
P
Q
Q H
P
Q
P
Q
N
M M N
( ,..., ) ( , ) ,..., ,...,
1 1 2 1
1
1 1
2
1
2 2
+

_
,
+

_
,
+
o Q P
i
i
N
1
1
, Q P
i
i M
N
2
1
+
sont les probabilits de deux groupes dvnements
distincts 1, ..., M et M+1, ..., N. Linformation moyenne de lvnement total est ainsi gale
la somme des informations moyennes apportes par les deux vnements de la partition,
pondre par leurs probabilits dapparition, et de linformation de partage.
Preuve de (i) :
On tablit dabord une proprit trs importante dans ce cours, et qui est appele dans
beaucoup douvrages le lemme fondamental.
On utilise la proprit ln x x 1, avec galit pour x 1.
On considre deux distributions de probabilit P P P
N
{ ,..., }
1
, et Q Q Q
N
{ ,..., }
1
. On
considre ensuite ( ) D P Q P
Q
P
P
Q
P
i
i
i
k
N
i
i
i
k
N

log
ln( )
ln
2
1 1
1
2
En utilisant ln(x) x-1, on a alors
( ) D P Q P
Q
P
i
i
i
i
N

_
,
1
2
1
1
ln( )
( ) D P Q Q P
i i

1
2
0
ln( )
,
soit ( ) D P Q P
P
Q
i
i
i
k
N

log
2
1
0,
une ingalit fondamentale.
En prenant enfin Q
N
i
i

1
, il reste
P P N
i i
log log ( )
2 2
,
et enfin
( ) ( )
H P P P N
i i
log log
2 2
Autre dmonstration :
On cherche maximiser lentropie
H P P P
i i
( ) log
2
,
sur lensemble des distributions { } P P
N 1
,..., telles que P
i
1.
Ceci est un problme de maximisation sous contrainte, pour lequel on fait appel au
Lagrangien :
( ) L P P P P
i i i
( , ) log + 1

L P
P
P
i
i
( , )
log + 0 1 0,
soit P e
i i

+ 1
, donc tous les P
i
sont gaux et quiprobables, et P
N
i

1
.
On en dduit H P N
max
( ) log( ) .
Exemple : loi de BERNOULLI.
On considre lensemble { } a a
1 2
, , muni des probabilits p et (1-p).
H X P P p p p p
i i
i
( ) log log ( ) log( )
1 1
1
2
H(X) G p=0 ; 1-p=1vnement certain, H X ( ) 0,
G p=1, vnement certain, H X ( ) 0,
G p
1
2
, quiprobabilit, H(X) maximale.
0 1 P
2. Codage de source
Un problme trs important en communications est la reprsentation efficace des
donnes gnres par une source. Ce processus de reprsentation est le codage de source. Pour
tre efficace, lencodeur doit sappuyer sur les caractristiques probabilistes de la source. Les
mots-codes les plus courts seront par exemple affects aux messages les plus frquents, i.e. de
plus forte probabilit.
Ceci est le cas du code Morse. En code Morse, les lettres et les chiffres sont cods en
succession de marque . et despaces _ . La lettre la plus frquente, le E, est ainsi cod
. alors que la lettre la plus rare, Q (en anglais), est code _ _ . _ _ .
On sintresse encoder des messages M
K
en une squence b
K
, de longueur l
K
. La
probabilit du message M
K
est dsigne par P
K
.
La longueur moyenne dun mot-code vaut alors
L P l
K K
K
N
1
.
Cette longueur moyenne reprsente alors le nombre moyen de bits (binary digits) par symbole
source, utilis par le processus de codage (si lalphabet est binaire).
Les mots codes { } C C
N 1
,..., ont mme probabilit que les messages { } M M
N 1
,..., . On
dsigne par { } Q Q
L 1
,..., les probabilits associes chacune des lettres de lalphabet
{ } a a
L 1
,..., . Lentropie de la source, qui est aussi lentropie du code, vaut alors
( ) ( )
H S H C P P
i i
i
L

log
1
.
Lentropie de lalphabet vaut quant--elle
( ) H A Q Q
i i
i
L

log
1
Linformation moyenne par mot code est aussi donne par le produit entre le nombre moyen
de lettres dans le mot et linformation moyenne des lettres :
( ) ( )
H C L H A .
Or,
( )
H A est born par ( ) log L (toutes les lettres quiprobables). On en dduit donc
( ) ( )
H C L L .log ,
soit
( )
( )
L
H C
L
log
.
Lentropie de la source impose donc une limite fondamentale la longueur moyenne
dun mot code utilis pour reprsenter les symboles mis par cette source.
Ce rsultat, le thorme du codage de source, indique quil est possible de reprsenter les
symboles mis laide de mots, dont la longueur moyenne la plus faible est borne par
lentropie de la source. Tout code dont la longueur moyenne serait plus faible ne pourrait
reprsenter, sans erreur de dcodage, les diffrents symboles associs cette source.
En gnral, lalphabet de la source et lalphabet du canal sont diffrents. Un des
premiers buts du codage est de passer de lun lautre. Un autre point est que le code
naturel associ une source est souvent trs redondant. Lobjectif du codage de source est
alors dliminer cette redondance, pour aboutir un code dont la longueur moyenne est la plus
proche possible du rapport entre lentropie de la source et lentropie maximale de lalphabet.
Exemples : codes irrductibles
Les codes irrductibles sont des codes dchiffrables (ou dcodage unique), qui peuvent
tre dcods sans utiliser les mots suivants ou prcdents. Ce sont des codes instantans. Ils
sont construits en utilisant la condition du prfixe.
Condition du prfixe : il nexiste aucun mot-code qui soit le commencement dun autre mot-
code.
Exemple :
M
i
P
i
I II III
M
0
1
2
0 0 0
M
1
1
4
1 10 01
M
2
1
8
00 110 011
M
3
1
8
11 111 0111
Le code nII est ici un code prfixe.
Construction dun code irrductible (binaire)
On divise { } M
+
M M M M
K K N 1 1
,..., , ,..., en deux sous ensembles
{ } M
1 1
M M
K
,...,
et { } M
2 1
+
M M
K N
,..., et on attribue comme premire lettre 0 tous les messages
de M
1
, et comme premire lettre 1 tous les messages de M
2
.
On ritre cette opration en divisant M
1
en deux sous ensembles M
11
et M
12
, puis M
2
en
M
21
et M
22
.
On continue jusqu ce quil ne reste plus quun lment dans chaque sous ensemble.
Le code obtenu ainsi est irrductible. Larbitraire de la construction du code est contenu dans
le choix des divisions en sous ensembles.
Codage de Huffman :
Le codage de Huffman est un code prfixe, qui utilise les statistiques de la source,
lide de base tant dobtenir des ensembles de mme rang {M
1
M
2
}, {M
11
M
12
}, de probabilits
les plus proches possibles.
Lalgorithme est le suivant :
Les symboles sont classs par ordre de probabilit dcroissante. On assigne alors aux deux
symboles de probabilit la plus faible les lettres 0 et 1.
Ces deux symboles sont combins en un nouveau symbole, fictif, dont la probabilit est la
somme des probabilits des symboles lmentaires. La liste des symboles est alors mise
jour. Cette liste est toujours classe, et comporte un lment de moins.
La procdure est ritre, jusqu ce que la liste finale ne contienne plus que deux
symboles, auxquels on assigne les lettres 0 et 1 .
Le code pour chaque symbole initial est alors tabli en repartant lenvers et en notant la
suite de 0 et de 1.
Exemple :
Symbole Probabilit
M
1
M
2
M
3
M
4
M
5
0,6
0,4
0,4
0,2
0,2
0,1
0,1
0,4
0,2
0,2
0,2
0,4
0,4
0,2
1
1
1
1
0
0
0
0
M
1
M
2
M
3
M
4
M
5
00
10
11
010
011
soit :
Il est clair que ce codage nest pas unique. En effet, il y a un arbitraire dans laffectation
des 0 et des 1 chaque tape, il y a un arbitraire dans le classement des symboles lorsque
plusieurs possdent la mme probabilit, et un arbitraire dans le placement du nouveau
symbole lorsque dautres ont la mme probabilit. Deux stratgies peuvent alors tre
employes : placer le nouveau symbole aussi haut ou aussi bas que possible.
Entropie de la source :
( )
H S P P
i i
i

log .
2
1
5
212193 bits
Longueur moyenne du code :
L Pl
i i
i

2 2
1
5
.
On retrouve ici la relation
( )
L H S (thorme du codage de source), qui indique que le code
de Huffman permet ici de sapprocher 0,078 bits de la longueur moyenne limite pour cette
source.
3. Entropies et canaux de communication
Nous avons discut prcdemment de la caractrisation des sources et du problme de
codage de source. Nous en arrivons maintenant au second aspect de la communication,
savoir la transmission du message sur le canal de communication, avec la caractrisation du
canal, et la possibilit de transmettre sans erreur un message sur un canal imparfait. Ceci est
lobjectif du codage de source.
3.1. Canal discret sans mmoire
Un canal discret sans mmoire est caractris par un ensemble discret de messages source - un
alphabet dentre, et par un ensemble discret de messages de sortie :
{ }
{ }
X
Y
x x
y y
I
J
1
1
,...,
,...,
On dispose en outre dun ensemble de probabilits de transition,
( ) ( ) p y x P y X x
i i i i
Y i j ,
La transmission des messages de X le long du canal peut alors tre dcrit par la distribution de
probabilit conjointe
( ) ( ) ( ) p x y p y x p x
i i i i i
,
La distribution de probabilit de la sortie peut tre obtenue en marginalisant la distribution
conjointe :
( ) ( ) ( ) ( ) p y p x y p y x p x
j i j j i i
i
I
i
I

,
1 1
Une reprsentation commode dun canal discret sans mmoire est lutilisation dune matrice
de transition :
( )
( )
( ) ( )
( )
( ) ( )
( )
( )
p y
p y
p y x p y x
p y x
p y x p y x
p x
p x
J
I
J J I I
1
1 1 1
2 1
1
1
1
]
1
1
1
1
1
1
1
]
1
1
1
1
1
1
1
1
1
]
1
1
1
1
1
1
Exemple : canal binaire symtrique (CBS)
x
1
y
1
x
2
y
2
1
-
p
p
1
-
p
p
( )
( )
( )
( )
p y
p y
p
p
p
p
p x
p x
1
2
1
2
1
1
1
]
1
1

1
]
1
1
]
1
1
3.2. Entropies pour un canal discret.
On dfinit aisment, pour un canal discret, trois entropies :
Lentropie de source
( )
H X p p
i i
i
I

log
1
Lentropie de sortie
( )
H Y p p
j j
j
J

log
1
Lentropie conjointe entre-sortie ( ) H X Y p p
i
ij ij
j
, log
o on a not
( ) ( )
( ) ( )
( ) ( )
p p x P X x
p p y P Y y
p p x y P X x Y y
i i i
j j j
ij i j i j

, ,
3.3. Relations entre les entropies.
a) lorsque X et Y sont indpendantes, i.e. ( ) ( ) ( )
P X Y P X P Y , , alors
( ) ( ) ( )
H X Y H X H Y , +
En communications, lindpendance entre X et Y signifierait que le bruit sur le canal est
tellement important quil supprime toute liaison entre Y et X.

b) entropie conditionnelle
( ) ( )
( ) H X Y P X Y P X x Y y
i
i j
j
, , log ,
2
or ( ) ( ) ( ) P X x Y y P Y y X x P X x
i j j i i
j
,
alors
( )
( ) ( ) ( ) ( )
[ ]
H X Y P Y y X x P X x P X x P Y y X x
i
j i i i j i
j
, , log log +
2 2
soit ( ) ( )
( ) ( ) H X Y H X P X x H Y X x
i i
i
,

On pose par dfinition
( ) ( ) ( ) H Y X P X x H Y X x
def
i i
i

et ( ) ( ) ( ) H X Y H X H Y X , +

Pour des raisons de symtrie, on a de la mme faon :
( ) ( ) ( ) H X Y H Y H X Y , +
( ) H X Y reprsente une incertitude moyenne sur lentre lorsque la sortie est connue.
Cest linformation qui serait encore ncessaire pour caractriser X alors que Y est
connue. On lappelle lquivoque.
( ) H Y X reprsente lincertitude moyenne sur la sortie lorsque lentre X est connue. On
lappelle parfois erreur moyenne.
3.4. Information mutuelle
En sommant les deux relations prcdentes, on obtient lingalit
( ) ( ) ( )
2H X Y H X H Y , + .
partir de ces deux relations liant lentropie conjointe et les entropies conditionnelles, on
obtient
( ) ( ) ( ) ( ) H Y H Y X H X H X Y
Chacun des deux membres de cette galit reprsente une diminution de linformation
apporte par Y (respectivement X) lorsque X (respectivement Y) est connu.
On appelle ces diffrences information relative donne par Y sur X (par X sur Y), ou plus
simplement, linformation mutuelle, ( ) I X Y , . Cest linformation transmise par le canal.
- Dans le cas sans bruit, ( ) H X Y 0 et ( ) ( )
I X Y H X , ,
- dans le cas hyper bruit, ( ) ( )
H X Y H X et linformation mutuelle ( ) I X Y , 0.
Afin doptimiser la transmission dans le canal, il faudra donc chercher maximiser
linformation change, cest--dire linformation mutuelle. Lorsque la source est fixe,
maximiser linformation mutuelle revient minimiser lquivoque H(X|Y), cest--dire
minimiser lincertitude sur X lorsque la sortie Y est connue. Dun autre cot, lorsque la source
est libre , maximiser linformation mutuelle, cest aussi rechercher la source qui rende
linformation mise en moyenne H(X) maximale.
On voit facilement que linformation mutuelle sexprime galement par
( ) ( ) ( ) ( ) ( ) ( )
( ) I X Y H X H X Y H X H X Y H Y
M
, , ,
soit
( ) ( ) ( ) ( ) I X Y H X H Y H X Y
M
, , + .
Cette ingalit conduit immdiatement
( )
( )
( )
( ) ( )
I X Y p x y
p x y
p x p y
M
i
i j
i j
i j
j
, , log
,

2
Cette dernire expression nest autre que lentropie relative ou le gain dinformation, entre la
distribution conjointe et le produit
( ) ( )
P X P Y .
Cest en quelque sorte une distance entre la distribution conjointe, et la distribution
conjointe quon obtiendrait dans le cas indpendant.
3.5. Relations entre les entropies
Rappelons le lemme fondamental : nous avons montr que
p
p
q
j
j
j
j
log 0.
En appliquant ici cette ingalit linformation mutuelle, on obtient
( ) I X Y
M
, 0
et par consquent -
( ) ( ) ( ) H X H Y H X Y + ,
-
( ) ( ) H X H X Y
-
( ) ( ) H Y H Y X
La premire ingalit signifie que lentropie conjointe est infrieure la somme des entropies
des variables considres indpendamment, cause de la liaison entre X et Y.
Les deux ingalits suivantes signifient que linformation porte par X (respectivement Y) est
infrieure linformation porte par X, lorsque Y est connu.
Relations entre les entropies : rsum
( ) ( ) ( ) ( ) ( ) ( ) 2H X Y H X H Y H X Y H Y H Y X , , +
( ) ( ) ( ) ( ) ( ) ( ) 2H X Y H X H Y H X Y H X H X Y , , +
Reprsentation graphique :
H(X)
H(Y)
H(Y|X)
I
M
(X,Y)
H(X,Y)
H(X|Y)
H(X)
H(Y)
H(Y)
H(X)
Cas indpendant
Liaison Y=f(X)
Les diffrentes entropies reprsentent les surfaces
indiques
3.6. Capacit dun canal
Nous avons vu que loptimisation de la transmission dans le canal passait par la
maximisation de linformation change ; ceci dbouche sur la notion de capacit du canal. La
capacit dun canal est dfinie comme la valeur maximale de linformation mutuelle entre-
sortie.
( ) ( ) ( ) ( ) ( ) C I X Y H X H X Y H Y H Y X
def
max , max max
Linformation mutuelle dpend la fois des probabilits de transition et de la distribution de
la source.
Lorsque le canal, cest--dire les probabilits de transition sont fixes, on ne peut plus
quagir sur la distribution de probabilit de la source pour maximiser linformation mutuelle.
Cest aussi lobjet du codage de source.
Exemple : le canal binaire symtrique
( ) ( ) ( )
( ) ( ) ( )
H Y X p p p p
I X Y H Y H Y X

log log
,
1 1
( )
H Y est max si ( ) ( ) p y p y
1 2
1
2

En raison de la symtrie du canal, il faut que ( ) ( ) p x p x
1 2
1
2
, et
( )
H Y 1.
La capacit du canal vaut alors
( ) ( ) C p p p p + + 1 1 1 log log .
H(p)
1/2
1 p
1
C(p)
3.7. Le thorme du canal bruyant.
On dfinit le taux moyen dinformation par
( )
R H X T
S
en bits/s (dbit de la source)
(on suppose que la source met un symbole toutes les T
S
secondes).
On suppose que le canal peut tre utilis toutes les T
C
secondes. On dfinit alors la capacit
par unit de temps par C T
C
(bits/s).
Le thorme est en deux parties :
(i) si
( )
H X
T
C
T
S C
,
alors il existe un code tel que la sortie de la source puisse tre transmise sur le canal et
reconstruite avec une probabilit derreur arbitrairement faible. Le paramtre C T
C
est
appel le taux critique. Le dbit vaut au maximum le taux critique.
(ii) au contraire, si
( )
H X
T
C
T
S C
> ,
il nest pas possible, en moyenne, de transmettre dinformation sans erreur.
4. Cas continu
On sintresse maintenant des variables valeurs relles, et non plus valeurs discrtes.
Il sagit souvent des signaux prsents en pratique lentre et la sortie du canal. De plus, le
bruit additif est souvent continu et fait perdre le caractre ventuellement discret des signaux
auxquels nous nous intressons.
Il est tentant de redfinir les entropies conjointes, conditionnelles pour des variables relles
en remplaant les sommes discrtes par des intgrales. Une telle manipulation est incorrecte.
En effet, en dcoupant de plus en plus finement un intervalle, lentropie discrte diverge :
p(x)
p(x
K
)x
x
K
x
Si on pose x K x
K
, avec K + ,...
et x 0,
( )
( ) ( ) H X p x x p x x
x
K K

lim log

0
o
( )
p x est la densit de probabilit de X
( ) ( ) ( ) ( )
lim log log

x O
K K K K
p x x p x p x p x x x
( ) ( ) ( ) ( )

+
p x p x dx x p x dx
x
log lim log
0
( ) ( ) ( )
H X h X x
C
x

limlog
0
.
Il est par contre une quantit qui converge sans problme, savoir linformation mutuelle.
On retrouve donc la notion dinformation mutuelle et de capacit. Lingalit fondamentale
stend galement sans (trop) de difficult (on peut tre amen introduire des lments de
thorie de la mesure).
( ) ( )
( )
( ) ( )
I X Y p x y
p x y
p x p y
dxdy , , log
,
On a ici dfini la densit conjointe par rapport la mesure de Lebesgue.

Exemple : distribution uniforme
On considre une variable alatoire rpartie de faon uniforme sur lintervalle [ ] 0, a
( )
p X
a
1
si [ ] x a 0,
( )
p X 0 sinon.
Lentropie de la loi uniforme vaut alors
( )
H X

+1 1 0
a a
dx
a
log

1 1
0
a a
dx a
a
log log .
Pour [ ] a 01 , , lentropie est ngative. On rappelle que le passage la limite du cas discret au
cas continu fait apparatre quelques problmes...
exercice : montrer que si une variable alatoire est contrainte appartenir [ ] a a , , alors la loi
maximum dentropie est la loi uniforme sur [ ] a a , .
solution :
On crit le Lagrangien,
( ) ( ) ( ) ( )
( )
L p p x p x dx p x dx
a
a
a
a
, log +
+
1 ,
en drivant sous lintgrale (os), on trouve
( ) ( )
p x exp 1 .
La condition de normalisation fournit ensuite
( )
+ 1 2 log a .
( )
p x
a
1
2
sur lintervalle
[ ] a a , .
4.1. Le cas gaussien.
La distribution gaussienne est trs importante, la fois parce quelle permet de calculer, et
ensuite parce quelle justifie du thorme centrale limite. Elle apparat en outre comme la
distribution maximum dentropie sous une contrainte de variance. Elle est trs souvent une
modlisation commode pour les bruits rencontrs en pratique.
La distribution gaussienne est dfinie par
( )
( )
p x
x m

'
1
2 2
2
2

exp ,
o m est la moyenne et
2
la variance.
Lentropie attache une distribution gaussienne est donne par
( ) ( ) ( )
( )

1
]
1

log ( ) log log
2
2
2
2
2 e p x p x dx p x
x m
dx
1
]
1

2
2 2
2
2 log log e

1
]
1
1
2
2
2
log log log e e
( )
( )
H X e log
2
2
4.2. Maximisation de lentropie sous contrainte de variance et moyenne.
Le lemme fondamental permet dcrire,
( )
( )
( )
p x
p x
q x
x
log
+
0
dans le cas continu galement.
On en dduit que
( ) ( ) ( ) ( )
p x p x dx p x q x dx log log
+

soit
( ) ( ) ( )
H P p x q x dx
+
log
On prend ( ) q m N ,
2
.
On suppose que p a mmes moyennes et variance que q.
( ) ( )
( )
( )
H P p x
x m
dx e

+
1
]
1

+
. log log
2
2 2
2
2

( )
H P e

+
1
]
1

2
2 2
2
2 log log
soit ( )
( )
H P e log
2
2 .
On en dduit que parmi toutes les lois de mmes moyenne et variance, la loi normale est
celle qui possde lentropie maximale.
Exercice : montrer que la loi normale est la loi entropie maximale sous contrainte de
moyenne et variance, en procdant par la technique des Lagrangiens.
4.3. Information mutuelle
Linformation mutuelle dans le cas continu possde les mmes proprits et interprtations
que dans le cas discret.
( ) ( )
( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( ) ( )
I X Y I Y X
I X Y
I X Y H X H X Y
I X Y H Y H Y X
I X Y H X H Y H X Y
, ,
,
,
,
, ,

+
0
4.4. Le thorme de la capacit dinformation
Le thorme de la capacit dinformation permet dutiliser la notion dinformation
mutuelle dans le cas dun canal bande limite, dune source de puissance limite, et dun
bruit additif gaussien.
On considre un processus alatoire
( )
X t bande limite B. On chantillonne ce
processus sur une dure la frquence de Shannon 2B.
On obtient alors K B 2 chantillons x x
K 1
,... . Ces chantillons sont transmis sur un
canal, galement bande limite B, perturbe par un bruit additif gaussien.
( ) ( ) ( )
y n x n n + .
On prend un bruit blanc dans la bande, de densit spectrale N
0
2.
2
0 0
2 2 N B N B
N
0
2
-B B
La source est de puissance limite :
( )
[ ] E X n P
X
2
N
0
2
B
La capacit dinformation est le maximum de linformation mutuelle, sous contrainte de
puissance pour la source :
( ) [ ] { } C I X Y E X P
X
max , :
2
.
Linformation mutuelle peut tre exprime comme
( ) ( ) ( ) I X Y H Y H Y X , .
Dans la mesure o X et sont indpendants, on a
( ) ( ) p y x p , et
( ) ( ) H Y X H .
Maximiser linformation mutuelle revient donc maximiser
( )
H Y ;
la puissance en sortie est fixe ; en effet,
[ ] ( )
[ ]
[ ] [ ] E Y E X E X E
2
2
2 2
+ + .
La distribution qui maximise lentropie de la sortie est donc une distribution gaussienne,
dentropie
( )
[ ] ( ) H Y e P
X
+
1
2
2
2
2
log
La sortie tant gaussienne, lentre lest forcment, (loi stable : gauss + gauss = gauss), et son
entropie vaut
( )
( ) H X eP
X
1
2
2
2
log
Au total, on obtient donc lexpression de la capacit dinformation :
( ) ( ) C H Y H e
P
X

+
_
,

1
2
2
2
2
2
log ,
soit encore C e
P
+
_
,
_
,
1
2
2 1
2 2
log

La capacit par unit de temps (en bits/sec) vaut ici
C B
P
N B
+
_
,
log
2
0
1 bits/s
Le thorme de la capacit dinformation est donc simplement :
la capacit dinformation, pour un canal continu, bande limite B, perturb par un bruit
blanc additif gaussien de densit spectrale N
0
2, et limit en bande B, est
C B
P
N B
+
_
,
log
2
0
1
bits/s,
o P est la puissance transmise moyenne.
Le thorme indique que lon peut transmettre sans erreur sur un canal de ce type, pourvu que
le dbit vrifie
( )
R C R
H X
T
S

1
]
1
.
4.5. Consquences du thorme sur la capacit dinformation
On sintresse au systme idal, o
R R C
b
(taux critique en bits/s).
On exprime la puissance comme
P E C
b
E
b
: homogne une nergie/bit.
On a alors
C
B
E
N
C
B
b
+
_
,
log
2
0
1
.
De faon quivalente,
E
N
C
B
b
C
B
0
2 1

E
N
b
0
est un rapport signal--bruit (par bit)

C
B
est lefficacit spectrale
Pour une bande infinie,
E
N
C
B
b
B
C
B
0
2 1
_
,

lim
( )
log , , 2 0 693 1 6013 dB.

Theo Inf

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Theo Inf

Hochgeladen von

Copyright:

Verfügbare Formate

LMENTS DE THORIE DE LINFORMATION

POUR LES COMMUNICATIONS.

lim log log

On a ici dfini la densit conjointe par rapport la mesure de Lebesgue.

22 lments de thorie de linformation pour les communications

Das könnte Ihnen auch gefallen