TE 5 360 Compressions MPEG-1 À MPEG-4 PDF

Compressions MPEG-1 MPEG-4
par tienne FERT

Responsable de la division Traitement numrique du signal
aux laboratoires dlectronique Philips
et Sylvie JEANNIN
Ingnieur de recherche aux laboratoires dlectronique Philips
1. MPEG : les enjeux techniques .............................................................. TE 5 360 - 3

1.1 Compression vido...................................................................................... 3
1.1.1 Codage/dcodage Intra ...................................................................... 3
1.1.2 Codage/dcodage Inter ...................................................................... 5
1.1.3 Organisation dun flux MPEG ............................................................ 7
1.1.4 Rgulation de mmoire tampon ....................................................... 9
1.1.5 Techniques objet................................................................................. 10
1.2 Compression audio ..................................................................................... 11
1.2.1 Modles acoustiques.......................................................................... 11
1.2.2 Codage sous-bandes perceptuel ....................................................... 11
1.2.3 Flux audio............................................................................................ 11
1.3 Multiplexage ................................................................................................ 11
1.3.1 Flux programme ................................................................................. 11
1.3.2 Flux transport...................................................................................... 12
2. Norme par norme ..................................................................................... 13
2.1 MPEG-1......................................................................................................... 13
2.1.1 Applications, spcificits.................................................................... 13
2.1.2 Descriptif ............................................................................................. 13
2.2 MPEG-2......................................................................................................... 13
2.2.1 Applications, spcificits.................................................................... 13
2.2.2 Scalabilit ............................................................................................ 14
2.2.3 Profils et niveaux ................................................................................ 14
2.2.4 Conformit .......................................................................................... 15
2.3 MPEG-4......................................................................................................... 15
2.3.1 Applications, fonctionnalits ............................................................. 15
2.3.2 Versions et profils ............................................................................... 16
2.3.3 Approche objet et structure de scnes ............................................. 16
2.3.4 MPEG-4 audio ..................................................................................... 16
2.3.5 MPEG-4 visuel..................................................................................... 17
2.3.6 MPEG-4 systmes............................................................................... 17
3. Conclusion ................................................................................................. 18
Pour en savoir plus .......................................................................................... Doc. TE 5 360
es technologies numriques ont abord le domaine des produits grand

L public par le biais de laudio. Le disque CD a dmontr les avantages essen-
tiels du numrique : qualit parfaite, flexibilit du traitement de linformation,
robustesse du contenu. Le mode de transmission ou de stockage numrique a
ncessit des recherches plus longues pour rsoudre les problmes inhrents
au signal de tlvision. En effet, la numrisation dun signal de tlvision produit
un dbit de donnes numriques de 160 Mbit/s. Sa transmission nest donc pas
envisageable sur un canal classique (satellite, cble ou terrestre) sans compres-
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 1
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
sion pralable. Un problme similaire de capacit se pose pour les quipements

de stockage. Des recherches ont donc t menes dans les laboratoires institu-
tionnels et industriels pour dvelopper des algorithmes performants de com-
pression, spcifiques au signal de tlvision. Les rsultats ont en fait dpass les
esprances. Les taux de compression atteints sont tels que, en utilisant des tech-
niques de modulation appropries, il est possible de transmettre plusieurs
signaux de tlvision numrique dans un canal tlvision analogique (entre 6 et
10 signaux selon la qualit requise). Les diffuseurs de tlvision peuvent ainsi
envisager une rduction drastique des cots de transmission, et donc une mul-
tiplication des chanes de tlvision. Cet argument est essentiel pour le succs
du numrique dans le domaine du multimdia. Dautres aspects ont aussi t
prpondrants : possibilit dajouts de donnes additionnelles, flexibilit, cryp-
tage avec contrle flexible des abonns (paiement la sance).
La normalisation est un lment essentiel du succs des technologies numri-
ques. En effet, lutilisation tendue de ce mode de transmission requiert une
interoprabilit des quipements et donc une standardisation du signal comme
dans le cas des signaux PAL, Secam et NTSC. Le comit de normalisation MPEG
(Moving Picture Experts Group) a donc runi les experts du monde entier prove-
nant de laboratoires universitaires et industriels en vue dtablir des normes
adaptes aux applications audiovisuelles numriques. Au cur des travaux de
MPEG se trouvent les dveloppements algorithmiques mens pour arriver aux
meilleurs taux de compression, afin dassurer une utilisation optimale de la
capacit de stockage ou de la bande passante. Mais MPEG sattache aussi seg-
menter et caractriser chaque type dapplications, pour dfinir des outils per-
mettant de raliser les fonctionnalits quelles ncessitent.
Le processus qui permet darriver un accord sur la norme suit les tapes
suivantes : appel propositions auprs des experts pour rpondre aux besoins
techniques de la norme, valuation des diffrentes propositions, tablissement
dun premier modle de test runissant les meilleurs lments des diverses pro-
positions, optimisation dun modle commun de rfrence et enfin accord final
sur la norme. Une norme MPEG spcifie deux points essentiels : la structure du
flux et la mthode de dcodage pour restituer le signal audiovisuel. La slection
des modes de codage mis en uvre est laisse lutilisateur qui peut donc faire
son propre compromis entre performance de lquipement de compression et
complexit (et donc cot) dimplmentation.
Le comit MPEG a donn naissance plusieurs normes. La premire, MPEG-1,
sattache spcifier le signal compress pour des applications de stockage. La
norme MPEG-2 est essentiellement issue de MPEG-1 avec quelques modifi-
cations pour tenir compte de lapplication phare qui est la tlvision numrique.
La norme MPEG-3 devait spcifier le codage dun signal haute dfinition. Mais,
rapidement, ce prrequis a t pris en compte dans la dfinition de la norme
MPEG-2 sans changement significatif des mthodes de codage. Le comit a
donc continu le processus de normalisation par la norme MPEG-4 qui vise les
applications multimdias.
On exposera dabord dans ce document les techniques essentielles mises en
uvre dans les normes MPEG. La compression des signaux vido et audio sera
aborde ainsi que les mthodes de multiplexage qui permettent de transmettre
ou stocker plusieurs signaux dans le mme mdia. Dans une deuxime partie,
les spcificits de chaque standard seront soulignes, et en particulier lvolu-
tion de leurs fonctionnalits en fonction des applications vises.
TE 5 360 2 Techniques de lIngnieur, trait Tlcoms
_______________________________________________________________________________________________________ COMPRESSIONS MPEG-1 MPEG-4
1. MPEG : les enjeux

techniques
Les normes de compression/dcompression MPEG mettent en
uvre des techniques similaires en compression du signal vido et
audio. On exposera dans ce paragraphe les techniques communes
utilises dans ces normes, les diffrences tant mises en vidence
dans le paragraphe 2. Il est important de noter que seul le processus
Format 4 :4 :4 Format 4 :2 :2 Format 4 :2 :0
de dcompression est spcifi dans ces normes. Nanmoins, une
utilisation normale du standard implique certaines rgles de base
chantillon luminance Y
dans les systmes de compression qui sont exposes dans ce para-
graphe sans prjuger des choix dimplmentation faits par les utili- chantillon chrominance U, V
sateurs. Le modle du test n 2 de la norme MPEG-2 ou encore le
VM (Verification Model) pour la norme MPEG-4 (cf. [4] et [6]) donne Figure 1 Structures dchantillonnage du signal vido
des exemples classiques dutilisation des standards.
Cette liste nest bien entendu pas limitative : en thorie, les

1.1 Compression vido normes MPEG permettent le codage dun format quelconque
dimage de dimension n m . Seule la dfinition des niveaux de
codage (cf. 2.2.3) restreint cette libert.
Lobjectif dun systme de compression est de rduire la quantit Avant le processus de compression lui-mme, plusieurs modifi-
dinformation transmettre ou stocker tout en prservant le cations du format de la source peuvent savrer souhaitables ou
contenu visuel du signal. Lalgorithme met profit les redondances mme ncessaires.
qui existent naturellement dans un signal et donc met en uvre des
mthodes spcifiques de codage qui permettront de supprimer ces Conversion 4 :2 :2/4 :2 :0
redondances.
La plupart des signaux vido gnrs par les camras ont un
Dans un signal vido, les redondances sont de deux types.
chantillonnage de la chrominance de type 4 :2 :2 : un pixel U et V
Redondances spatiales : les valeurs des pixels dans une mme pour deux pixels Y dans la direction horizontale et un pixel U et V
image ne sont pas indpendantes. On mettra donc profit cette cor- pour chaque pixel Y en vertical (cf. figure 1). La plupart des modes
rlation par lutilisation dune transforme orthogonale puis codage de codage MPEG sont de type 4 :2 :0 (un pixel chrominance pour
des coefficients pour compresser le signal. Ce codage, appel Intra, deux de luminance dans les deux directions). Il est donc indispen-
est explicit en dtail dans le paragraphe 1.1.1. On notera que cette sable doprer par filtrage, puis sous-chantillonnage, une conver-
corrlation est variable en fonction du contenu de limage : des sion 4 :2 :2/4 :2 :0 des composantes chrominance. La norme MPEG
sources vido avec beaucoup de dtails visuels contiennent assez dfinit la position respective des chantillons de chrominance par
peu de redondances spatiales. La compression du signal mettant rapport la luminance. En revanche, malgr quelques conseils indi-
profit ce type de redondance tant dans ce cas peu efficace, le qus dans les modles de test TM [4], aucun filtrage nest spcifi
codeur introduira plus de dfauts provenant de la quantification par le standard.
(cf. 1.1.1.3).
Sous-chantillonnage horizontal ou vertical
Redondances temporelles : le mme type de corrlation existe
entre les pixels de deux images successives. On peut donc prdire Pour des raisons de qualit du signal dcompress, il peut
le contenu dune image par rfrence une image prcdente ou savrer prfrable de diminuer la rsolution du signal. En effet, si le
suivante et donc proche dun point de vue contenu. Il suffit ensuite dbit allou sur le canal est faible, la diminution de la quantit de
de coder le signal rsiduel, qui reprsente les changements entre les signal coder, par filtrage passe-bas et sous-chantillonnage,
deux images, de la mme faon que pour les redondances spatiales. permet de limiter les effets de blocs provoqus par une quantifica-
Ce mode de codage appel Inter est explicit dans le para- tion trop leve. On substitue donc des dfauts de codage par un
graphe 1.1.2. Encore une fois, lefficacit de cette compression du flou de limage qui, en gnral, est mieux accept par lil humain.
signal dpend du contenu. Une squence vido contenant des mou-
vements peu modlisables ou de nombreux changements de scne Formatage des donnes
favorisera assez peu la compression par rduction des redondances Avant compression, le signal est organis par niveaux hirarchi-
temporelles et sera donc lobjet dune dgradation plus importante ques.
du signal pour un mme dbit de transmission.
Dans le cas dun signal entrelac, limage peut dabord tre
spare en deux trames codes sparment (cf. 1.1.2.3).
1.1.1 Codage/dcodage Intra Limage ou trame est constitue de ranges horizontales, chacune
contenant 16 lignes de pixels.
1.1.1.1 Conversion de format Dans chaque range on trouvera des macroblocs, chacun tant de
dimension 16 16 .
Limage vido dentre est constitue par un ensemble de pixels
reprsentant les composantes luminance (Y) et chrominance (U et Un macrobloc est organis en 4 blocs de luminance et en 2, 4 ou
V). Limage de taille rectangulaire a une dimension variable. Les 8 blocs de chrominance selon le type dchantillonnage (figure 2).
formats classiquement utiliss en compression vido sont : Dans un schma de compression dun signal entrelac, on peut
tre amen formater les donnes en mode image ou trame dans
SIF ( 352 288 25 Hz 1:1 ou 352 240 30 Hz 1:1 )
un macrobloc. Dans le premier cas, les deux parties du macrobloc
TV ( 720 576 50 Hz 2:1 ou 720 480 60 Hz 2:1 ) correspondant aux deux trames restent entrelaces dans des blocs
communs. Dans le mode de codage de type trame, les deux trames
HDTV ( 1 440 1 152 50 Hz 2:1 ou 1 920 1 080 60 Hz 2:1 ) . sont spares dans le macrobloc : deux blocs de luminance corres-
Un bloc de dimensions N N est donc transform dans la phase

de codage en un bloc de mmes dimensions contenant les coeffi-
cients DCT. Le coefficient de la premire colonne et premire ligne
correspond la composante continue appele DC (attention, seuls
les coefficients issus dun codage Intra sont appels DC : aprs un
Y U V Y U V Y U V
codage Inter, le coefficient correspondant la composante continue
Macrobloc 4 :2 :0 Macrobloc 4 :2 :2 Macrobloc 4 :4 :4 perd cette appellation). Ensuite, chaque coefficient appel AC repr-
sente la contribution du bloc dans la composante DCT correspon-
Figure 2 Organisation des macroblocs dante. Le dplacement vers la droite indique une augmentation de
selon la structure chrominance la frquence horizontale, de mme pour la dimension verticale de
haut en bas.
La transforme permet de concentrer lnergie du bloc cod sur
certains coefficients. Ses avantages compars dautres transfor-
mations du mme type (Hadamard, Fourrier) rsident dans les
points suivants : simplicit dimplmentation dans des systmes
numriques (calcul de la DCT et inverse en mode papillon) [7],
bonnes performances en terme de concentration de lnergie et
rsultats de la transforme en valeurs relles. Le choix de la dimen-
sion pour les codages de type MPEG ( N = 8 N = 8 ) provient dun
compromis entre les diffrents avantages et dsavantages corres-
pondant des dimensions plus ou moins petites. Laugmentation de
la taille du bloc tend amliorer leffet concentrateur dnergie de la
DCT. En revanche, dans le mme temps, on observe des effets
Codage en mode image
provenant des dfauts de quantification plus gnants et la coh-
rence de linformation dans un bloc plus grand tend diminuer.
Il est important de noter que la DCT en tant que telle nest pas une
opration de compression. Au contraire : les pixels en entre sont
cods sur 8 bits alors que la sortie est code sur 11 bits pour le DC
Macrobloc original
et 12 bits pour les coefficients AC. Lopration de compression se
fait effectivement dans les tapes suivantes.
1.1.1.3 Quantification
Lopration de quantification est la premire tape du processus

de compression de linformation. Le coefficient DCT est quantifi de
Codage en mode trame faon rduire la dynamique du signal coder. Celui-ci sera restitu
dans le dcodeur avec une erreur de quantification qui est lorigine
Figure 3 Formatage des donnes macrobloc des dfauts visuels introduits par les schmas de compression de
en mode trame ou image type MPEG. Le choix du pas de quantification est donc directement
lorigine du compromis qui doit tre trouv dans un codeur entre
la qualit de restitution du signal et le dbit numrique utilis. Une
pondent la trame paire et deux autres la trame impaire (figure 3).
quantification plus forte implique des dfauts plus visibles mais un
Ce choix, quand il est autoris, peut se faire chaque macrobloc, un
dbit plus faible, et inversement. Le processus qui permet de choisir
bit dans le flux binaire indiquant le mode slectionn. En rgle gn-
le pas de quantification en rapport avec le dbit dsir est prsent
rale, il est prfrable de passer en mode trame pour une image
dans le paragraphe 1.1.4.
comportant du mouvement, la cohrence entre les trames tant
faible, alors que le mode image est plus efficace quand le mouve- Le processus de quantification nest pas spcifi dans la norme.
ment est faible, car il existe une forte cohrence entre les deux Les formules prsentes dans ce paragraphe sont celles du modle
trames. de rfrence MPEG-2 utilis pour la mise au point du standard [4].
Le processus de quantification et quantification inverse dans le
1.1.1.2 DCT et DCT inverse dcodeur est diffrent en fonction du type de coefficient DCT.
Comme on la vu en introduction du paragraphe 1.1, lun des Coefficients DC
objectifs fondamentaux de la compression du signal vido est de
rduire les redondances spatiales. La transforme en cosinus Soit quant(DC) la valeur quantifie du coefficient DC, quant1(DC)
discret (Discrete Cosines Transform. DCT) est llment essentiel de la valeur dquantifie et DC_quant_step le pas de quantification, le
ce processus. La DCT est une transforme orthogonale en frquence processus de quantification/dquantification est le suivant :
dfinie comme suit : quant(DC)=DC/DC_quant_step
N1 N1
(2y + 1)v quant1(DC)=quant(DC) DC_quant_step
2 (2x + 1)u
f ( x, y ) = ------
N C ( u ) C ( v ) F ( u, v ) cos ----------------------------- cos ----------------------------
2N 2N
-
Le choix de DC_quant_step se fait pour chaque image et dter-
u=0 v=0 mine directement le nombre de bits sur lequel est cod le rsultat :
La transforme inverse est dfinie comme suit : 8 (DC_quant_step = 8) 11 bits (DC_quant_step = 1).
2
N1 N1
(2x + 1)u (2y + 1)v Coefficients AC
F ( u, v ) = ------ C ( u ) C ( v )
N f ( x, y ) cos ----------------------------- cos ----------------------------
2N 2N
-
Soit quant[AC(u,v )] la valeur quantifie du coefficient AC(u,v ) de
x=0 y=0
la colonne u et ligne v du bloc DCT et quant1 la valeur obtenue
1
C ( u ), C ( v ) = ------- pour uv = 0 aprs dquantification, le calcul de quantification se fait en deux
2 tapes.
C ( u ), C ( v ) = 1 pour u ou v 0 quant[AC(u,v )] = (16* AC(u,v )) // weight (u,v )
Et ensuite pour les blocs intra :

quant [ AC ( u, v ) ]
= { quant [ AC ( u, v ) ] + sign [ AC ( u, v ) ] [ ( 3 mquant ) // 4 ] } ( 2 mquant )
quant 1 [ AC ( u, v ) ] = ( 2 quant [ AC ( u, v ) ] ) weight ( u, v ) mquant 32

Et pour les blocs Inter (cf. 1.1.2 pour la signification du terme
Inter) :
quant [ AC ( u, v ) ] = quant [ AC ( u, v ) ] ( 2 mquant )
quant 1 [ AC ( u, v ) ]
= ( ( 2 quant [ AC ( u, v ) ] + sign ( quant [ AC ( u, v ) ] ) weight ( u, v ) )

mquant 32 Figure 4 Ordre de codage des coefficients AC
On remarquera dans cette formule de quantification que plusieurs
paramtres influent sur le niveau de quantification.
Cet ordre permet de concentrer le maximum des valeurs non
mquant : paramtre de quantification commun tous les coeffi- nulles dans les premiers lments du tableau.
cients DCT dun macrobloc. Il permet donc de faire varier le niveau
de quantification chaque macrobloc. Ensuite, on utilise un mode de codage dit run/length qui permet
dexploiter au mieux la forte probabilit de prsence de valeurs
weight(u,v ) : dans chaque squence de codage MPEG on fixe nulles dans le tableau. Pour chaque lment non nul du tableau, on
des matrices de quantification contenant ces poids correspondant code le nombre de zros qui le prcdent ainsi que la valeur. Quand
chaque fonction DCT. Cette diffrenciation permet de quantifier plus on ne rencontre plus de valeur non nulle, le mode de code indiquant
fortement les hautes frquences. En effet, le systme visuel humain la fin du bloc est envoy (EOB), do lintrt de concentrer les
est plus sensible aux dfauts de codage dans les basses frquences. valeurs non nulles en dbut de bloc.
De plus, deux matrices diffrentes peuvent tre utilises selon le Par exemple, pour la suite de valeurs :
type de codage utilis : Inter ou Intra. Cette diffrenciation se justifie
par le fait que le type de signal coder aprs un processus de com- 4, 0, 8, 0, 1, 7, 0, 0, 11, 0,
pensation de mouvement a des proprits diffrentes dun signal
cod en Intra (cf. 1.1.2). on codera les couples longueur/valeur suivants :
Zone morte ( 3 mquant // 4 en intra) : cette valeur correspond (0, 4), (1, 8), (1, 1), (0, 7), (2, 11), (EOB)
ce qui est communment appel la zone morte. Ce dcalage dans Chaque couple est ensuite cod dans le flux par son mot corres-
la courbe de quantification permet dobtenir un nombre plus impor- pondant dans la table VLC. Si le couple ne fait pas partie de la table,
tant de coefficients nuls aprs quantification, et donc de diminuer la un mot de code spcifique est envoy (Escape Code), suivi de la
quantit dinformation coder. longueur sur 6 bits et de la valeur sur 12 bits.
1.1.1.4 Codage statistique 1.1.1.5 Schma de codage/dcodage Intra

Le processus de quantification a permis de rduire la quantit La figure 5 dcrit le fonctionnement complet dun codeur et dun
dinformations coder. Nanmoins, cest lopration de codage dcodeur de type MPEG en mode Intra.
statistique qui va mettre profit les oprations de DCT et de quanti-
fication pour diminuer de faon significative la taille du flux binaire.
Lopration de codage statistique permet de compresser le flux 1.1.2 Codage/dcodage Inter
binaire dcrivant les coefficients DCT en utilisant les proprits
statistiques du signal. On utilise un codage longueur variable de
type Huffman (VLC Variable Length Coding) qui permet de coder les 1.1.2.1 Estimation de mouvement et compensation
valeurs les plus probables avec les mots binaires les plus courts et Le mode de codage Inter a pour but de mettre profit les redon-
les valeurs les moins probables avec les mots les plus longs. Les dances temporelles du signal vido pour le compresser. Le principe
tables de correspondance entre valeurs quantifies et mots DCT est donc de prdire le contenu dune image, puis de coder unique-
sont dfinies pour exploiter au mieux les statistiques dun signal ment lerreur faite sur cette prdiction. La mthode la plus simple
aprs quantification dans un codeur MPEG. est de faire la diffrence entre les valeurs de chaque pixel position
Lopration inverse de dcodage longueur variable (VLD gale et ensuite de coder limage diffrence. Cette opration est peu
Variable Length Decoding) dans les dcodeurs permet de restituer efficace si le contenu de limage est en mouvement. Les normes
les valeurs des coefficients DCT. MPEG mettent donc en uvre des techniques de compensation du
De mme que pour lopration de quantification, on distingue le mouvement dans limage pour optimiser la rduction des redon-
codage des coefficients DC et AC. dances temporelles. Plusieurs tapes sont alors distinguer.
DC : chaque coefficient DC est cod en mode diffrentiel (codage Lestimation de mouvement (figure 6) : en rgle gnrale, le
de la diffrence) par rapport au coefficient DC prcdent dans mouvement dans une squence vido ne peut pas se modliser par
lordre de transmission. La valeur de la diffrence est code en deux un seul vecteur (sauf dans le cas dun panning simple). A chaque
mots : le premier reprsente la taille (maximum de 8 12 selon la macrobloc de limage, on associe donc une information de mouve-
prcision de codage choisie) et le second donne la valeur code sur ment. Dans les normes MPEG, seuls les mouvements de type trans-
le nombre de bits correspondant la taille. lation sont modliss : lutilisation de mouvements de type
homothtie ou rotation namliore pas suffisamment les performan-
AC : le tableau bidimensionnel issu du processus de quantifi- ces de compression en regard de la complexit quils induisent dans
cation est dabord transform en tableau monodimensionnel en res- les systmes de compression et dcompression. Lopration desti-
pectant lordre dcrit dans la figure 4. mation de mouvement permet de dterminer dans limage de rf-
a codeur Intra
Formatage des Flux MPEG

Source vido DCT Quantification VLC
donnes
b dcodeur Intra
Flux MPEG Quantification Formatage

VLD DCT inverse Sortie vido
inverse des donnes
Figure 5 Schma
de codage/dcodage Intra
Image I (Intra picture) : dans cette image, les macroblocs sont

Image originale Image rfrence cods en Intra, donc sans faire rfrence une autre image. Ces
images sont donc les points daccs dans un flux MPEG pour le
dcodage. On notera que lefficacit de la compression tant limite
la rduction des redondances spatiales, les images I, qualit
gale, ont le taux de compression le plus faible.
Image P (Predictive picture) : les macroblocs sont cods en mode
Inter par rapport une image P ou I prcdente dans le flux vido.
Image B (Bi-directionally predictive picture) : les macroblocs sont
prdits par rapport limage P ou I prcdente et limage P ou I sui-
Macrobloc Vecteur Zone de Macrobloc
vante. Cette possibilit est la plus efficace du point de vue de la
rfrence mouvement recherche rfrence
rduction des redondances temporelles (une information non pr-
sente dans limage prcdente peut se trouver dans limage sui-
Figure 6 Estimation de mouvement vante), et donc ce type dimage contient la quantit la plus faible
dinformations qualit dimage gale. En revanche, la prdiction
par rapport une image future qui doit tre pralablement code
rence le macrobloc qui ressemble le plus au macrobloc coder. Cet implique un processus de rordonnancement des images aussi bien
algorithme de recherche nest pas normalis et son efficacit a une dans le codeur que dans le dcodeur (figure 7).
influence fondamentale sur la performance du codeur, mais aussi Deux paramtres caractrisent la structure dun point de vue
sur sa complexit. La mthode la plus utilise est le block- images I, P, B dun flux MPEG.
matching : le macrobloc est compar avec les macroblocs points N reprsente la distance entre deux images I successives. Laug-
par les vecteurs tests dans la zone de recherche de limage de rf- mentation de N implique une meilleure qualit de codage, en revan-
rence. Le vecteur est en gnral dtermin avec une prcision dun che, laccs dans la squence est plus restrictif (cet aspect est
demi-pixel. La slection est faite sur le macrobloc minimisant la dif- important dans les applications de tlvision numrique o le zap-
frence du point de vue de la somme des valeurs absolues des dif- ping est une fonctionnalit importante).
frences entre les valeurs de pixels. On trouvera des informations
sur dautres mthodes et leurs avantages respectifs dans [5]. M reprsente la distance entre deux images P successives. Laug-
mentation de M permet une meilleure qualit de codage, mais
La compensation de mouvement : linformation de mouvement saccompagne dun retard de codage/dcodage et dune complexit
ayant t dtermine pour chaque macrobloc, on dtermine le de ralisation plus importante.
macrobloc qui reprsente la rfrence. Dans le codeur, lextraction
de ce macrobloc doit se faire dans limage de rfrence dcode et 1.1.2.3 Structure image ou trame
non limage originale, de faon permettre la mme opration de
compression dans le dcodeur o seules les images dcodes sont Afin de prendre en compte le caractre entrelac du signal
disponibles. Dans le cas contraire, une drive des images survient dentre, on dfinit les modes de codage en structure image ou
dans le dcodeur au fil du dcodage, seul le mode de codage Intra trame.
sans utilisation de la rfrence permettant de revenir une rf- Structure image : les deux trames de limage dentre sont trai-
rence commune. tes dans un seul lment syntaxique commun. Bien entendu, la
structure entrelace du signal peut toujours tre prise en compte
Le codage : le macrobloc de prdiction tant dtermin, il suffit dans le codage dun macrobloc.
den faire la diffrence avec le macrobloc coder. De faon per-
mettre lopration inverse dans le dcodeur, linformation sur le vec- Structure trame : les deux trames sont traites dans deux l-
teur mouvement utilis sera code dans le bitstream pour chaque ments syntaxiques diffrents lune aprs lautre. En particulier, le
macrobloc. Le macrobloc diffrence sera trait de la mme faon type dimage peut tre diffrent : une image est spare en une
quen mode Intra, avec quelques adaptations dues aux caractristi- trame impaire I et une trame paire P. Cest ici quapparat le principal
ques statistiques du signal Inter (cf. 1.1.1.3). avantage de la structure trame : seule une trame est code en mode
Intra au lieu dune image entire, ce qui permet damliorer leffi-
1.1.2.2 Images I, P, B cacit de compression. Mis part ce point trs spcifique, le mode
trame est peu utilis, la cohrence entre deux trames dune mme
On distingue dans un flux MPEG plusieurs types dimage selon image impliquant en gnral une meilleure efficacit du mode
les modes de prdiction utiliss : image.
Origine des prdictions
Ordre d'entre
B1 B2 I3 B4 B5 P6 B7 B8 P9
Ordre de codage et dcodage
I3 B1 B2 P6 B4 B5 P9 B7 B8
Ordre d'affichage dans le dcodeur
B1 B2 I3 B4 B5 P6 B7 B8 P9 Figure 7 Squencement des images I, P, B

et modes de compensation
1.1.2.4 Modes de compensation Compensation 8 8 : autoris dans MPEG-4 uniquement, ce

mode permet une compensation plus fine, grce lutilisation dun
Aprs avoir choisi un type dimage, la norme de type MPEG laisse vecteur mouvement par bloc.
aussi un choix tendu sur le mode de compensation pour chaque
macrobloc, lentrelacement de limage dentre tant pris en Compensation du mouvement global (GMC Global Motion
compte. Compensation) : prvu par MPEG-4 uniquement, ce mode com-
pense chaque bloc en utilisant des paramtres globaux, valables
Compensation image : cest le mode de compensation le plus pour tous les blocs dun mme objet. La nature de ces paramtres et
naturel. Le vecteur mouvement correspond au dplacement du la technique de compensation leur associer sont les mmes que
macrobloc dans une image avec une prcision au demi-pixel. celles utilises pour les sprites ( 1.1.5.2).
Linterpolation bilinaire est utilise pour valuer la valeur des
pixels situs au milieu des chantillons du signal. Mode Intra : si aucun des modes prcdents nest satisfaisant du
point de vue de la ressemblance, il est toujours possible de coder le
Compensation trame : ce mode de compensation est utile pour macrobloc en mode Intra sans faire rfrence une autre image.
les sources de type entrelac en mouvement. Un vecteur mouve-
ment est utilis pour chaque trame du macrobloc. La prdiction se 1.1.2.5 Slection du mode
fait dans lune des deux trames de limage de rfrence toujours La norme permet de slectionner pour chaque macrobloc lun des
avec une prcision demi-pixel. modes de compensation dcrits dans le paragraphe prcdent,
Compensation sans mouvement : ce mode existant uniquement mais ne prcise pas le critre du choix. En gnral, on reprend le
pour les images P est lquivalent du mode image avec un vecteur mme type de critre que celui utilis dans le processus destima-
nul. Son intrt rside dans le fait quaucun vecteur mouvement ne tion de mouvement (cf. 1.1.2.1).
doit tre transmis dans le flux.
1.1.2.6 Schma de codage/dcodage Inter
Compensation dual prime : ce mode met en uvre une compen- La figure 8 montre un codage et un dcodage Inter.
sation tenant compte du caractre entrelac du signal en transmet-
tant un seul vecteur. Il est autoris uniquement dans un flux ne
comportant pas dimages B. 1.1.3 Organisation dun flux MPEG
Compensation 16 8 : dans les images codes en structure Les normes de compression MPEG dfinissent lorganisation dun
trame, la structure macrobloc correspond spatialement une taille flux binaire ainsi que la signification de chaque lment (figure 9).
dans limage de 16 32 . Le mode 16 8 permet dutiliser deux vec- Le squencement exact, bien que suivant certaines rgles de base,
teurs mouvements pour se ramener une taille de macrobloc en nest pas compltement dfini et dpend des choix de codage effec-
mouvement plus naturelle. tus par le codeur (N, M, modes de compensation).
Modes interpols : les images B autorisent les modes de com- Chaque lment syntaxique de haut niveau (squence, image,
pensation par rapport aux images P prcdente et suivante. Dans le range) est prcd dun code daccs unique : 23 zros suivis dun
mode interpol, une pondration est faite entre ces deux prdic- 1. Ceci permet un dcodeur de retrouver rapidement une synchro-
tions, et donc, par effet de filtrage temporel, on obtient un macro- nisation en dbut de dcodage ou quand une erreur est survenue
bloc de rfrence plus proche de loriginal. sur le flux binaire.
Source Formatage des

DCT Quantification
vido donnes
VLC Flux
MPEG
Vecteurs
Estimation de mouvement Compensation
mouvement de mouvement
Mmoires DCT Quantification

d'images inverse inverse
a codeur Inter
Flux MPEG
Quantification DCT Formatage des
VLD Sortie vido
inverse inverse donnes
Vecteurs
Compensation
mouvement
de mouvement
Mmoires
d'images
b dcodeur Inter
Figure 8 Schma de codage/dcodage Inter
En-tte squence Image Image Image Image
En-tte image Slice Slice Slice Slice
En-tte slice Macrobloc Macrobloc Macrobloc Macrobloc Macrobloc
En-tte macrobloc Bloc Bloc Bloc Bloc Bloc

Figure 9 Description hirarchique
dun flux MPEG
1.1.3.1 Squence 1.1.3.2 Image

Chaque flux binaire MPEG doit dbuter par un en-tte de
squence. Les paramtres de codage, invariables au cours dune
squence, y sont indiqus : frquence image, taille de limage, dbit Chaque image transmise dans lordre de codage (qui nest pas
binaire, matrices de quantification. Cet en-tte devra obligatoire- toujours lordre de rception dans le codeur, comme nous lavons
ment tre suivi dune image I pour dbuter le dcodage. Dans les vu au paragraphe 1.1.2.2) est prcde dun en-tte contenant les
applications de transmission de tlvision numrique, cet en-tte informations gnrales spcifiques pour le dcodage de limage :
sera rpt rgulirement de faon garantir lutilisateur un accs type dimage, structure de limage, dimension maximale des
alatoire dans le flux reu. vecteurs mouvement
1.1.3.3 Slice mental et thorique de dcodeur MPEG-2 : le modle VBV (Video

Buffer Verifier). Tout flux binaire MPEG-2 devra tre dcodable par
Une image est constitue dun ensemble de ranges de macro-
ce modle thorique et donc tout dcodeur MPEG-2 devra tre
blocs, marques en leur dbut par un en-tte permettant la re-
capable de dcoder un tel flux. Ceci nimplique pas quun dcodeur
synchronisation du dcodeur en cours dimage. La frquence
doive se comporter de faon identique en interne, seule la capacit
dinsertion de ces en-ttes peut augmenter toujours pour faciliter la
restituer limage de sortie tant requise.
resynchronisation en cas derreur sur le flux binaire. Chaque
lment syntaxique situ entre deux en-ttes successifs est appel Le modle VBV se caractrise essentiellement par les points
slice et contient un nombre variable de macroblocs. suivants :
il sapplique dans les cas des dbits fixes et variables ;
1.1.3.4 Macrobloc il dfinit de faon stricte le squencement du dcodage des
images, la contrainte essentielle tant la ncessit de dcoder une
Dans le flux correspondant un macrobloc, on trouvera dabord image rgulirement la frquence image ;
les informations ncessaires son dcodage : pas de quantification, compte tenu de la dfinition du comportement, un flux binaire
modes de codage, mode de compensation de mouvement et MPEG-2 ne devra provoquer ni underflow ni overflow de la
vecteurs mouvement. Pour certaines de ces informations (modes de mmoire tampon. De plus le dbit instantan ne devra jamais
compensation, vecteurs mouvement), la norme fait appel des dpasser le dbit indiqu dans les en-ttes du flux.
codes longueur variable. Lappel des techniques de codage qui-
valentes aux codes de Huffman utiliss pour les coefficients DCT Ces prrequis sur le fonctionnement du dcodeur, par symtrie,
permet dexploiter les statistiques doccurrence des modes de se reportent sur la mmoire tampon des codeurs. On devra
compensation ou vecteurs. Par exemple, dans une image P ou B, le respecter dans cette mmoire des limites doccupations minimales
mode Intra est trs peu probable. et maximales.
Dans le cas o loccupation maximale est presque atteinte, une
1.1.3.5 Bloc raction svre peut tre applique sur le processus de codage par
augmentation du pas de quantification. Dautres stratgies, allant
Pour chaque macrobloc, on transmet les 6, 8 ou 12 blocs DCT jusqu la suppression de coefficients DCT, peuvent savrer nces-
correspondants dans lordre dfini par la norme. saires.
Si lon sapproche de loccupation minimale, sans que le
1.1.4 Rgulation de mmoire tampon processus de codage normal suffise produire un dbit minimal
mme avec un pas de quantification minimal (cest le cas si limage
dentre est totalement uniforme), la norme permet dinsrer des
1.1.4.1 Modle VBV bits de bourrage juste avant chaque en-tte du flux binaire.
A la sortie du bloc de gnration du flux binaire dans un codeur
de type MPEG, le dbit est variable. En effet, selon le contenu, un 1.1.4.2 Rpartition du dbit binaire
macrobloc peut gnrer de 0 quelques milliers de bits. Or, dans le au cours dune squence MPEG
cas dune transmission vers un rcepteur, la transmission dbit
constant est un prrequis qui rend donc ncessaire lutilisation Les contraintes relatives la norme tant respectes, il est nces-
dune mmoire tampon qui va permettre de compenser les varia- saire de mettre en place une stratgie de rpartition de lutilisation
tions de dbit en sortie (figure 10). De mme, le rcepteur devra du flux binaire et ceci tous les niveaux dun flux MPEG :
utiliser une mmoire tampon pour compenser la variation entre le image : chaque type dimage (I, P ou B) ayant des besoins dif-
dbit darrive des bits et le dbit de dcodage. frents en dbit, lallocation doit tre adaptative au niveau image ;
La premire contrainte ne sapplique pas au cas de stockage ; en macrobloc : on sait que lil est moins sensible aux hautes fr-
revanche, le mme type de contrainte sur le dcodage reste vrai. quences. Il est donc souhaitable de moduler le pas de quantification
Pour ces deux cas, la norme MPEG-2 dfinit un modle comporte- choisi pour chaque macrobloc en fonction de son contenu.
Rgulation de
l'occupation
Canal de
mmoire
transmission
Entre Sortie
vido vido
Codage des Mmoire Mmoire Dcodage des
macroblocs tampon tampon macroblocs
a application de transmission
Sortie
Entre
vido
vido
Codage des Systme de Mmoire Dcodage des
macroblocs stockage tampon macroblocs
b application de stockage Figure 10 Schmas de codage/dcodage

avec mmoires tampons
En rgle gnrale, le processus de rgulation de mmoire tampon chacun, diffrents contextes et diffrents modes de prdiction. Tous
alloue pour chaque lment syntaxique un certain nombre de bits. ces cas sont dcrits dans [3].
Le choix du pas de quantification ne suffit gnralement pas Pour rsumer, mentionnons tout de mme que, comme pour le
respecter parfaitement cet objectif. Une raction est donc nces- codage de texture, linformation de contour peut tre code, suivant
saire dans la suite du codage pour rectifier cette divergence : si le les images et suivant les BAB, soit en mode Intra, soit en mode Inter
codeur a produit trop de bits par rapport lobjectif, on augmentera aprs compensation de mouvement. Les vecteurs mouvements
le pas de quantification et inversement pour une dpense de bits utiliss pour la compensation, suivant les modes et les types de
insuffisante. BAB, sont dtermins partir des vecteurs mouvements utiliss
Le processus de rgulation qui permet de dterminer la valeur du pour la compensation de texture, et/ou partir de vecteurs mouve-
pas de quantification chaque macrobloc nest pas normalis, ment de contours, calculs et transmis spcifiquement cet effet. Le
chaque constructeur de codeur adoptant sa solution propre. On contexte de chaque pixel est calcul en utilisant des formules spci-
trouvera nanmoins un exemple reprsentatif de cet algorithme fiques au type de BAB, en tenant compte des valeurs des voisins et
dans le Test Model de la norme MPEG-2 [4]. des valeurs prdites dans le cas Inter. Le symbole transmis dans le
flux, encod par codage arithmtique, permet de dterminer la
valeur du pixel en le combinant avec celle de son contexte, suivant
1.1.5 Techniques objet des tables spcifiques au type du BAB.
Enfin, avant codage, le plan alpha peut tre sous-chantillonn
Avec larrive des nouvelles applications dans le domaine du (par un facteur 2 ou 4). Ainsi, il sera cod ds le dpart avec pertes,
multimdia, les vidos sont dsormais parfois des visualisations de mais de faon moins coteuse. Cette information est envoye au
scnes comportant des objets anims avec lesquels le spectateur dcodeur, qui le surchantillonne de manire symtrique aprs
peut interagir. Pour tre capable de grer la transmission de tels dcodage.
contenus de faon optimale, MPEG a d intgrer de nouveaux
outils. Nous dtaillons dans ce paragraphe les deux plus novateurs : 1.1.5.2 Sprites
le codage de contours et le codage par sprites. Les considrations
plus globales sur lutilisation et la gestion dobjets, telles quelles La notion de sprite provient des tout premiers jeux vidos, o un
ont t dfinies par MPEG-4, seront exposes au paragraphe 2.3. sprite tait une imagette leffigie de lun des personnages. Son
dplacement dans limage, associ de lgres dformations,
donnait lillusion de la vie du personnage. Dans MPEG, cette ide est
1.1.5.1 Codage de contours reprise de faon lgrement diffrente. Un sprite y est dfini comme
Pour coder un contour dobjet, la donne dentre nest plus une une grande image compose de tous les pixels dun objet donn
squence dimages YUV, mais une squence de plans alphas visibles un moment ou un autre de la squence (figure 12). Par
(cf. 2.3.5.1), images binaires valant 1 l o lobjet est prsent et 0 exemple, un sprite dobjet fond pourra tre une vue panora-
ailleurs. Aussi curieux que cela puisse paratre, MPEG a de nouveau mique dun paysage sans les personnages passant au premier plan.
choisi une mthode base sur une dcoupe en blocs de ces images Le sprite tant une image fixe, il est cod par DCT, suivant la tech-
pour leur codage : le CAE (Context Arithmetic Encoder ou codage nique Intra classique dcrite au paragraphe 1.1.1. Les donnes
arithmtique de contexte). Cette approche a t prfre aux techni- binaires rsultantes sont envoyes en dbut de flux afin dtre
ques de type spline ou chain code, car elle offre une trs bonne effi- disponibles ds la premire image de la squence. A chaque image,
cacit en compression tout en sintgrant facilement au schma de on inclut ensuite dans le bitstream les paramtres permettant de
codage/dcodage MPEG existant. Dans chaque bloc 16 16 slectionner et dformer la partie du sprite adquate, afin de
dnomm BAB (Bloc Alpha Binaire), et correspondant un macro- reconstituer limage courante.
bloc de limage YUV, il suffit en effet dajouter aux informations de La mthodologie de construction des sprites, de mme que tout
mouvement et de texture celles de contour si ce bloc contient un processus de codage MPEG, nest pas spcifie par la norme. On
contour. Le dcodage (par exemple) suivra ainsi simplement le peut dailleurs imaginer vouloir dfinir un sprite de toutes pices ou
diagramme de la figure 11. partir dune image existante, afin de crer ses objets un environ-
Le CAE repose sur un codage arithmtique, permettant de nement donn. Dans le cas o lon dispose dune squence vido
retrouver la probabilit pour un pixel donn de valoir 0 ou 1, suivant brute do lon veut extraire un sprite, le problme est plus
le contexte (valeurs des pixels voisins, valeurs dans les plans alphas complexe. Cette opration nest dabord pas possible sur toutes les
prcdents) qui sera connu au dcodage. Cette technique est donc squences : sur des contenus ne sy prtant pas (squences avec de
difficile dcrire de faon synthtique, car son efficacit repose sur nombreux changements de scnes ou sans fond stable), elle
une tude de probabilits trs pousse ayant men une slection donnera des rsultats inutilisables. Ensuite, elle reste relativement
de sept types de BAB avec des modes de codages diffrents pour complexe. Ceci exclut son utilisation systmatique en temps rel.
Contour Dcodage
de contour Mmoire
d'objet
Donnes macrobloc
Mouvement Dcodage Compensation

mouvement
Texture Reconstruction
Dcodage
de texture
Figure 11 Dcodage MPEG
intgrant les contours
Image 107 Image 1 Image 204
Sprite
Figure 12 Sprite de la squence Stefan
Ce mode de codage est trs conomique du point de vue de la composante sur cette bande de frquence. Ensuite, chaque signal
quantit de bits transmettre, et rend possibles dintressantes reprsentant la sous-bande est quantifi avec un pas dpendant du
manipulations. Les animations obtenues sont limites aux dforma- niveau de seuillage de la frquence traite. Le processus qui dter-
tions permises par le modle utilis, mais elles donnent dj lillu- mine le pas de quantification pour chaque sous-bande fait appel
sion de mouvements de camra complexes dans des un modle psychoacoustique. Le choix de ce modle dtermine la
environnements fixes. De plus, il devient facile, en retouchant une qualit du codeur ainsi que sa complexit, les autres fonctions se
simple image fixe, de changer lenvironnement de toute une retrouvant lidentique dans chaque codeur audio. Cette opration
squence, ou encore, en modifiant quelques paramtres, de simuler permet de supprimer dans le signal les informations les moins
un mouvement de camra indit dans un environnement donn. perues par loreille humaine. On transmet donc dans le flux MPEG
les valeurs quantifies ainsi que le pas de quantification utilis dans
chaque bande de frquence. Le dcodeur, aprs dmultiplexage des
donnes, quantification inverse et filtrage inverse, pourra reconsti-
1.2 Compression audio tuer le signal dcod.
Les normes de compression audio MPEG dfinissent le processus 1.2.3 Flux audio
de dcodage dun signal audio. De mme que pour le signal vido,
cette dfinition implique certaines lignes de conduite respecter
Le flux audio MPEG est organis en trames contenant un nombre
pour la compression.
fixe dchantillons dentre (384 ou 1152). Aucune correspondance
nexiste entre la dure des images vido et les trames audio. Au
dbut de chaque trame, on trouve un en-tte avec un mot de signa-
1.2.1 Modles acoustiques lisation et les informations de haut niveau ncessaires au dcodage
de la trame : frquence dchantillonnage du signal dentre, dbit
La base algorithmique de la compression audio MPEG est le de sortie compress, mode de codage utilis. On trouve ensuite les
systme acoustique humain, qui na pas les mmes caractristiques valeurs du signal dentre aprs filtrage et quantification.
quun instrument denregistrement. Loreille humaine est un
systme non linaire seuillage adaptatif. En premier lieu, ce
seuillage (non-sensibilit certains sons en de dune puissance 1.3 Multiplexage
donne) est variable en fonction de la frquence, le maximum de
notre sensibilit se situant en gnral entre 2 et 5 kHz. Ce modle est
compliqu par un phnomne de masquage. En effet, notre oreille Chaque flux lmentaire ayant t compress sparment, les
percevra certains niveaux sonores assez bas dans un silence total, normes MPEG dfinissent des processus pour multiplexer ces
alors quun signal sonore comportant des frquences similaires donnes dans un seul flux des fins de stockage ou de transmis-
masquera laudibilit des mmes sons. Le mode de compression sion. Encore une fois, seul le processus de dcodage avec la signifi-
MPEG met donc profit ces caractristiques pour ddier la bande cation de chaque bit est dfini dans la norme.
passante numrique aux sons audibles par une oreille humaine. La sortie dun multiplexeur de type MPEG est un flux doctets un
dbit total fixe ou variable. Il existe plusieurs types de flux, lappli-
cation vise tant le critre essentiel de choix entre les options.
1.2.2 Codage sous-bandes perceptuel
Lobjectif de prise en compte des caractristiques auditives de 1.3.1 Flux programme

loreille est ralis par lutilisation dun mode de codage par sous-
bandes (figure 13). Pour chaque sous-bande, le signal numrique Le flux de type programme est essentiellement spcifi pour
dentre est trait par un filtre spcifique qui permet dobtenir la rpondre aux besoins dune application de stockage. Dans cette
a codeur
Quantification
Entre audio Flux MPEG audio

Filtrage Quantification Multi-
plexeur
Quantification
Modle
psycho-
acoustique
b dcodeur
Quantification
inverse
Flux MPEG audio Sortie audio

Dmulti- Quantification Filtrage
plexeur inverse
Quantification
inverse
Figure 13 Codage/dcodage
en sous-bandes audio
Signal vido
Flux programme
Codeur
Enregistreur
Signal audio MPEG
Mdia (DVD,
support magntique...)
Signal vido
Flux programme
Dcodeur
Lecteur
Signal audio MPEG
Figure 14 Schma typique de codeur
et dcodeur dans une application
de stockage
optique, un seul programme (vido et audio) est multiplex dans un tampon, le systme gnrant le flux programme devra sassurer
flux. La spcification de ce flux rpond essentiellement aux besoins que ce flux sera dcodable sans overflow ni underflow de la
suivants : synchronisation audio/vido, prvention des underflow mmoire tampon du dcodeur (figure 14).
ou overflow de la mmoire tampon, accs alatoire aux donnes. Le
formatage des donnes audio et vido dans des paquets PES
(Packetized Elementary Stream) permet dassurer la synchronisa- 1.3.2 Flux transport
tion des donnes. En effet, on insre dans les en-ttes de paquets
des estampilles temporelles qui spcifient les moments de traite-
ment des donnes contenues dans le paquet. Le DTS (Decoding Le flux transport est dfini pour des applications de transmission
Time Stamp) indique linstant de dcodage des donnes tandis que en temps rel entre un codeur et un dcodeur. La spcification
le PTS (Presentation Time Stamp) indique leur instant de prsenta- rpond dabord aux besoins dfinis dans le cadre dune application
tion. Toutes ces indications sont donnes en units dhorloge de stockage. Dautres spcificits y sont ajoutes pour viser le trans-
90 kHz. Ces deux types de paquets PES sont ensuite multiplexs port de flux multiples avec des donnes auxiliaires (en particulier les
dans un mme flux avec des en-ttes pour indiquer leur nature et les donnes relatives au cryptage du signal), fonctionnalit importante
caractristiques essentielles du signal. Le fonctionnement du dco- dans un systme de tlvision numrique, et assurer la synchroni-
deur de rfrence tant spcifi, ainsi que la taille de la mmoire sation codeur/dcodeur.
Signal vido
Flux transport
Codeur Modulateur
Signal audio MPEG
Donnes auxiliaires
Canal de transmission
(cble, satellite,
terrestre)
Signal vido
Flux transport
Dcodeur Dmodulateur
Signal audio MPEG
Donnes auxiliaires Figure 15 Schma typique de codeur

et dcodeur dans une application
de transmission
La structure PES dfinie dans le cadre du flux programme est Le format gnralement utilis est le SIF (quart dimage TV) avec un
dabord reprise : chaque flux (vido, audio ou donnes auxiliaires) dbit de 1,25 Mbit/s. Puisque le SIF est un format progressif (une
est encapsul dans des paquets PES. image comporte les donnes prises par la camra un instant
Les diffrents flux PES sont ensuite insrs dans des paquets unique), les caractristiques spcifiques dun signal entrelac ne
transports de taille fixe (188 octets). Chaque paquet transport sont pas prises en compte ; cette limitation du standard implique
contient un mot de synchronisation, une PID (paquet identification) simplement des performances de compression rduites si lutilisa-
qui permet didentifier le type de paquet et son origine, dautres teur transmet des images de type TV.
donnes auxiliaires et enfin les donnes PES. Audio
Le paquet transport permet aussi de transmettre les donnes PCR Les frquences dchantillonnage autorises vont de 32 48 kHz.
(Program Clock Reference) pour indiquer lheure de son horloge Les dbits varient entre 32 et 384 kbit/s.
interne. Lutilisation conjointe de la synchronisation paquet et des
donnes PCR permet de raliser une synchronisation complte du Trois niveaux (layers) de codage audio sont utiliss. Ces niveaux
codeur et du dcodeur. se distinguent par les outils de compression, les frquences
dchantillonnage du signal dentre et les dbits.
Le paquet transport permet aussi de transmettre les donnes PSI
Niveau 1
(Program Specific Information). Ces informations permettent au
dcodeur de reconstituer le contenu global du flux par programmes Le filtrage dentre est de type DCT avec utilisation dun modle
(figure 15). A chaque programme, on peut associer plusieurs flux psychoacoustique uniquement en frquence.
vido, audio ou de donnes additionnelles (Tltexte, sous- Niveau 2
titrage). On trouvera plus de dtails sur le contenu de ces tables
Le filtrage dentre est aussi ralis dans le domaine temporel, ce
dans le standard MPEG-2 [2].
qui permet un certain masquage temporel.
Niveau 3
Le filtrage dentre est modifi pour obtenir des largeurs de

2. Norme par norme bandes de frquences ingales et donc mieux adaptes au systme
auditif humain. Pour le cas dun codage de signal stro, la coh-
rence entre les deux sources est utilise. MPEG-1 audio niveau 3 est
On trouvera un descriptif dtaill de chaque norme dans les rf- plus connu sous lappellation MP3, qui est souvent dforme tort
rences [1] [2] et [3]. en MPEG-3.
Systmes
Seul le flux de type programme est spcifi dans le standard
2.1 MPEG-1 MPEG-1.
2.1.1 Applications, spcificits

2.2 MPEG-2
Lapplication vise par la norme MPEG-1 est lenregistrement. Elle
a trouv sa mise en uvre dans plusieurs produits : le CDI, le VCD
(magntoscope numrique en Chine). Les premiers systmes de 2.2.1 Applications, spcificits
tlvision numrique aux tats-Unis ont mme fait appel cette
norme dans lattente de la norme MPEG-2. La norme MPEG-2 est dfinie pour les applications de stockage et
transmission vido. Lapplication phare qui a guid la dfinition de
la norme est la tlvision numrique (transmission satellite, cble,
2.1.2 Descriptif terrestre, studio). La base de dpart tant la norme MPEG-1, les
fonctionnalits ncessaires pour satisfaire les demandes relatives
Vido ces nouvelles applications y ont t incorpores.
La norme MPEG-1 utilise les fonctionnalits essentielles dune Vido : lessentiel des ajouts rside dans la prise en compte du
compression vido base de DCT et compensation de mouvement. caractre entrelac des signaux dentre. Dautres modifications
apportent une certaine flexibilit dans les paramtres de codage faon la plus simple doffrir les deux signaux est de coder spar-
dans le but damliorer les performances de compression par rap- ment les deux sources. Une redondance vidente existant entre les
port la norme MPEG-1. Pour autoriser un mode de codage compa- deux signaux, un mode de codage spcifique permettant de coder
tible entre diffrents niveaux de qualit (on utilisera le terme les deux signaux avec des rsolutions diffrentes et donc dexploiter
scalabilit dans la suite du document) ou grer efficacement les ces redondances est intgr la norme.
erreurs de transmission, des outils spcifiques ont aussi t incor- Le signal de basse rsolution est dabord cod de faon standard.
pors la norme (cf. 2.2.2). Le signal correspondant dcod est ensuite surchantillonn au
Les dbits utiliss varient selon lapplication, le format dentre et format de haute dfinition. La source de haute dfinition est code
la qualit requise. Pour un format de tlvision standard en mode de faon pratiquement standard, la seule diffrence rsidant dans
broadcast, un dbit de 2 Mbit/s permet dobtenir un signal de qualit une modification du processus de compensation de mouvement. Le
comparable au VHS, un dbit de 4 5 Mbit/s correspond une signal basse dfinition rchantillonn, peut, en effet, tre utilis
qualit PAL/SECAM et enfin, une qualit parfaite est obtenue un comme prdiction du macrobloc courant, le choix entre ces deux
dbit de 8 ou 10 Mbit/s. modes se faisant de la mme faon quentre les diffrents modes de
compensation classiques. Le dcodeur de haute rsolution effectue
Audio : lessentiel de la norme MPEG-1 audio est repris dans donc aussi le dcodage du signal basse dfinition pour le dcodage
MPEG-2. Des adaptations existent pour permettre un codage multi- de haute dfinition.
canaux cinq sources pour des applications surround. Les frquen-
ces dchantillonnage autorises vont de 16 48 kHz. Les dbits Il apparat nettement, au vu de cette description, que le mode
varient entre 8 et 384 kbit/s. compatible spatial est assez complexe mettre en uvre. Au regard
du cot de cette fonctionnalit, le gain en compression reste assez
Systme : le flux transport est dfini pour rpondre pleinement faible par rapport un systme de transmission spare des deux
aux contraintes de transmission dun signal vido ( 1.3.2). signaux. Ceci explique le peu dintrt rencontr par cet outil chez
les utilisateurs.
2.2.2 Scalabilit 2.2.2.3 Scalabilit temporelle
Pour rpondre des besoins spcifiques des systmes de trans- De la mme faon quen mode de scalabilit spatiale, la norme
mission vido, la norme MPEG-2 dfinit des outils permettant un MPEG-2 a dfini un mode de codage compatible entre deux signaux
codage avec diffrents niveaux de rsolution ou de qualit. de mme rsolution spatiale, mais avec une rsolution temporelle
diffrente. Le signal une frquence dimage la plus basse est aussi
utilis, aprs dcodage, dans la boucle de compensation du signal
2.2.2.1 Scalabilit SNR (Signal to Noise Ratio)
la frquence image la plus haute.
Lutilisation des normes vido MPEG dans leur mode standard
suppose un taux derreur sur les flux vido trs faible (au moins 109) 2.2.2.4 Compression data partitionning
de faon garantir une bonne qualit de service. Dans certaines Ce mode de compression rpond aux mmes besoins que le
applications [telles la transmission terrestre ou sur rseau ATM mode de scalabilit SNR. Deux flux de donnes sont transmis ; le
(Asynchronous Transfer Mode)], cette qualit ne peut tre garantie. flux additionnel permettant de restituer limage de qualit sup-
Le comit de normalisation a donc dvelopp un outil spcifique, la rieure est moins bien protg dans la transmission. Dans le systme
scalabilit SNR, pour rpondre ces besoins. de data partitionning, le codage reste identique au mode standard ;
Ce mode de codage permet de transmettre un flux MPEG avec les donnes sont simplement spares en deux niveaux la sortie
diffrents niveaux de qualit. Le flux de base qui contient lentre du VLC au niveau des blocs DCT. Les premiers mots VLC dun bloc
vido code un niveau de qualit bas est transmis dans le canal correspondant aux coefficients DCT basses frquences sont
avec un niveau de protection trs lev, et donc garantit la rcep- envoys dans le canal haute protection, les mots restant tant
tion une image quel que soit le taux derreur. Le flux additionnel transmis dans le canal additionnel. Ce mode de codage compatible
apporte une meilleure qualit dimage, mais sera moins bien est moins performant dun point de vue de dgradation progressive
protg dans la transmission. Le systme de codage scalabilit du signal que le mode SNR. En effet, la suppression pure et simple
SNR permet donc une dgradation progressive de la qualit du de coefficients DCT entrane des dfauts de codage plus visibles
signal vido dcod en fonction de la qualit de transmission. quune surquantification. En revanche, le data partitionning a le
En pratique, un codeur SNR ralise les mmes fonctions quun mrite dtre beaucoup plus simple mettre en uvre.
codeur standard ; seul le processus de quantification est modifi.
Les coefficients DCT sont dabord quantifis avec un pas de quanti- 2.2.3 Profils et niveaux
fication haut et transmis par codage VLC. Ensuite, lerreur rsiduelle
due la premire quantification est quantifie avec un pas de quan- 2.2.3.1 Profils
tification bas et de la mme faon transmise par codage VLC. Aprs
La norme MPEG-2, par ltendue des applications en tlvision
quantification inverse et addition des deux valeurs, le coefficient
vises, ncessite la mise en uvre de nombreuses techniques de
DCT est inject dans une boucle classique de compensation pour
compression, en particulier pour les aspects de codage compatible.
servir dans limage de rfrence. Le dcodeur SNR reproduit sym-
De faon autoriser des implmentations de la norme spcifiques
triquement quantification inverse et compensation de mouvement.
et donc une meilleure focalisation sur les applications vises, le
On remarquera que dans le cas o la couche de haut niveau est
comit MPEG a dfini les profils de codage suivants :
perdue, le contenu de limage de rfrence est diffrent de celui du
codeur, ce qui occasionne donc un effet de drive dans les images simple : ce profil met en uvre un minimum de modes de
dcodes. Lutilisation de paramtres standard (M = 3, N = 12) codage de faon autoriser des implantations bas cot de codeurs
permet de saffranchir notablement de cet effet, le nombre dimages et dcodeurs MPEG-2 ;
P successives entre deux images I tant limit. main : ce profil qui autorise tous les outils de codage non com-
patibles lexception du 422 est particulirement utilis dans les
applications de tlvision numrique ;
2.2.2.2 Scalabilit spatiale
422 : profil quivalent au Main avec lajout de la fonctionnalit
Le dploiement de services de tlvision numrique haute dfini- de codage 4 :2 :2 utile dans des applications de codage studio o la
tion (HDTV) ncessite dans un premier temps doffrir pour un mme qualit doit tre parfaite ;
programme les sources en format TV et HDTV, ceci afin de SNR : profil quivalent au Main avec la fonctionnalit de scala-
permettre une migration progressive du parc de rcepteurs. La bilit SNR ;
spatial : profil quivalent au SNR avec la fonctionnalit de sca- 2.3 MPEG-4

labilit spatiale ;
high : cest le profil incluant la plupart des outils de la norme.
Le tableau 1 dtaille les diffrentes caractristiques des profils. 2.3.1 Applications, fonctionnalits
Au dbut des annes 1990, les frontires entre les domaines de la
Tableau 1 Profils MPEG-2 diffusion, des tlcommunications et de linformatique deviennent
moins nettes. Certaines applications apparaissent qui diffusent de la
Caractristique Profil vido sur tous types de rseaux, y rajoutent des possibilits dinter-
activit, etc., et bien quencore mal dfini, ce march dit du multi-
Mode de codage Simple Main 422 SNR Spatial High mdia parat gigantesque. MPEG-4 se propose de standardiser une
Format reprsentation des donnes audiovisuelles permettant cette conver-
4 :2 :0 4 :2 :0 4 :2 :2 4 :2 :0 4 :2 :0 4 :2 :2 gence. Contrairement aux normes MPEG la prcdant, elle nest
de chrominance
donc pas construite en fonction dune application phare , mais au
Type dimages I, P I, P, B I, P, B I, P, B I, P, B I, P, B
contraire dans un souci de flexibilit, afin doffrir une solution au
SNR SNR plus grand nombre possible dapplications multimdia existantes et
Modes Non Non Non SNR ou ou
de scalabilit venir (diffusion, services de bases de donnes audiovisuelles,
spatial spatial multimdia sans fil, etc.) (figure 16 ).
Ainsi, cette norme offre des fonctionnalits trs diverses, tournant
On remarquera quune certaine hirarchie existe entre les profils : principalement autour de :
un flux binaire dun profil donn est obligatoirement dcodable par la compression, offrant des outils de codage optimiss pour
les dcodeurs rpondant aux caractristiques des profils suprieurs. des dbits allant de quelques kbit/s quelques Mbit/s, des objets
arbitraires (de forme rectangulaire ou non, de taille quelconque,
2.2.3.2 Niveaux squentiels ou entrelacs, fixes ou anims), des signaux naturels ou
de synthse ;
Ayant limit les fonctions dun dcodeur dans un profil donn, il linteractivit, permettant de dfinir des scnes complexes
est aussi important de limiter certains paramtres de codage, de objet par objet, et den manipuler la composition et les objets direc-
faon limiter la complexit du dcodeur. Le tableau 2 donne les tement dans le flux (copier-coller) sans avoir les dcoder ;
valeurs maximales des paramtres slectionns par niveau. la transmission, offrant des outils permettant dadapter les flux
tous types de rseaux, ds le codage (scalabilit, outils pour la
2.2.3.3 Couples profil/niveau robustesse aux erreurs) ou au niveau de la couche systmes.
Chaque profil et niveau tant dfini, lutilisateur de la norme
choisit de se conformer un couple profil/niveau qui correspond
aux besoins de son application. A titre dexemple, toutes les appli-
cations de tlvision numrique actuellement sur le march mettent
en uvre des solutions de codage/dcodage conformes la combi-
naison profil main /niveau main (MP @ ML) de MPEG-2.
Diffusion
2.2.4 Conformit
Les normes vido, audio et systme dfinissent la structure du

signal et le processus de dcodage. Un quipement de rception MPEG-4
doit donc tre capable de dcoder les signaux correspondant cette T
ue mu lcom
dfinition et restituer un signal correspondant au signal thorique atiq nic
dcod en respectant le processus dfini par la norme. Cette dfini- nform atio -
I ns
tion restant assez vague, le comit de normalisation a inclus dans la
norme une partie nomme conformit. Cette norme dfinit le
processus qui permet de vrifier quun quipement est bien
conforme la norme MPEG-2, et en particulier les caractristiques
des bitstreams dcodables par un quipement conforme la norme. Figure 16 Contexte de MPEG-4
Tableau 2 Niveaux MPEG-2

Niveaux
Paramtre
Low Main 422 High-1440 High
Format de codage ..................................... (pixel) H : 352 H : 720 H : 720 H : 1 440 H : 1 920
V : 288 V : 576 V : 576 V : 1 152 V : 1 152
Dbit ......................................................... (Mbit/s) 4 15 50 60 80
Taille de mmoire tampon ........................... (bit) 475 136 1 835 008 9 781 248 7 340 032 9 781 248
Taille de vecteur mouvement................... (pixel) H : 512 H : 1 024 H : 1024 H : 2 048 H : 2 048
V : 64 V : 128 V : 128 V : 128 V : 128
H : horizontal
V : vertical
De plus, elle sinterface efficacement avec VRML (langage de dcrites dans les paragraphes suivants (audio : 2.3.4 et vido : 2.3.5).
modlisation de la ralit virtuelle), pour permettre lutilisation du Cela demande en outre une gestion flexible de la structure des
3D en combinaison avec la vido. scnes et de la composition des flux lmentaires qui les compose :
ceci est gr par MPEG-4 systmes, et sera abord au
paragraphe 2.3.6.
2.3.2 Versions et profils
2.3.2.1 Versions 2.3.4 MPEG-4 audio

En juillet 1997, certaines technologies importantes pour MPEG-4
2.3.4.1 Codage des sons naturels
sont encore immatures : MPEG dcide alors de dfinir le standard
en deux versions successives. MPEG-4 version 1, lchance initia- MPEG-4 audio dfinit des techniques adaptes des dbits allant
lement prvue pour MPEG-4, propose les fonctionnalits principales de 2 (voire moins en cas de dbit variable) 64 kbit/s, pour de
de MPEG-4. MPEG-4 version 2, un an plus tard, intgrera les laudio et de la parole. Aucun algorithme gnrique ne stant
nouvelles technologies apportant une valeur ajoute significative au montr suffisamment performant couvrir tous ces domaines, la
standard sous la forme de nouveaux profils. Les profils dfinis en norme contient en fait diffrents outils, intgrs dans une structure
version 1 ne seront pas modifis en version 2, et les dcodeurs de globale : Harmonic Vector eXcitation Coding (HVXC) et Code Excited
MPEG-4 version 2 seront compatibles avec la version 1 (tableau 3). Linear Predictive (CELP) pour la parole, Twin VQ (Vector Quantiza-
tion) et AAC (codage audio avanc) pour laudio. Les dbits plus
levs sont galement traits de faon spcifique, grce linclu-
sion dans MPEG-4 audio de MPEG-2 AAC.
Tableau 3 chancier des versions de MPEG-4 Enfin, le standard autorise la scalabilit :
en dbit : un flux bas dbit pouvant tre extrait dun flux plus
Standard MPEG-4 version 1 MPEG-4 version 2
riche, la transmission ou au dcodage ;
Draft Final du Comit (FCD) Juillet 1998 Juillet 1999 en complexit : des codeurs plus ou moins complexes pou-
vant gnrer des flux conformes, et des dcodeurs plus ou moins
Standard International (SI) Fvrier 1999 Janvier 2000 complexes pouvant dcoder un flux donn.
2.3.4.2 Synthse
2.3.2.2 Profils et niveaux Text To Speech (TTS) : MPEG-4 standardise la syntaxe et linter-
De mme que MPEG-2, MPEG-4 dfinit des profils, afin que face permettant dutiliser du TTS. Ce processus gnre un signal de
chaque dcodeur nait implmenter quune sous-partie des outils parole synthtique partir de texte (simple ou enrichi de param-
standardiss, dfinie pour satisfaire un certain domaine dappli- tres prosodiques spcifiant quelques caractristiques de diction), et
cations. Chaque profil comporte ensuite des niveaux, correspon- permet de transmettre un discours intelligible des dbits allant
dant diffrentes complexits de dcodage. typiquement de 200 1 200 bit/s. Il permet en outre de gnrer
divers paramtres de contrle, par exemple pour synchroniser avec
Il serait ici trop long de passer tous les profils en revue : la
la parole les mouvements dun visage de synthse (cf. 2.3.5).
version 1 en comporte une vingtaine, spcifiant des orientations
dans les domaines de laudio et de la vido (naturelles et de La synthse musicale : MPEG-4 standardise ici un langage trs
synthse), des lments graphiques utiliss, de la description de sophistiqu de description de partition, le SASL (Structured Audio
scne, et de la description dobjets. Score Language), ainsi quun langage permettant de dcrire la syn-
thse, cest--dire de dfinir les instruments invoqus par la parti-
tion, le SAOL (Structured Audio Orchestra Language). Les flux
2.3.3 Approche objet et structure de scnes gnrs par ces deux langages permettent de gnrer une large
varit de sons, allant de simples bruitages (pas, claquements de
La principale nouveaut de MPEG-4 rside donc dans son portes) de la musique symphonique, en passant par le son de la
approche objet de linformation audiovisuelle. Pour MPEG-4, une pluie ou tout effet sonore synthtique complexe. Pour des appli-
scne audiovisuelle pourra tre considre comme dcrit sur la cations simples, le protocole MIDI (Musical Instrument Digital Inter-
figure 17. face) peut remplacer le SASL. De plus, le SAOL peut aussi tre rem-
Cela demande dtre capable de coder indpendamment et effi- plac en utilisant un format dcrivant une synthse plus simple et
cacement toutes sortes dobjets, do la varit des techniques moins riche, galement normalis par MPEG-4.
Composition et
Description de rendu
scne
Objets
audiovisuels Information de
composition Scne audiovisuelle
interactive Figure 17 Un exemple de structure
de scne MPEG-4
Plan alpha binaire
Pas de plan alpha :

+ objet rectangulaire
Figure 18 YUV et plan alpha
2.3.5 MPEG-4 visuel est utilis pour servir de base lanimation. Au niveau du BIFS
(cf. 2.3.6), des outils associs sont galement proposs, comme
2.3.5.1 Codage de la vido par exemple un interpolateur danimation. Le rendu et lanimation
du corps humain entier seront standardiss de la mme faon dans
Dans MPEG-4, le codage vido permet de coder non seulement la version 2.
des images classiques, mais aussi des objets de forme arbitraire :
aux donnes dentre YUV habituelles (cf. 1.1.1.1) sajoute alors Treillis actifs : ce mode de codage reprsente chaque objet par un
un alpha plane (plan alpha). Binaire, le plan alpha dfinit unique- treillis triangulaire, dont sont transmis les positions des nuds
ment la forme de lobjet, alors considr comme opaque chaque instant t ainsi que leurs mouvements de t 1 t. Ainsi, par
(figure 18). Sur huit bits il prcise aussi sa transparence. interpolation, le dcodeur peut reconstruire la texture intrieure
chaque triangle du treillis partir de celle du triangle correspondant
Le plan alpha binaire est cod en utilisant la technique de codage dans limage prcdente.
de contours dcrite au paragraphe 1.1.5.1. Dans le cas dun plan
alpha sur huit bits, on code sa composante binaire de la mme
faon, puis les niveaux de gris de chaque bloc intrieur sont cods 2.3.6 MPEG-4 systmes
par DCT. Les composantes YUV de la texture des objets sont ensuite
traites avec les mmes techniques que pour MPEG-1 et MPEG-2
2.3.6.1 Multiplexage
(compensation de mouvement, DCT), lgrement modifies pour
grer efficacement le cas des blocs situs cheval sur les contours La transmission de flux MPEG-4 synchroniss selon une qualit
des objets. de service donne est gre par le multiplexeur MPEG-4, dont la
MPEG-4 vido se diffrencie aussi de ses prdcesseurs par structure est reprsente sur la figure 19.
sa flexibilit en dbits : le codage est optimis pour aller de quel-
ques kbits quelques Mbits par seconde, grce la prsence
par exemple de plusieurs tables de quantifications ou de
Flux lmentaires
plusieurs modes de prdiction de mouvement, entre lesquels lalgo-
rithme choisit suivant le dbit vis. Le mode de codage par sprites,
dcrit au paragraphe 1.1.5.2, est inclus. La robustesse aux erreurs SL SL ... SL
est galement pousse beaucoup plus loin que dans MPEG-1 et Couche de
MPEG-2, notamment pour prendre en compte les conditions de synchronisation
transmission sur rseaux mobiles, et de nombreux outils de codage Flux en paquets SL
sont fournis pour amliorer la resynchronisation, la protection et la
rcupration des donnes. Notons enfin que MPEG-4 offre un mode
de codage spcifique aux images fixes, destin lhabillage de Couche
FlexMux
mondes 3D par des textures relles. Ce mode propose une scalabi- DMIF
lit trs fine granularit, afin de pouvoir sadapter une distance
Flux FlexMux
de visualisation variable (position de lutilisateur dans le monde 3D).
Il utilise cet effet une technique de codage/dcodage base
dondelettes. Les diffrents types de scalabilit proposs sur la
vido sont par contre trs similaires ceux de MPEG-2. (RTP) Couche
UDP MPEG-2 Trans. Mux
TS ...
2.3.5.2 Synthse IP
Rendu et animation de visages et de corps humains : MPEG-4

standardise en version 1 des paramtres de description de modles
de visage, les FDP (Face Definition parameters), ainsi que des para- Flux Trans. Mux
mtres permettant de spcifier lanimation du modle, les FAP (Face
Animation Parameters). En labsence de FDP, un modle par dfaut Figure 19 Les diffrentes couches de multiplexage MPEG-4
La synchronisation entre flux lmentaires est similaire ce qui Cette description est compatible avec VRML (cest--dire que tout
est fait dans MPEG-2. VRML est compris par MPEG-4), dont elle sest en fait inspire pour
lenrichir de nuds audio et vido 2D. Pour assurer une transmis-
DMIF (Delivery Multimedia Integration Framework) est le proto- sion efficace de la description de scne, MPEG-4 standardise le BIFS
cole grant la transmission des flux MPEG-4. MPEG-4 standardise (Binary Format for Scene Description), qui permet dexprimer sous
son interface avec lapplication. Ainsi, cette gestion est faite de forme binaire toute description de scne 2D et/ou 3D. Le flux binaire
faon compltement transparente pour lapplication, quel que soit de description de scne ainsi obtenu est ensuite trait comme un
son contexte (diffusion, stockage sur disques, rseaux interactifs). flux lmentaire ordinaire (cf. 2.3.6.1). Il peut aussi, comme les
Le FlexMux (Flexible Multiplexing) permet de regrouper les diff- autres flux lmentaires, tre dcod la vole , sans attendre
rents flux lmentaires transmettre de manire efficace (regroupe- dtre reu entirement. Notons que cest cette indpendance entre
ment par qualit de service pour minimiser le nombre de le flux de description de scne et les flux de donnes audio et vido
connexions, optimisation du remplissage des paquets pour utiliser des diffrents objets la composant qui offre daussi larges possibi-
au mieux la bande passante), lorsque ceci nest pas suffisamment lits de cration, manipulation et interaction.
pris en charge par le protocole de transport. Cest une partie option- MPEG-4 systmes gre enfin linteractivit avec le contenu
nelle du multiplex MPEG-4. prsent, qui peut se faire soit en local la rception des donnes,
soit via un canal de retour sur le serveur.
Le TransMux (Transport Multiplexing) adapte le multiplexage et
la protection des donnes au protocole de transmission choisi,
de faon assurer la qualit de service requise. Ainsi, chaque appli-
cation MPEG-4 utilise une ou plusieurs instances du TransMux
(MPEG-2 Transport, IP). Seule linterface avec cette couche trans- 3. Conclusion
port est normalise : les instances elles-mmes suivent les spcifi-
cations des protocoles utiliss.
Les standards MPEG sont aujourdhui des stades diffrents de
2.3.6.2 Description de scnes leur vie. MPEG-1 a connu un succs rapide dans des produits
destins lenregistrement comme le CDI. Son champ dutilisation
Les aspects concernant la composition des objets et la description se rduit au profit de la norme MPEG-2 qui couvre aussi bien le stoc-
des scnes sont traits dans la partie systmes de la norme MPEG-4. kage (DVD, DVD renregistrable) que la tlvision numrique, qui
Chaque scne est dcrite sous forme dune structure hirarchique connat un succs commercial en Europe et aux tats-Unis. Le draft
(statique ou dynamique), dont chaque nud est un objet (vido, final (FDIS Final Draft International Standard) de la version 1 de la
image, parole) (figure 20). norme MPEG-4 a t finalis fin 1998, et son utilisation dbute dans
des applications multimdia comme la transmission de donnes sur
Internet.
La normalisation pour la compression des donnes audiovi-
suelles est maintenant bien couverte par les standards MPEG-1,
Scne MPEG-2 et MPEG-4. Ajoutant aux avantages du numrique des
outils performants, penss par des experts et des industriels, spci-
fiques au maniement des donnes audiovisuelles, ils ouvrent la
porte son utilisation massive dans tous les domaines touchant au
Personnage Fond multimdia et laudiovisuel.
Dans cette optique de multiplication rapide des contenus audiovi-
suels sous forme numrique, le prochain dfi rsidera sans doute
dans la gestion de laccs ces donnes. Il faudra pouvoir organiser
Vido (objet anim Voix Chants Sprite de leur stockage et leur transmission de faon ce que lutilisateur
non rectangulaire) d'oiseaux paysage puisse facilement retrouver et slectionner ce quil dsire. Aussi, le
comit MPEG a-t-il dcid de poursuivre ses travaux de normalisa-
tion dans le domaine de lindexation des donnes multimdias, ce
Figure 20 Structure de scne MPEG-4 qui donnera lieu en 2001 au standard MPEG-7 [8].

TE 5 360 Compressions MPEG-1 À MPEG-4 PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

TE 5 360 Compressions MPEG-1 À MPEG-4 PDF

Hochgeladen von

Copyright:

Verfügbare Formate

Compressions MPEG-1 MPEG-4

par tienne FERT

1. MPEG : les enjeux techniques .............................................................. TE 5 360 - 3

es technologies numriques ont abord le domaine des produits grand

sion pralable. Un problme similaire de capacit se pose pour les quipements

1. MPEG : les enjeux

Cette liste nest bien entendu pas limitative : en thorie, les

Un bloc de dimensions N N est donc transform dans la phase

Lopration de quantification est la premire tape du processus

Et ensuite pour les blocs intra :

= { quant [ AC ( u, v ) ] + sign [ AC ( u, v ) ] [ ( 3 mquant ) // 4 ] } ( 2 mquant )

quant 1 [ AC ( u, v ) ] = ( 2 quant [ AC ( u, v ) ] ) weight ( u, v ) mquant 32

= ( ( 2 quant [ AC ( u, v ) ] + sign ( quant [ AC ( u, v ) ] ) weight ( u, v ) )

1.1.1.4 Codage statistique 1.1.1.5 Schma de codage/dcodage Intra

Formatage des Flux MPEG

Flux MPEG Quantification Formatage

Image I (Intra picture) : dans cette image, les macroblocs sont

Origine des prdictions

Ordre de codage et dcodage

Ordre d'affichage dans le dcodeur

B1 B2 I3 B4 B5 P6 B7 B8 P9 Figure 7 Squencement des images I, P, B

1.1.2.4 Modes de compensation Compensation 8 8 : autoris dans MPEG-4 uniquement, ce

Source Formatage des

Mmoires DCT Quantification

Figure 8 Schma de codage/dcodage Inter

En-tte squence Image Image Image Image

En-tte image Slice Slice Slice Slice

En-tte slice Macrobloc Macrobloc Macrobloc Macrobloc Macrobloc

En-tte macrobloc Bloc Bloc Bloc Bloc Bloc

1.1.3.1 Squence 1.1.3.2 Image

1.1.3.3 Slice mental et thorique de dcodeur MPEG-2 : le modle VBV (Video

b application de stockage Figure 10 Schmas de codage/dcodage

Mouvement Dcodage Compensation

Image 107 Image 1 Image 204

Lobjectif de prise en compte des caractristiques auditives de 1.3.1 Flux programme

Entre audio Flux MPEG audio

Flux MPEG audio Sortie audio

Donnes auxiliaires Figure 15 Schma typique de codeur

Le filtrage dentre est modifi pour obtenir des largeurs de

2.1.1 Applications, spcificits

spatial : profil quivalent au SNR avec la fonctionnalit de sca- 2.3 MPEG-4

Les normes vido, audio et systme dfinissent la structure du

Tableau 2 Niveaux MPEG-2

2.3.2.1 Versions 2.3.4 MPEG-4 audio

Plan alpha binaire

Pas de plan alpha :

Figure 18 YUV et plan alpha

Rendu et animation de visages et de corps humains : MPEG-4

Das könnte Ihnen auch gefallen