Beruflich Dokumente
Kultur Dokumente
Le son multicanal
De la production la diffusion
du son 5.1, 3D et binaural
Dunod, 2015
5 rue Laromiguire, 75005 Paris
www.dunod.com
ISBN 978-2-10-074083-3
Prface
Damn, cest injuste! Bergame Priaux, avec la collaboration de Jean-Luc Ohl et Patrick
Thvenot, a crit le livre que je voulais crire. Aprs toutes ces annes de rencontres et
de lectures de bons et de moins bons livres sur le multicanal, javais dcid que le seul
livre que jcrirai porterait sur ce sujet. Il traiterait toutes les formes du son multicanal:
ses dbuts (il y a quelques centaines dannes), ses annes de gloire au cinma, le
passage au monde de la musique et du broadcast, le streaming et les tlconfrences.
La technologie pour lenregistrement, le mixage et la diffusion dun programme et plus
important encore, lesthtique et pourquoi nous faisons cela.
Bergame a tout couvert. Jai cherch une application non traite, mais je nai pas
trouv. Ce livre nest aucunement une encyclopdie des deux cent premiers rsultats
sur Google pour la recherche de son surround ou audio multicanal. La structure
de louvrage est trs bien pense, cela ressemble un dner franais traditionnel avec
un amuse-bouche et un apritif pour ouvrir lapptit, la salade et le plat principal
pour vous emporter, et bien sr le dessert, sucr et dlicieux. Sans mentionner le vin
fantastique qui accompagne les plats. Ou bien, on pourrait dire que cela ressemble
une forme de sonate avec son introduction, lexposition du thme principal (thme
secondaire, les transitions de modulation), son dveloppement, la reprise et la coda.
Ou plus simplement : cest une bonne histoire.
Soyez inform, cest un bagage lourd dans lequel vous devrez trier les informations
et vous dcouvrirez de vieilles connaissances et de nouvelles notions, des ingrdients
essentiels et des pices exotiques. Lessentiel est l, les dtails aussi, beaucoup de dtails,
ainsi que les derniers clairages sur la complexit de ce segment de lingnierie audio.
Tout ceci est men avec art et connaissance jumels avec un grand contenu qui touche
lme et le cur.
Damn, cest un grand livre. Mais bon, maintenant quil a t crit par Bergame, je vais
certainement avoir plus de temps libre! Pour le relire, de bout en bout.
Florian Camerer
Ingnieur du son senior lORF, prsident de EBU-groupe PLOUD
Remerciements
Sigles,
Introduction
Chapitre 1 Gnralits
XIX
XXI
XXV
1.1 couter
1.2 Historique
1.2.1 Cinma
1.3 Intrts
10
1.3.1
10
1.3.2
12
1.3.3
12
1.3.4
13
1.4 Vecteurs
Dunod Toute reproduction non autorise est un dlit.
XVII
13
1.4.1
13
1.4.2
14
1.4.3
La radio numrique
14
1.4.4
14
1.4.5
Le jeu vido
15
1.4.6
15
1.4.7 Internet
15
1.4.8
16
1.5 Problmatiques
1.5.1
Le systme dcoute
16
16
VIII
1.6
1.7
1.8
Le
son multicanal
1.5.2
16
1.5.3
17
1.5.4
17
1.5.5
17
17
1.6.1
17
1.6.2
18
1.6.3
La WFS
18
1.6.4
Le binaural
19
1.6.5
19
Formats multicanal
20
1.7.1 Quadriphonie
25
1.7.2
5.1 ITU
26
1.7.3
26
1.7.4
27
1.7.5
27
1.7.6
5.1 cinma
28
1.7.7
29
1.7.8
6.1 cinma
29
1.7.9
30
30
31
31
32
34
35
35
36
37
38
39
39
40
41
42
1.7.25 WFS
43
43
1.8.1 Statistiques
43
1.8.2
44
1.8.3
45
1.8.4
46
Table
2.1
2.2
2.3
2.4
2.5
Chapitre 2 Le
2.7
2.8
2.9
systme dcoute
47
48
2.1.1
48
2.1.2
48
2.1.3
49
50
2.2.1
50
2.2.2
51
51
2.3.1
Frquence glissante
51
2.3.2
Bruit rose
51
2.3.3
51
2.3.4
Retard dynamique
52
Lenceinte acoustique
52
2.4.1
Diffrents types
52
2.4.2
53
2.4.3
58
Linfluence du local
61
2.5.1
61
2.5.2
63
2.5.3
66
67
2.5.4
2.6
IX
des matires
68
2.6.1
68
2.6.2 LEDE
69
2.6.3
70
2.6.4
72
2.6.5
74
Linfluence de lamplificateur
75
2.7.1
75
2.7.2
75
76
2.8.1
76
2.8.2
80
2.8.3
84
87
2.9.1
87
2.9.2
87
Le
son multicanal
88
88
91
91
97
2.11.4 Diagnostic et test dun systme dcoute 5.1 par mthode entirement
auditive lintention des ingnieurs du son
97
98
Chapitre 3 Les
facteurs perceptifs
98
103
109
3.1
Le standard stro
110
3.2
Apport du 5.1
112
3.3
113
3.4 Localisation
3.5
3.6
3.7
115
3.4.1
Principe de fonctionnement
115
3.4.2
118
3.4.3
Prcision de localisation
124
3.4.4
126
3.4.5
Perception de la distance
127
3.4.6
129
3.4.7
130
3.4.8
131
3.4.9
Internalisation et externalisation
131
132
Impression spatiale
135
3.5.1 Dfinition
135
3.5.2 Enveloppement
138
Attention auditive
139
3.6.1
Principe gnral
139
3.6.2
140
3.6.3
141
3.6.4
141
3.6.5
Quelques rgles
142
143
3.7.1 Esthtique
143
3.7.2 Localisation
143
Table
XI
des matires
3.7.3
Impression spatiale
144
3.7.4
Attention auditive
144
Chapitre 4 Limage
4.1
146
4.2
146
4.2.1
147
4.2.2
Construction de limage
148
4.2.3
Couleur de limage
153
4.2.4
Qualit du signal
154
4.3
155
4.4
157
4.4.1
157
4.4.2
157
158
4.4.3 Musique
4.4.4 LAcousmatique et lAcousmonium par Daniel Teruggi
162
4.4.5 Radio
164
4.4.6
165
4.4.7
lments de ralisation
171
5.1
145
Chapitre 5 L a
prise de son
175
176
5.1.1
176
Diffrence dintensit
5.1.2
Diffrence de temps
176
5.1.3
177
5.1.4
180
5.1.5 Directivits
180
5.2.
181
5.3
183
5.3.1 MMAD
183
5.3.2
OCT Surround
197
5.3.3
Arbre Decca
201
5.3.4
Arbre Fukada
204
5.3.5 INA5
5.4
204
207
5.4.1
207
Double MS
211
5.4.3
217
XII
Le
5.5
5.6
son multicanal
Systmes dambiance
219
5.5.1
Double ORTF
219
5.5.2
220
5.5.3
Croix IRT
222
5.5.4
Carr Hamasaki
224
5.5.5
226
5.5.6
Holophone H2 Pro
226
5.5.7
DPA 5100
227
228
5.6.1
230
5.6.2
235
5.7
237
5.8
240
5.8.1
Les enregistreurs
240
5.8.2
240
5.9 Applications
241
5.9.1 Film
241
5.9.2
Documentaire limage
242
5.9.3
243
248
5.9.4
5.9.5 Sport
249
5.9.6 Musique
249
Chapitre 6 L a
postproduction
6.1 Gnralits
251
252
6.1.1 Monitoring
252
6.1.2
253
6.1.3
253
6.1.4 DAW
257
6.1.5 Consoles
257
6.2
La mesure
258
6.3
Manager multicanal
261
6.4
264
6.5
267
6.5.1
267
6.5.2
Le type de pan-pot
269
6.5.3
276
Table
XIII
des matires
6.5.4
277
6.5.5
279
6.6 Rverbration
6.7
6.8
280
6.6.1
Rverbration convolution
281
6.6.2
284
Traitement Dynamique
284
6.7.1
Compresseurs multicanal
284
6.7.2
Limiteurs multicanal
288
Autres effets
289
6.8.1 Autopan
289
6.8.2 Dlais
289
6.9 Downmix
289
6.10 Upmix
290
292
292
293
293
294
294
294
297
299
301
303
6.15 Applications
304
6.15.1 Film
304
308
308
Chapitre 7 Le
codage et la diffusion
7.1 Introduction
309
309
7.1.1 Dfinition
309
7.1.2
310
7.2 Principes
310
7.2.1
Codage entropique
310
7.2.2
310
7.2.3
311
7.2.4
Bases de psychoacoustique
313
7.2.5
Modles psychoacoustiques
315
XIV
7.3
7.4
7.5
8.1
Le
son multicanal
Qualit subjective
321
7.3.1
322
7.3.2
Mesures perceptuelles
325
7.3.3
Considrations pratiques
325
7.3.4
Comparaison de codage
326
7.3.5
326
7.3.6
Codage en cascade
326
7.3.7
327
327
7.4.1 PCM
327
7.4.2 Lossless
327
7.4.3 DSD
328
Codages perceptifs
328
7.5.1
328
7.5.2
Famille Dolby
332
7.5.3
Famille DTS
339
7.5.4
341
7.5.5
341
7.5.6
342
7.5.7
volution du codage
342
7.5.8
Droit et protections
342
7.5.9
Vido et audio
343
345
7.5.11 Diffusion
351
359
360
8.1.1
360
361
8.1.2
Dolby Surround
8.1.3
361
8.1.4
369
8.1.5
Metadata DTS
371
8.1.6
372
8.1.7
374
8.1.8
374
8.1.9
380
380
Table
8.2
8.3
8.4
8.5
8.6
XV
des matires
Mesure du loudness
380
8.2.1
380
8.2.2
381
8.2.3
383
385
8.3.1
386
8.3.2
Anciennes normes franaises PAD CST RT16, CST RT17 v2, CST RT19 387
8.3.3
8.3.4
8.3.5
399
401
8.4.1
401
8.4.2
Upmixeurs
402
8.4.3
405
406
8.5.1
DTS Neural
406
8.5.2
406
406
8.6.1
Quelques recommandations
407
8.6.2
Les codecs
407
8.6.3
410
8.6.4
411
Conclusion
413
Bibliographie
415
Index
417
Jean-Luc Ohl
XVIII
Le
son multicanal
Patrick Thvenot
Remerciements
Lcriture de ces pages a t motive par lambition et la passion de chaque contributeur,
dont mes co-auteurs PatrickThvenot et Jean-LucOhl et de nombreux collaborateurs
professionnels.
XX
Le
son multicanal
Sigles, termes
techniques, conventions
Un certain nombre de sigles ou termes techniques sont utiliss par les auteurs, certains
se traduisent difficilement de langlais vers le franais et sont gnralement exploits
tels quels. En voici la liste et la dfinition.
Principaux canaux de mixage et de diffusion multicanal
XXII
Le
son multicanal
Sigles,
XXIII
Binaural: le terme dsigne lcoute spatialise au casque bien que la dfinition exacte
du mot binaural soit ayant trait aux deux oreilles
Introduction
Cet ouvrage est n dune vritable passion pour la spatialisation du son que lauteur
principal exploite en production et enseigne depuis ses premires coutes en5.1.
chaque nouvelle coute, les sensations despace en multicanal sont tonnantes de
ralisme ou de crativit. Soit on reproduit la ralit sonore, soit on cre un univers
imaginaire, les deux approches tant riches dmotions.
Lenvie a t de sentourer de co-auteurs experts dans leurs domaines et de collaborateurs
professionnels preneurs de son, mixeurs, monteurs son, ralisateurs, ingnieurs pour
la recherche... Cette collaboration est bien sr dune grande richesse et fait de ce travail
un partage et la runion de points de vue diffrents et complmentaires.
Ces pages abordent principalement lexploitation du son multicanal au format5.1
pour diffrentes applications, le film, la TVHD, la radio, la musique, le jeu vido, la
scnographie, sur des aspects techniques et artistiques. Comment lhistoire dun tel
format sest-elle construite? Quels en sont les intrts, les vecteurs? Quelles techniques
de spatialisation trouve-t-on? Quelles sont les rgles qui dirigent lcriture, la ralisation
et qui constituent le langage de ces nouvelles images sonores?
Cet ouvrage sadresse aux professionnels en exploitation autant quaux tudiants en son.
La lecture peut se faire diffrents niveaux, le lecteur peut approfondir une technique
de prise de son particulire, comme il peut souhaiter simplement comprendre les
intrts de produire un son spatialis ou tout simplement couter des extraits sonores
en 5.1 ou en binaural.
chaque dbut de chapitre sont exposs les points essentiels du contenu, ces informations
servent guider le lecteur. Les principes sont dvelopps dans chacun des chapitres et
souvent illustrs par des schmas, des photographies, des expriences, des points de
vue et des interviews de professionnels. Certains contenus complmentaires ou plus
spcifiques sont mis en ligne et accessibles gratuitement sur le site www.dunod.com
et sont signals tout au long de louvrage. Ces extraits sont galement disponibles sur
le site www.lesonmulticanal.com. Lcoute dextraits sonores est sans aucun doute un
des points forts de cet ouvrage. Ce sont des sons au format5.1 ou en binaural qui
donnent des rfrences indispensables lapprentissage de ce nouveau mode dcoute.
Le lecteur trouvera aussi dans la partie web une session Pro Tools test faisant rfrence
XXVI
Le
son multicanal
Chapitre1
Gnralits
essentiels
Dans ce premier chapitre sont exposes les gnralits du multicanal. Elles permettent
de situer le contexte de la spatialisation et de poser les questions essentielles sur la
fabrication du son. Comment lhistorique sest-il fait depuis les premires exprimentations? Quelles sont les diffrentes technologies utilises pour spatialiser le son?
Quels sont les intrts de produire en son multicanal? Quels sont les marchs et les
vecteurs? Comment diffuse-t-on ce type de son? Quelles sont les nouvelles problmatiques dexploitation? Enfin quels sont les diffrents formats du multicanal?
Chapitre1 Gnralits
1.1
couter
Lorsque lauditeur coute, il sapplique entendre un son.
Il existe aujourdhui diffrentes faons dcouter le son: on peut sinformer ou se divertir.
otive par
Ces deux modes dcoute sollicitent une attention auditive trs variable, m
une attente chez lauditeur et des motions recherches trs diffrentes. Le multicanal
peut alors se dfinir par la recherche dmotions plus, fortes passant par lauditif.
Lcoute du bulletin dinformation la radio, ou la tlvision, demande une bonne
intelligibilit de la parole. Le spectateur peut tre mobile, suivre les reportages qui
lintressent le plus, ignorer les autres, dans ce cas une construction dimage sonore
nest pas recherche: une image monophonique ou strophonique est le format le plus
adapt. Lcoute dune mission tlvise ou radiophonique peut demander une plus
grande attention auditive. Dans ce cas le spectateur souhaite suivre lintgralit du
programme mais il peut lcouter avec un certain recul, en faisant une autre activit.
Il peut se dplacer et modifier son point dcoute, la rception du signal ne sera pas
alterne et dans ce cas la construction spatiale de limage sonore sera peu exploite.
Lcoute5.1 sur home-cinma dun concert, dun vnement sportif, dun documentaire ou dun film suscite une plus grande attention auditive du spectateur. Ce dernier
est gnralement immobile, centr devant limage de son cran de TV, en attente dun
spectacle pour lequel la construction de limage sonore prsente un intrt. Le spectateur apprcie la spatialisation du son, mais celle-ci nest pas indispensable.
Le dernier degr dcoute implique davantage lauditeur. Cest par exemple le cas de
la diffusion en salle dun film. Les diffrents canaux amliorent lintelligibilit du son
pour tous les spectateurs et renforcent particulirement le rapport du son limage.
Dautres contenus denses, comme la musique contemporaine, scoutent plus naturellement en5.1 quen stro, certains contenus scrivent mme directement avec
lespace, comme la musique acousmatique. Dans un jeu vido le joueur sidentifie au
personnage grce la spatialisation, cette dernire dcuple les sensations ralistes de
situation et de dplacement. On trouve gnralement dans ces contenus des squences
sonores qui enveloppent lauditeur. Dans ce cas, la spatialisation du son fait partie de
lcriture de luvre.
1.2
Historique
Lhistorique du multicanal nous renvoie soixante-quinze ans dexprimentations,
depuis les expriences de Disney en 1940, jusquaux nouvelles technologies de spatialisation que nous connaissons aujourdhui.
1.2.1 Cinma
Le cinma souvre au multicanal partir des premires expriences des ingnieurs
de Disney en 1940, autour du film Fantasia. Le procd utilis est le Fantasound: le
1.2 Historique
film est sonoris en cinq canaux partir de trois canaux de production LCR. La diffusion taitLCR derrire lcran et LsRs en fond de salle, ce qui dfinit les bases de
notre format5.1. Entre1946 et1954, le cinma connat un dclin d larrive de la
tlvision. Le nombre de spectateurs chute de moiti. De 1950 1970 senchanent une
multitude de procds, entre autres le Cinrama et le Todd AO, prcurseurs du format7.1 SDDS, disposant cinq enceintes derrire lcran, et le Cinmascope: un procd
en quatre canaux LCRS. Dans les annes 1970 apparat le procd IMAX (Image Maximum) qui tend dvelopper la taille de limage et langle de vision avec combinaison
de projecteurs multiples pour les grandes salles. LIMAX se dcline en IMAX DOME
(appel initialement OMNIMAX), prvu pour la projection sur des crans inclins et
en relief grce lIMAX 3D. Ce dernier apporte un effet immersif. En 1974 apparat le
Subwoofer, avec notamment le procd Sensurround, qui tend la bande passante de
la diffusion dans le grave.
En 1976, ces diffrents procds cdent la place au Dolby Stereo qui, grce lutilisation dune matrice 4-2-4, permet de diffuser le mixage LCRS de lpoque partir
de deux canaux LtRt (Left total, Right total, voir chapitres7 et 8). En 1976, A star is
Born marque le dbut de la production des films en Dolby stereo. Ce sera le premier
film sur pellicule 35mm utilisant ce procd. Par la suite, un certain nombre damliorations font voluer le mode de diffusion: en 1977, le producteur de Star Wars
souhaite renforcer la diffusion dans les graves avec Dolby pour mieux simuler les
scnes de guerre dans lespace et ajoute pour cela un canal ddi au Subwoofer appel
Lfe (Low Frequency Effect ou Baby Boom). En 1978, Superman est le premier film
exprimentant des canaux surround stereo. Apparat en 1983 la norme THX avec le
Retour du Jedi: elle impose une norme pour le rglage son des salles de cinma. Et en
1986, Dolby intgre travers le procd Dolby SR (Spectral Recording) son rducteur
de bruit.
En 1987, une avance importante: le dispositif5.1 du cinma est norm. Lanne 1990
marque la sortie du centime film en Dolby Stereo SR, Robocop 2.
En 1992, Dolby rvolutionne encore le rendu sonore au cinma avec une version numrique du SR: le Dolby SRD (Spectral Recording Digital). Le Dolby SRD ajoute sur la
pellicule film, ct des deux pistes analogiques Dolby SR Lt Rt toujours prsentes pour
garantir la compatibilit, un signal numrique AC-3 imprim entre les perforations.
Ainsi, on peut obtenir jusqu six canaux totalement discrets en configuration 3/2/1,
le sixime canal correspondant au Lfe. Ce nouveau procd numrique est inaugur la
mme anne avec le Retour de Batman. En 1993, DTS et SONY se joignent cette volution numrique en proposant le DTS5.1 et le SDDS7.1 (le SDDS place cinq enceintes
derrire lcran). En 1996, environ quatre mille salles sont quipes en Dolby Digital,
la mme anne, le Dolby Drive, systme entirement bas sur disque dur conu pour
remplacer terme les dfileurs 35mm magntiques perfors, est prsent lAES de
Copenhague.
Chapitre1 Gnralits
Nom
Anne
Format
Pellicule
Technologie
Codage
Son
Format
Fantasound
1940
35 mm
3 pistes analogiques
optiques
LCR
Cinrama
1952 1962
35 mm
7 pistes analogiques
magntiques
LLcCRcRLsRs
CinemaScope
1953 1967
35 mm
4 pistes analogiques
magntiques
LCRS
Todd-AO
1955 1992
70 mm
6 pistes analogiques
magntiques
LLcCRcRS
Dolby Stereo
1976 2006
35 mm
2 pistes analogiques
matrices optiques
Ultra Stereo
1984
35 mm
2 pistes analogiques
matrices optiques
Dolby Discrete
1976 2006
70 mm
6 pistes analogiques
magntiques
Dolby A
LLcCRcRS
Dolby Baby
Boom 6 tracks
1977 2006
70 mm
6 pistes analogiques
magntiques
Dolby A
LCRLsRsLfe
Dolby Split
Surround 6 tracks
1979 2006
70 mm
6 pistes analogiques
magntiques
Dolby A
LCRSLfe
Dolby Stereo SR
1986 2006
35 mm
2 pistes analogiques
matrices optiques
Dolby SR
LCRS
Kodak CDS
1990 1991
35 mm
70 mm
6 canaux numriques
optiques
Delta
Modulation
LCRLsRsLfe
Dolby Digital
1992 2006
35 mm
6 canaux numriques
optiques
AC3
LCRLsRsLfe
DTS
1993 2006
35 mm
6 canaux numriques
optiques
DTS
Coherent
Acoustics
LCRLsRsLfe
SDDS
1993 2006
35 mm
6 canaux numriques
optiques
ATRAC
LLcCRcRLsRsLfe
6 tracks
Dolby A
LCRS
LCRS
Figure1.1Les diffrents procds de diffusion son du cinma sur pellicule 35mm ou 70mm.
Lanne 2006 marquant la fin du 35mm avec larrive du cinma numrique.
En 1999, Star Wars, avec La Menace fantme, fait de nouveau voluer le format5.1
en intgrant un canal centre arrire grce au Dolby Digital Surround EX, procd
co-dvelopp par Dolby et Lucas Film THX. DTS propose en 2000 lquivalent avec
son format DTS ES7.1.
1.2 Historique
2006 marque le dmarrage du cinma numrique avec la sortie du premier film Chicken
Little diffus en Dolby Digital Cinema. Les salles de cinma squipent progressivement
en numrique. Le retour de lintrt pour limage 3D sera par la suite un moteur pour
ce passage au tout numrique. En 2009 a lieu la sortie de Batman, Le Chevalier Noir
en format IMAX. De nombreux succs cinmatographiques tels que trois des volets
dHarry Potter, Batman Begins ou Superman Returns ont t gonfls au tirage pour
permettre des projections en IMAX. La France compte aujourdhui une quinzaine de
salles IMAX dont les plus rcentes sont quipes IMAX Numrique 3D. Si le succs de
ces nouvelles salles IMAX Numrique se confirme, trente-cinq autres sites potentiels
en France sont ligibles cette reconversion selon la socit IMAX Corporation.
En 2010, Dolby prsente son nouveau format Dolby Surround7.1 dont il souhaite faire
tat comme tant la norme son pour limage 3D. Cette norme comporte quatre canaux
surround, dont deux sur les cts et deux larrire. Toy Story 3 est alors le premier
film diffus en Dolby Surround7.1.
partir de 2010, le cinma numrique volue vers des formats son 3D, et lon voit
apparatre diffrents procds qui quipent les salles de haut-parleurs au plafond.
Ainsi voient le jour les dispositifs Imm Sound (Imm Sound quipait quelques salles
Gaumont-Path dont la premire en France Brumath en Alsace), Auro-3D, Dolby
ATMOS et la technologie WFS. Ces procds concurrentiels multiplient le nombre de
canaux et tentent de normaliser des formats 11.1, 13.1, 14.1, 23.1 et dautres, suprieurs,
compatibles5.1 et7.1. En juillet2012, Dolby acquiert Imm Sound et se propulse dans
le march du son 3D pour le cinma. En France, la mme anne, les deux premires
salles quipes Dolby Atmos sont inaugures Paris et Bordeaux. En 2013, un format
dchange libre de droit pour le mixage objet, le MDA (multi-dimensionnal audio) est
support par DTS. En 2015, il existe plusieurs complexes quips Dolby Atmos: environ dix-sept salles de cinma, deux salles de vision Disney/Warner, cinq auditoriums
(Dubbing Brothers, Cinphase, Ink Production, Creative Sound, les Auditoriums de
Saint-Ouen), Titra films et le labo DCP (Eclair KDM).
Chapitre1 Gnralits
Historique
1931
1933
1940
cinma
1993
1952
1995
1953
1955
1996
1970
1974
1976
1998
1999
1977
1977
2000
DTS ES7.1
1978
2006
1979
2009
2010
2011
2012
2012
2012
2012
2012
2013
2015
1983
1986
1987
1990
1991
1992
1993
1.2 Historique
Chacun des supports quad est soutenu par un groupe de maisons de disques. Le QS est
support par ABC, Advent, Bluesway, Candide, Command, Decca, Impulse, Longines,
MCA, Ovation, Pye, Turnabout et Vox. Le SQ est support par Angel, CTI, Columbia, EMI, Epic, Eurodisc, Harvest, HMV, Seraphim, Supraphon et Vanguard. Et le
CD4 est support par Arista, Atlantic, Capricorn, Elektra, Fantasy, JVC, Nonesuch,
A & M, Reprise & Warner Bros Records. Les radios simpliquent de leur ct dans les
recherches et dans les productions: entre autres Radio France, la BBC et des radios
amricaines, qui diffusent des missions ou des musiques en format quad.
Lchec de la quadriphonie tient principalement un trop grand nombre de supports
quad concurrentiels et vient aussi de la rticence du public ajouter deux enceintes
supplmentaires dans son salon. Dautre part, lesthtique musicale dfinie par le
format quad ntait peut-tre pas suffisamment mre dans lesprit des producteurs.
Ltude psychoacoustique du format tait imparfaite, labsence de compatibilit stro
et la localisation imprcise des images sonores limitaient le procd. Labsence de compatibilit avec le5.1 du cinma a sans aucun doute aussi jou un rle.
Le home-cinma prend son essor en 1987, ds lintgration du Dolby Surround dans les
amplificateurs AV (audiovisuels) sous forme de dcodeurs Pro Logic. La cassette VHS,
le vido disc ou le laser disc, comportent la version5.1 des films en Dolby Surround. Ils
sont largement dpasss par le march du DVD vido qui apparat en 1996. la tlvision, les films du soir sont gnralement diffuss en Dolby Surround, compatible avec
les premiers amplificateurs AV. Les technologies discrtes Dolby Digital et DTS sont
intgres progressivement tous les produits audiovisuels: le film, la musique (quelques
productions en CD et DVD), le jeu vido et bientt la tlvision (Dolby Digital).
En 2005 le march de la HD rvolutionne le secteur audiovisuel, notamment celui
de la tlvision. La TVHD est lance, aide par la vente consquente dcrans plats.
Certaines chanes HD diffusent leurs programmes en Dolby Digital5.1, comme le sport
ou des films. Dolby propose aux chanes de tlvision son procd de codage Dolby E
permettant de transporter huit canaux sur une simple interface AES3, ce qui permet de
vhiculer un son5.1 et sa version stro simultanment sur une infrastructure stro.
Ce march est relay par le support Blu-ray, le remplaant du DVD, capable dintgrer
une image HD et un son multicanal non compress compatible7.1. En 2009, une version audio du Blu-ray appele Pure Audio Blu-ray voit le jour. Malheureusement, peu
de productions existent encore aujourdhui. En 2010, le multimdia suit cette volution
avec la premire dmonstration de diffusion HD en Dolby Digital plus5.1 depuis un
mobile, utilisant une interface mini HDMI. On trouve aussi cette interface HDMI sur
les ordinateurs et sur les tablettes numriques. Lutilisateur peut donc tlcharger un
film en HD son Dolby Digital5.1 et le diffuser sur son ampli home-cinma.
En fvrier2013, Radio France inaugure son nouveau site de diffusion NouvOson sur
lequel lauditeur peut couter des programmes en5.1 et en binaural grce un player
compatible. Dbut 2015 Orange Labs sort la nouvelle version de son application Orange
Radio compatible binaural, celle-ci permet la diffusion binaurale de contenus5.1
partir de flux de webradios tels que NouvOson ou RFI Labo.
Chapitre1 Gnralits
Historique
1964
1971
1982
1984
1985
1998
1987
1987
1988
1989
DAB
1999
Dolby E; SACD
2000
1991
2005
1994
T-DMB
2007
1995
DAB+
1996
2006 Blu-ray
Le march du DVD amricain compte 126millions
de lecteurs commercialiss avec 75000 titres
disponibles
2008
2009
2010
2012
2012
2013
2014
2014
1997
DVD vido
2015
2015
1.2 Historique
10
Chapitre1 Gnralits
LIrcam, quip depuis peu en WFS circulaire, fait aussi partie des lieux de diffusion
spatialise pour les uvres de musique contemporaine. Dans Rpons, Pierre Boulez
utilise la technologie de pointe de lIrcam, il allie un dispositif lectroacoustique:
vingt-quatre musiciens, six solistes ainsi que six haut-parleurs permettant damplifier, de spatialiser les sons et de modifier ceux des solistes. Le public est plac au
centre.
la fin du xxesicle, la priode quadriphonique est marque par la sortie de Dark Side
of the Moon des Pink Floyd en 1973. En 1967, Pink Floyd donne le premier concert
multicanal, en format quadriphonique, la salle Queen Elizabeth de Londres. Par la
suite, senchanent des exprimentations musicales en Dolby Surround, des albums5.1
dits en CD et DVD DTS dont notammentHell Freezes Over des Eagles, une des premires exploitations commerciales en CD DTS. Puis, lvolution des supports, avec
lapparition du DVD audio et du SACD, donne un vritable lan la production musicale5.1: des artistes sy consacrent tels que Bjrk (albums SACD, DVD hybride et live
DVD / Blu-ray), Peter Gabriel (albums SACD et live DVD / Blu-ray), les Beatles (album
Love produit en DVD audio), Diana Krall (SACD, DVD audio), etc. Cet lan, qui motive
quelques labels investir dans le SACD5.1, est phmre. La crise du CD freine alors
les ditions en5.1, notamment pour la production de musiques actuelles. Aujourdhui,
le monde de la musique classique continue produire en5.1 avec certains artistes
renomms comme Jordi Savall: les enregistrements sont dits en SACD, DVD hybride
ou Pure Audio Blu-ray par des labels spcialiss comme Alia Vox, Aix records ou 2L
(Lindberg Lyd). Depuis 2011, la plateforme dachat en ligne Qobuz propose des ditions
musicales classique et jazz en5.1. Lanne 2012 marque une nouvelle tape avec la sortie
du premier Blu-ray 9.1 Auro-3D intgrant un son 3D, il sagit de TrondheimSolistene
Souvenir, dit par 2L. Auro Technologies commercialise les premiers dcodeurs
Auro-3D sur les amplificateurs AV fin 2013.
En 2012 a lieu linauguration de linstallation WFS de lespace de projection de lIrcam.
La couronne est quipe de deux cent soixante-quatre haut-parleurs et complte par
un dme de soixante-quinze haut-parleurs pour une diffusion tridimensionnelle en
mode ambisonique.
1.3
Intrts
1.3 Intrts
11
Historique,
1570
1989
1585
1993
1995
1997
2001
2006
1830
1837
1894
1908
1923
1958
2006
2009
2010
2012
2015
1966
1973
1974
1981
12
Chapitre1 Gnralits
Dans la ralit, la fentre nexiste pas, on entend toujours un son spatialis : une
ambiance en extrieur ou une acoustique de salle ou de pice. Cest pourquoi, restituer
une ambiance en multicanal a toujours son effet persuasif lors de la premire coute et
la comparaison avec la stro rvle un vritable apptit pour lespace. La spatialisation
permet aussi la fidle rpartition des sources dans lespace sans repliement, alors que
la stro impose le frontal, avec superposition du champ arrire la scne frontale.
Donc le premier intrt du multicanal est denrichir la reprsentation mentale que lon
se fait pendant lcoute, avec une sensation despace plus forte. Lauditeur est immerg
dans le champ sonore, comme sil se retrouvait sur le lieu du tournage, au concert, au
thtre, dans la scne du film, sur le stade ou dans la peau du personnage du jeu vido.
Et de ce fait, il devient acteur.
13
480-576
pixels
SDTV
720-960 pixels
15deg.
1080 pixels
1.4 Vecteurs
Son stro
HDTV
1920 pixels
30deg. Son 5.1
3.0hauteur de l'image
4/8hauteur de l'image
Super Hi-Vision
1.5hauteur de l'image
7680 pixels
4320 pixels
2160 pixels
Digital Cinema
4096 pixels
Son 22.2
100deg.
0.75hauteur de l'image
1.4
Vecteurs
Il existe aujourdhui de nombreux vecteurs du son multicanal, le principal et le plus
ancien tant le cinma.
14
Chapitre1 Gnralits
1.4 Vecteurs
Blu-ray, est prvue pour la fin 2015 et diffrents codecs audio 3D comme le Dolby
Atmos, lAuro-3D, le DTS-UHD ou le MPEG-H 3D pourraient tre intgrs.
La voiture est aussi un march en dveloppement pour ces supports: des installations
en5.1 sont proposes avec les formats Dolby, DTS ou Auro-3D. En 2015, les premiers
modles haut de gamme sont quips en son 3D, cest le cas de Audi pour son Q7, BMW
X5, Mercedes ML Class ou Volvo XC90.
15
16
Chapitre1 Gnralits
existe mme des webradios qui diffusent en5.1: NouvOson, Concertzender, Antenne
Radio, Rock Antenne, les radios sudoises et norvgiennes mettent disposition leurs
programmes sous forme de fichiers Dolby Digital ou DTS tlchargeables. Il faut savoir
que les applications comme iTunes, QuickTime, VLC player ou Windows Media Player
sont compatibles5.1. Un simple lien vers ces applications permet de lire un fichier5.1.
Depuis peu, le langage HTML5 est directement compatible avec les fichiers5.1. Il suffit
denvoyer le flux constitu des six canaux vers un ampli home-cinma via une interface
HDMI ou une carte son pour profiter du son5.1. Aussi, depuis que les crans de tlvision se connectent au rseau Internet, la diffusion de contenus HD avec un son5.1 par
linterface HDMI devient directement accessible.
1.5
Problmatiques
Lapprentissage du multicanal met en vidence plusieurs problmatiques: la matrise
du systme dcoute, la dfinition dune image sonore en multicanal, des concepts nouveaux de mixage et de prise de son, la gestion de metadata pendant le mixage telle que
le downmix stereo, la mesure du loudness (aujourdhui prsente aussi pour la stro),
les profiles de compression Dolby, et la diffusion.
1.6 Les
1.6
17
18
Chapitre1 Gnralits
auditorium
O1
1.6 Les
1.6.4 Le binaural
Les techniques binaurales permettent de reproduire un espace au casque strophonique. Il existe des techniques de prise de son binaurales utilisant des ttes artificielles,
des mannequins ou le preneur de son lui-mme, comme il existe des techniques de
synthse binaurale reposant sur les fonctions de transfert HRTF (Head-Related Transfert Functions) et sur la simulation dun champ acoustique. Ces techniques sont mises
contribution pour les casques multicanal ou pour la diffusion multicanal compatible
binaurale.
1.6.5 Les objets (object oriented)
Tout mixage est gnralement port par un format multicanal strophonique que
lon dfinit par un nombre de canaux de diffusion (par exemple six pour le5.1). Ce
type de spatialisation noffre pas de compatibilit simple entre formats, car la manipulation de la scne sonore quil dfinit est limite. On trouve cependant des solutions
de downmix et dupmix acceptables. Aujourdhui, ce type de multicanal offre un bien
grand nombre de formats. Se pose alors la question de compatibilit dun programme
spatialis avec les diffrents dispositifs de diffusion. Dans lapproche objet, chaque
source est dfinie par une piste et son information spatiale peut alors tre positionne
dans lespace dans nimporte quel format multicanal de diffusion. Ce procd simplifie la reprsentation de lespace mais impose au processeur de diffusion dintgrer un
module de spatialisation avec simulation de leffet de salle ou bien de coder la rverbration par objets.
Lapproche objet est utilise dans la WFS et dans les nouveaux procds de diffusion
cinma tels que le Dolby ATMOS ou le MDA. On la trouve aussi dans le codage spatial
MPEG4, MPEG7, MPEG-H 3D.
19
20
Chapitre1 Gnralits
1.7
Les signaux
enregistrs
Manipulation
de la scne
encode
Dispositif de
restitution
Strophonie,
channel
oriented
(2.0,5.1,7.1,
10.2, Auro-3D
13.1, 22.2, etc.)
gnralement
1 signal par
enceinte
limite, scne
sonore fige
fixe, li au
format
Ambisonie,
scene
oriented
(Soundfield,
HOA) ordre m,
composantes
3D: (m+1)2
globale
(rotation,
distorsion de
perspective)
adaptable,
indpendant
du format
WFS
objets +
metadata de
localisation
chaque source
peut tre
traite de faon
indpendante
synthse du
front donde
Objets, object
oriented
(Dolby Atmos,
MDA, MPEG-H
3D, MPEG 4,
MPEG7)
objets +
metadata de
localisation
chaque source
peut tre
traite de faon
indpendante
adaptable,
indpendant
du format
Binaural
2 signaux L, R
limite, scne
sonore fige
casque stro
2D: 2m+1
dispositif
adaptable,
indpendant
du format
(objets)
Formats multicanal
Quappelle-t-on format multicanal ? Ici, il sagit de dfinir le type dinstallation
sonore spatialise, la configuration tant souvent lie un procd de codage. Ainsi,
les codages5.1 Dolby Digital ou DTS utilisent les configurations normes5.1 ITU-R
BS775-1 ou5.1 cinma dfinies au chapitre2. Les industriels dveloppent gnralement
leurs propres formats bien avant la normalisation: cest le cas aujourdhui, notamment
avec le7.1 qui ne correspond pas une norme. Cest pourquoi on trouve de nombreuses
dispositions denceintes. Deux types dinstallations se distinguent: lcoute cinma
et lcoute broadcast/home-cinma. Le tableau de la figure1.5 donne une vision de
lensemble des configurations, de la quadriphonie la WFS.
1.7 Formats
21
multicanal
Canaux de
Diffusion
plan horizontal Fr/
Side/Rear Sub
plan suprieur
Fr/Side/Rear/Top
plan infrieur
Fr Sub
Nom du Format
Quadriphonie 4.0
Codage de
diffusion
4.0
L R 45
Ls Rs 135
2/2
LRLsRs
3/2 + Sub
LCRS
Dolby
Surround
LtRt
5.1 discret
C 0
L R 30
Ls Rs 110
3/2 + Sub
LCRLsRsLfe
Dolby Digital,
DTS,
Mpeg
5.1 option 4
enceintes arrire
ITU-R BS 775-1
&2
5.1
C 0
L R 30
Ls1/Ls2 Rs1/Rs2
entre 60 et 150
3/4 + Sub
LCRLsRsLfe
5.1 amlior
Gnther Theile
5.1
Ls1/Ls2 Rs1/Rs2
entre 60 et 150
3/4 + Sub
LCRLsRsLfe
5.1 Cinma
5.1
Ls et Rs sur
couronne arrire
3/2 + Sub
LCRLsRsLfe
Dolby Digital,
DTS
6.1 Cinma
6.1
Cs centre arrire
3/2/1 + Sub
LCRLsRsCsLfe
Dolby Digital
EX, DTS
ES
6.1/7.1 IMAX
Cinma
6.1/7.1
Ls et Rs sur
couronne arrire
FH hauteur frontal
3/2/1 + Sub
LCRLsRsCsLfe
FH
7.1
5 canaux en frontal
5/2 + Sub
LLcCRcRLsRsLfe
SDDS
7.1 Cinma 3D
7.1
2 canaux latraux
Ls Rs
2 canaux arrire
BsL BsR
3/2/2 + Sub
LCRLsRsBsLBsRLfe
Dolby
Surround 7.1
7.1
latraux Ls Rs
90
Lb et Rb 150
3/2/2 + Sub
LCRLsRsLbRbLfe
Dolby Digital
TrueHD
5.1 ITU-R BS
775-1 & 2
Canaux de Mixage
Dolby
Surround IIx
22
Chapitre1 Gnralits
Canaux de
Diffusion
Nom du Format
Canaux de Mixage
Codage de
diffusion
7.1 Wide
Lw Rw 60
5/2 + Sub
LCRLwRwLsRsLfe
DTS Master
Audio
7.1 Side
Lss Rss 90
3/2/2 + Sub
LCRLssRssLsrRsrLfe
DTS Master
Audio
3/2 + Sub
2
LCRLsRsLfe
LHRH
DTS Master
Audio
3/2 + Sub
2
LCRLsRsLfe
LHSRHS
DTS Master
Audio
7.1 110/150
Side 110
Ls Rs 150
3/2/2 + Sub
LCRLssRssLsrRsrLfe
DTS Master
Audio
3/2/2 + Sub
LCRLmRmLs
1/2/1
RsLfe
8.1 8 secteurs
gaux de 45
LR 45
Lss Rss 90
Lsr Rsr 135
CS 180
3/2/3 + Sub
9.1 Dolby
Surround IIz
9.1 Side 90
Front Height 30
arrires 150
3/2/2 + Sub
2
LCRLsRsLfeLrsRrs
LvhRvh
Dolby
Surround IIz
9.1
Auro-3D
Home-Cinma/
Studio
9.1
Front Height 30
Rear Height 110
Tilt de 30
3/2 + Sub
2/2
LCRLsRsLfe
FlhFrhRlhRrh
Auro-3D
Octopus
10.1
Front Height 30
Rear Height 110
Tilt de 30
Top TH
3/2 + Sub
2/2/1
LCRLsRsLfe
FlhFrhRlhRrhTH
Auro-3D
Octopus
Hc,Hl,Hr,Hb
LCRLssRssLsr
RsrCsLfe
1.7 Formats
23
multicanal
Canaux de
Diffusion
plan horizontal Fr/
Side/Rear Sub
plan suprieur
Fr/Side/Rear/Top
plan infrieur
Fr Sub
Nom du Format
Canaux de Mixage
Auro-3D
11.1
3/2 + Sub
LCRLsRsLfe
Cinma
hauteur centre
3/2/1
FlhHCFrhRlhRrh
frontal HC
Codage de
diffusion
Auro-3D
Octopus
TH
Top TH
12.1
3/2/1 + Sub
LCRLsRsCSLfe
arrire centre CS
3/2/1
FlhHCFrhRlhRrh
13.1
3/2/1 + Sub
LCRLsRsCS
hauteur arrire
3/2/1/1
Lfe
Auro-3D
Octopus
TH
Auro-3D
Octopus
FlhHCFrhRlhRrh
centre HRC
THHRC
10.2 T. Holman
10.2
5/2/1 + 2 Sub
LCRLwRwLsRs
LH et RH 45
horizontal
CSLLfeRLfe
LhRh
tilt de 45
11.1 DTS Neo X
11.1
5/2/2 + Sub
LCRLwRwLss
Lw Rw 60
Rss(ouLsRs)Lsr
Lss Rss 90
Rsr
Ls Rs 110
LhRh
DTS Neo X
22.2 3 couches
5/2/3
horizontale
suprieure
FLFLcFCFRcFR
SiLSiRBLBCBR
3/2/3/1
TpFLTpFCTpFR
TpSiLTpSiRTpBL
TpBCTpBRTpC
infrieure
3 + 2 Sub
14.1 ou 23.1
3/6/2 + 2 Sub
plafond
3/5
suprieure
BtFLBtFCBtFR
Lfe1Lfe2
Imm Sound
(Dolby)
Cinma
horizontale
latraux et arrire
sur couronne
infrieure
Figure1.5Les diffrents formats en multicanal (Suite).
Mixage
objets
24
Chapitre1 Gnralits
Canaux de
Diffusion
Nom du Format
Dolby ATMOS
Cinema
Canaux de Mixage
64 HP Max
2 ranges dans la
Bed 7.1 :
2 couronnes
longueur
LRCLfeLssRssLsrRsr
suprieures
5 frontal/cts
variable/arrires
variable
Bed OH : LTsRTs
horizontale
Codage de
diffusion
Mixage
objets
Objets 1-118
Dolby ATMOS
Audi montage,
Local renderer
9.1
LRCLfeLssRss
LsrRsrLtsRts
11.1
(1 side, 1 back, 2
top per side)
LRCLfeLssRss
11.1
(2 side, 1 back, 1
top per side)
LRCLfeLss1Lss2
13.1
(2 side, 1 back, 2
top per side)
LRCLfeLss1Lss2
13.1
(2 side, 2 back, 1
top per side)
LRCLfeLss1Lss2
15.1
(2 side, 2 back, 2
top per side)
LRCLfeLss1Lss2
LsrRsrLts1Lts2
Rts1Rts2
Rss1Rss2LsrRsrLts
Rts
Rss1Rss2LsrRsrLts1
Lts2Rts1Rts2
Rss1Rss2Lsr1Lsr2
Rsr1Rsr2LtsRts
Rss1Rss2Lsr1Lsr2
Rsr1Rsr2Lts1Lts2
Rts1Rts2
15.1
(3 side, 1 back, 2
top per side)
LRCLfeLss1Lss2
Lss3Rss1Rss2Rss3
LsrRsrLts1Lts2Rts1
Rts2
Mixage
objets
1.7 Formats
25
multicanal
Canaux de
Diffusion
plan horizontal Fr/
Side/Rear Sub
plan suprieur
Fr/Side/Rear/Top
plan infrieur
Fr Sub
Nom du Format
Dolby ATMOS
Home
34 HP Max
Canaux de Mixage
24 couche medium
10 plafond
Codage de
diffusion
Mixage
objets
5.1.2
5.1.4
7.1.2
7.1.4
9.1.2
ITU-R BS 2051
Advanced Sound
Systems
49.2
16 Couche infrieure
3 couches
16 Couche medium
16 Couche suprieure
+ 1 top
2 Sub gauche et
droite
WFS
couronnes
Cinma, Salle de
spectacle
denceintes
Mixage
objets
1.7.1 Quadriphonie
Le format quadriphonique dfinit une configuration de quatre enceintes places sur
un carr. Les enceintes frontales sont disposes 45 et celles de larrire 135.
26
Chapitre1 Gnralits
1.7 Formats
multicanal
Figure1.10 Format5.1 amlior avec quatre enceintes larrire prconis par Gnther Theile.
27
28
Chapitre1 Gnralits
1.7 Formats
29
multicanal
30
Chapitre1 Gnralits
Figure1.16 Format7.1SDDScinma.
1.7 Formats
31
multicanal
32
Chapitre1 Gnralits
1.7 Formats
33
multicanal
Wide
La configuration Wide utilise la disposition ITU5.1 et rajoute deux enceintes frontales
larges, LW et RW, disposes 60.
Side
La configuration Side dispose deux enceintes Side, SL et SR, 90, accompagnes des
enceintes surround Ls et Rs 150.
34
Chapitre1 Gnralits
Front Height
La configuration Front Height reprend la norme5.1 ITU laquelle on ajoute deux
enceintes de hauteur, LH et RH, disposes 30.
Il existe quatre autres configurations DTS7.1:
la configuration disposant deux enceintes de hauteur sur le latral, appeles Left
Height Side et Right Height Side, 90, et compltes par la configuration ITU
pour la couche horizontale;
la configuration 110/150 pour les quatre canaux arrire;
la configuration ITU avec un Centre arrire CS et une enceinte de hauteur juste audessus de la tte appele COH (Center Over Head);
la configuration ITU avec une enceinte de hauteur dans le frontal, appele CH (Center Height) et un canal central Surround CS.
Figure1.24 et1.25Formats7.1 75/120, 9.1, 11.1 prconiss par MikeWilliams, photo dune
disposition9.1 lINA, B.Priaux.
1.7 Formats
multicanal
etRs. Cest une configuration qui donne une bonne homognit de limage sonore,
et qui vite ainsi la direction 90 des latraux limitant la construction des images fantmes. Elle peut tre complte par quatre enceintes de hauteur dangle dlvation
+45, Hc 0 (Height Center), Hb +180 (Height Back), Hl -90 (Height Left) et
Hr +90 (Height Right). Cette disposition permet une restitution dlvation sur les
triangles isocles forms par une enceinte de hauteur (le sommet du triangle) et les
deux enceintes du bas correspondantes (la base du triangle). Cette disposition encore
en exprimentation donne des rsultats de localisation en hauteur performants.
35
36
Chapitre1 Gnralits
1.7 Formats
37
multicanal
38
Chapitre1 Gnralits
1.7 Formats
39
multicanal
Figure1.33Format10.2TomlinsonHolman.
40
Chapitre1 Gnralits
couche
suprieure
9 canaux
cran
spectateurs
LFE
couche
intermdiaire
10 canaux
couche
infrieure 3
canaux 2 canaux
LFE
Figure1.35Format 22.2NHK.
1.7 Formats
41
multicanal
B+000
B022
B030
B+045
M+045
B045
B060
B+060
LFE2
M022
M030
M045
M060
M+060
LFE1
B+090
B090
B110
B+110
M+090
M090
M110
M+110
B135
B+135
M135
M+135
B+180
M+180
U+022
U+030
U+000
U022
U030
U+045
U045
U060
U+060
U+090
M+000
M+022
M+030
T+000
U090
U110
U+110
U135
U+135
U+180
42
Chapitre1 Gnralits
1/3 de la longueur
de la salle
Il existe aussi les configurations Dolby Atmos Home, reprsentes sur la figure1.39.
1.8 tat
1.7.25 WFS
Le systme de diffusion WFS est constitu dune couronne denceintes places tout
autour de lauditeur, au minimum une trentaine, gnralement une centaine, parfois
disposes sur deux couronnes.
Figure1.40Dispositif multicanalWFS.
1.8
1.8.1 Statistiques
volution du home-cinma et de la HD
Il est difficile dobtenir des statistiques sur le multicanal et sur le nombre de foyers quips dans le monde. Nous avons plus de visibilit sur le nombre de lecteurs Blu-ray/DVD
ou sur le nombre dcrans Full HD vendus, qui reprsentent un certain potentiel en
taux dquipement. Le taux dquipement en home-cinma5.1 des foyers franais, au
deuxime trimestre 2009, est de 10 15%, celui du lecteur DVD est proche de 90%, et
celui du tlviseur compatible HD est autour de 40%. Aujourdhui, un tiers des foyers
franais est quip dun lecteur Blu-ray contre plus de la moiti en Angleterre et aux
tats-Unis.
Les oprateurs tlcoms ont un rle jouer sur lvolution technologique des quipements avec notamment le dveloppement des box compatibles TVHD quipes dune
interface HDMI.
volution du multimdia
Linterface HDMI qui permet la connexion lampli home-cinma rend le multicanal accessible.Elle quipe lordinateur, notamment toute la gamme Apple, via le port
thunderbolt ou directement HDMI, et, progressivement, la gamme des PC Portables et
des PC de bureau. On la trouve sur certaines tablettes numriques et sur certains tlphones mobiles et dans les consoles de jeu. Par ailleurs, les sorties numriques pour le
son cod transportes via linterface SPDIF (les sorties coaxiales ou mini-jack), la sortie
43
44
Chapitre1 Gnralits
optique Toslink ou bien les sorties analogiques individuelles sur connectique RCA, sont
aussi des solutions qui quipent la grande majorit des PC, en particulier pour les jeux.
1.8 tat
HD. Cette liste est susceptible dtre modifie. cela sajoute la VOD HD, les box Free et
Bouygues Telecom supportent le DTS Neural. Il existe un site Digitalbitrate qui analyse
les diffrents flux des chanes HD (www.digitalbitrate.com) dont la figure 1.4 prsente
un exemple de mesures.
La diffusion peut alterner entre programmes stro et5.1 ou bien tre en5.1 en continu,
le flux est alors gnralement issu dun processeur dupmix.
45
46
Chapitre1 Gnralits
Chapitre 2
Le systme dcoute
essentiels
48
Chapitre 2 Le
2.1
systme dcoute
2.1 Caractrisation
Critres de construction
Complment
Web 2.1
Critres dquilibre
Complment
Web 2.2
Lquilibre spectral;
Lquilibre dynamique.
Critres de dfinition
Complment
Web 2.3
Critres de stabilit
Complment
Web 2.4
Critres de rverbration
Complment
Web 2.5
La quantit;
Le type;
Lhomognit.
49
50
Chapitre 2 Le
systme dcoute
Cette mthode consiste identifier les sensations sonores correspondant chaque critre dfini prcdemment en faisant correspondre les illustrations visuelles des pages
prcdentes avec les extraits sonores proposs dans le support fourni. Laquantification des impressions sonores (valuation numrique) est trs importante et reprsente le meilleur moyen de rester dans le domaine objectif (en utilisant le cerveau
gauche, centre cartsien, et non le droit, centre motionnel). Cependant, lanalyse doit
se faire sur un temps trs court (une minute au maximum), la premire impression
tant toujours la bonne. En effet, le cerveau gauche possde la facult, fcheuse dans ce
cas, denregistrer la premire squence sonore et de rcouter ensuite en boucle lenregistrement de celle-ci et non le nouveau message sonore rentrant Les exploitants
connaissent bien ce phnomne lors de lcoute rpte dune phrase sonore pour le
choix dun effet, lors du mixage, par exemple.
Lvaluation objective et le diagnostic dun systme de restitution multicanal sera largement facilit par lutilisation de cette mthode.
Complment
Web 2.7
2.2
2.3 Les
2.3
51
52
Chapitre 2 Le
systme dcoute
Complment
Web 2.9
2.4
Lenceinte acoustique
2.4 Lenceinte
53
acoustique
(a)
(b)
54
Chapitre 2 Le
systme dcoute
Courbes de directivit
La directivit dune enceinte est un facteur primordial lors de son exploitation en mixage
en fonction de lacoustique du lieu. Il existe plusieurs manires de lillustrer. Nous ne
retiendrons que la plus courante, sous forme des courbes de rponse effectues 0, 30,
60 et 90. Elles nous donneront de prcieuses informations sur la manire dont lenceinte
rayonne dans le local et donc, sur son positionnement optimal, mais aussi sur la rponse
en puissance acoustique totale qui est la sommation en dB des courbes de directivit.
dB
24.0
29.0
34.0
39.0
44.0
49.0
54.0
59.0
64.0
69.0
74.0
auto
dB
0
30
60
90
250
500
1K
2K
4K
8K
16K
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
55.0
60.0
auto
enceintedirectivit
directivitpeu
beucontrle
contrle
enceinte
0
30
60
90
250
500
1K
2K
4K
8K
16K
Complment
Web 2.10
2.4 Lenceinte
55
acoustique
56
Chapitre 2 Le
systme dcoute
dB
0.00
48.0
0.41
54.0
0.83
60.0
1.26
dB
0.00
0.0
0.43
6.0
0.84
12.0
1.38
66.0
1.68
18.0
1.69
78.0
2.11
MSEG
24.0
2.11
MSEG
250
500
1K
2K
4K
8K
IEC Frequencies - Hz
16K
250
500
1K
2K
4K
8K
16K
IEC Frequencies - Hz
Figure2.8Mesures du waterfall.
Attention, une mauvaise rapidit de dissipation dans laigu peut engendrer un embellissement de la musicalit et une fausse transparence de lenregistrement, pouvant
compenser un quilibre dynamique pauvre (par exemple pour des sources compresses) ou bien une prise de son de proximit un peu dure.
2.4 Lenceinte
57
acoustique
Cette mesure nous informe sur certaines colorations de timbre perues loreille mais
qui ne sont rvles, ni par la courbe de rponse, ni par la courbe de retard de groupe,
mais aussi sur la stabilit de limage sonore.
Rendement et sensibilit
Le rendement dune enceinte acoustique est primordial afin que celle-ci puisse restituer la dynamique attendue en fonction du type dutilisation. On confond souvent
le rendement et la sensibilit. Bien quelles soient lies, ces deux mesures ne sont pas
quivalentes.
Le rendement Rd reprsente le rapport entre la puissance acoustique restitue et la
puissance acoustique lectrique fournie par lamplificateur. Il se mesure en%.
Rd=(Wa/Pe)100
Avec :
Dunod Toute reproduction non autorise est un dlit.
58
Chapitre 2 Le
systme dcoute
2.4 Lenceinte
acoustique
Lcoute principale
Pour une utilisation en TV, CD ou DVD, lenceinte sera de taille plus volumineuse (avec
deux ou trois voies) et doit galement possder une courbe de rponse rgulirement
descendante au-del de 7kHz, une courbe de TG la plus droite possible, un Waterfall
dcroissance rapide au-del de 500Hz et une dynamique plus leve (Lp max >100dB
la distance dcoute).
La directivit doit tre plus marque, mais toujours bien contrle (sans accidents).
Laddition dun caisson de grave est imprative, au moins pour la voie LFE, et doit tre
bien rgle, surtout en cas de bass management. Les cinq enceintes doivent galement
tre identiques.
Pour une utilisation en mixage cinma, trois voies sont ncessaires et la courbe
de rponse doit descendre rgulirement au-dessus de 2kHz, avec une courbe de TG
sattnuant rapidement au-dessus de 1kHz, un Waterfall dcroissance rapide audessus de 500Hz et une dynamique encore plus leve (Lp max >105dB la distance
dcoute). La directivit doit tre trs importante mais toujours bien contrle (sans
accidents). Les enceintes surround peuvent tre plus petites mais en plus grand nombre
que les trois enceintes frontales. Le caisson de grave, uniquement utilis en LFE sera
suffisamment dimensionn afin de dlivrer le niveau ncessaire (115dB max) entre
20Hz et 120Hz, la position de mixage.
Lavance temporelle au-dessus de 1kHz est lie aux mesures statistiques effectues sur
un grand nombre de systmes de diffusion en salle de cinma. Cette caractristique
commune est lie leffet dispersif temporel d la plupart des pavillons utiliss. Les
valeurs mesures peuvent aller jusqu 3ms dans certains cas. Cette avance temporelle
peut toutefois tre corrige grce aux processeurs actuels ou lvolution des technologies de conception des enceintes. Par consquent, Cette courbe doit tre ajuste en
59
60
Chapitre 2 Le
systme dcoute
coute cinma
100.0
coute principale
coute de proximit
90.0
80.0
70.0
60.0
20
50
100
200
500
1k
2k
Hz
5k
10k
2.250
ms
1.750
coute cinma
1.250
0.750
coute principale
0.250
coute de proximit
200
500
1k
2k
5kHz
10k
0.250
20k
20k
2.5 Linfluence
du local
Lcoute client
Celle-ci devrait tre installe dans une salle acoustiquement plus vivante (semirverbrante). Elle est principalement utilise pour une production CD ou DVD et
peut tre plus type suivant lutilisateur final. Pour la musique classique, le jazz,
la musique ethnique, lenceinte doit tre neutre (courbe de rponse rgulirement
descendante au-dessus de 10000Hz, courbe de TG la plus droite possible, Waterfall pouvant tre moins rapide au-dessus de 5000Hz, dynamique assez leve avec
Lpmax>95dB la distance dcoute).
La directivit peut tre large, mais toujours bien contrle (sans accidents). Laddition
dun caisson de grave est imprative au moins pour la voie LFE et toujours bien rgl
surtout en cas de bass management. Pour la musique varit ou moderne, lenceinte
est identique mais peut avoir une courbe de TG descendante au-dessus de 2kHz avec
une variation de lordre de 0.3 0,5ms.
Pour une production TV, celle-ci peut tre calque sur une coute Home-cinma associe un cran de tlviseur grand public, avec un systme large bande (une voie) associ un petit caisson de grave avec bass management. La dynamique est videmment
moins grande avec un niveau maximum situ vers 85dB max. Dans tous les cas, les
cinq enceintes doivent tre identiques.
2.5
Linfluence du local
La courbe de rponse de lenceinte devient trs irrgulire (mme si celle-ci est droite
en champ libre!).
Par consquent, seul un rglage par galisation lectronique et optionnellement, un
traitement acoustique additionnel, permet dobtenir une courbe de rponse plate et
rgulire au point dcoute dans cette plage de frquence. Si on dsire en plus augmenter la zone dcoute (sweet spot), on devra attnuer les ondes stationnaires du local
par un traitement acoustique adapt. Des solutions plus ou moins complexes existent
suivant le budget et le volume disponible.
61
62
Chapitre 2 Le
systme dcoute
2.5 Linfluence
du local
63
Dans tous les cas, il est important de bien dimensionner le SUB (HP + amplificateur)
afin quil puisse accepter des corrections de niveau important sans distorsion.
Rappelons quune correction de +10 dB quivaut multiplier par 10 la puissance
lectrique dlivre!
64
Chapitre 2 Le
systme dcoute
grave, nous amalgamons toutes ces rflexions la source initiale (effet de fusion total).
Ces accidents, parfaitement mesurables par mthode MLS, peuvent tre corrigs ou
compenss (suivant la valeur de ces retards relatifs) grce une mthode dgalisation
dite physiotemporelleTM et suivant une courbe qui tient compte du temps et de la
frquence.
2.5 Linfluence
65
du local
Cette galisation particulire est trs diffrente de celle obtenue en bruit rose, qui ne
tient absolument pas compte de leffet de fusion.
Elle ncessite lutilisation de correcteurs paramtriques trs prcis en amplitude et en
phase afin de compenser (ou corriger) ces premires rflexions. On entend souvent dire
quil faut se mfier des galisations modifiant la phase du signal, mais ce raisonnement
fait abstraction des premires rflexions qui, par nature, dforment la phase du son
direct peru. Au contraire, il est ncessaire dagir sur la phase en mme temps que sur
lamplitude afin de supprimer ce dfaut. Cette correction ncessite dtre trs prcis,
do le choix impratif dgaliseurs numriques haute rsolution.
Une exprience trs simple raliser en cabine de mixage consiste dplacer rgulirement une source sonore (voix, par exemple) de gauche droite, en passant par
lenceinte centrale (pan pot). Sans galisation physiotemporelle TM, le dplacement
est peu prcis et pas linaire. Avec une galisation physiotemporelleTM, la source glisse
harmonieusement de gauche droite, sans matrialisation auditive des enceintes.
66
Chapitre 2 Le
systme dcoute
On obtient donc une courbe significative de cet quilibre. Si elle est montante dans
laigu, ce qui est le cas de beaucoup de cabine de mixage trop amortie, celui-ci sera
survalu en niveau et donc sous modul dans le mixage. Chez lutilisateur final (production CD, DVD ou TV), la courbe sera plus descendante dans laigu, donc avec moins
dattaques et le mixage paratra sous modul dans cette zone spectrale.
2.5 Linfluence
du local
67
68
Chapitre 2 Le
systme dcoute
2.6
2.6 Les
Les enceintes avant devraient tre trs directives (ce qui nest pas toujours le cas!) afin
dattnuer les premires rflexions, sources de dnaturation du son direct comme nous
lavons vu prcdemment.
Conu pour la strophonie, ce type de cabine est bien sr compltement inadapt en
multicanal. Notons que Tom Hidley a depuis, adapt et modifi son savoir-faire afin
dtre parfaitement compatible au multicanal!
2.6.2 LEDE
Le concept LEDE (Live End, Dead End, quon peut traduire par zone vivante et zone
morte), introduit en 1980 par Don Davis est encore utilis lheure actuelle. Celui-ci a
t galement conu pour la strophonie. Utilisable en Dolby Surround (annes quatrevingt-dix), ce concept nest pas du tout adapt au multicanal actuel (5.1).
Son principe repose sur une acoustique trs absorbante lavant (avec des enceintes encastres, ou pas) et un volume arrire trs diffusant afin de ne pas trop diminuer le RT60. En
thorie, lchogramme ne doit pas montrer dnergie entre le son direct (0ms) et 15ms, puis
une rverbration diffuse au-del afin dentendre avec prcision les premires rflexions de
lenregistrement, sans les dnaturer par leffet de fusion vu prcdemment.
Lchogramme reprsente la dcroissance de lnergie en dB en fonction du temps. Ce calcul
est effectu partir de la rponse impulsionnelle au point dcoute.
69
70
Chapitre 2 Le
systme dcoute
De plus, lcoute prolonge peut provoquer une fatigue auditive assez importante, si la
rupture avant/arrire est associe un RT60 global trop court.
2.6 Les
71
Key
CF
CF
LF
LF
RF
rflecteur
absorbant
RF
Auditeur
Auditeur
LB
RB
LB
RB
Nous obtenons alors un C20 moyennement important du fait du peu dnergie prcoce
reue au point dcoute, compare lnergie tardive plus grande, mais avec un RT60
plus lev et plus proche de celui dun salon domestique grce la rpartition homogne des rverbrations avant/arrire aprs 15ms.
dB
0.00
14.0
2.89
8.0
5.89
2.0
8.88
4.0
11.87
14.86 msec
10.0
500
1K
2K
Energy-Time-Frequency
4K
IEC Frequencies - Hz
waterfall sans
traitement acoustique
MLSSA
(Smoothed
to 0.33 octave)
dB
0.00
14.0
2.89
8.0
5.89
2.0
8.88
4.0
11.87
14.86 msec
10.0
500
1K
Energy-Time-Frequency
2K
4K
IEC Frequencies - Hz
waterfall avec
traitement acoustique
MLSSA
(Smoothed
to 0.33 octave)
Cette cabine, non polarise est donc particulirement bien adapte au multicanal en5.1
(ou plus) condition de bien matriser, au point dcoute le positionnement des absorbants et rflecteurs en fonction de la position des enceintes.
Les enceintes peuvent tre apparentes, sur pied, suspendues ou encastres, ce qui ne
change rien au principe, le choix tant fait suivant le type denceintes choisies et le
volume de salle dont on dispose.
72
Chapitre 2 Le
systme dcoute
2.6 Les
73
Figure2.24Mesure de
lchogramme en mode
mixage dans une cabine
diffusion rpartie.
Figure2.25Mesure du
TR60 dune cabine diffusion
rpartie.
Figure2.26Mesure du
C20 dune cabine diffusion
rpartie.
74
Chapitre 2 Le
systme dcoute
La satisfaction de ces critres conduit une forme de cabine assez complexe, comportant
des diffuseurs 3D judicieusement placs, associe aux enceintes choisies prcdemment
et oriente de manire particulire (convergentes devant le point de mixage), mais
respectant les normes ITU concernant les angles enceintes/mixeur. Nous avons
vu que la qualit de lencastrement joue un rle primordial dans lobtention dune
distribution rgulire et sans accident des premires rflexions. Si les enceintes ne sont
pas encastres, leurs courbes de rponse et leur directivit doivent tre irrprochables
ainsi que leur positionnement et orientation. Dans les deux cas, la convergence des
enceintes devant le point dcoute permet de rgler le C20 la valeur dsire en mme
temps que daugmenter la zone dcoute (sweet spot).
Seule, la paroi arrire comporte une zone absorbante qui permet lextinction de lnergie tardive et donc de matriser le RT60.
Dans le grave, lutilisation dlments absorbants (basstrap, panneaux rsonnant, etc.)
est souhaitable afin de rguler le C20 et le RT60, comme dans toute cabine.
(a)
(b)
Figure2.27Ralisation de cabines diffusion rpartie (avant et arrire de la cabine).
Bien entendu, cette cabine non polarise est particulirement bien adapte au mixage
multicanal en5.1 ou7.1.
2.7 Linfluence
de lamplificateur
2.7
Linfluence de lamplificateur
2.7.2 Limites des mesures classiques, interactions avec les hauts parleurs
et incidence sur lcoute en5.1
La mesure dun amplificateur nest pas rcente. Elle est traditionnellement ralise en
suivant les normes internationales IEC 60268-3 Ed3 avec des signaux sinusodaux,
en frquence glissante, celui-ci tant charg par une rsistance pure. On en dduit la
bande passante -3dB, la courbe de rponse, le temps de monte, la courbe de phase,
la distorsion, etc. Le problme est, comme pour les enceintes, que ces mesures sont trs
peu corrles aux impressions dcoute du fait de lutilisation de tels signaux nintgrant pas le rgime dynamique couramment rencontr en utilisation relle.
Dautre part, un haut-parleur se comporte trs diffremment dune rsistance pure et
son effet microphonique (force contre lectromotrice), renvoie en permanence dans
lamplificateur des courants gnrs par son propre mouvement. Jai mesur personnellement des courants crtes dpassant trente ampres sur quelques millisecondes que
lamplificateur devait envoyer au haut-parleur afin de matriser le dplacement mcanique de la bobine mobile! Si lamplificateur ne peut pas gnrer cette nergie au bon
instant, la dynamique reproduite est altre, modifiant lquilibre tonal et dynamique,
mais aussi la dfinition et timbre et la transparence.
On peroit donc mieux limportance et le rle subtil que joue lamplificateur sur la
rponse en transitoire dun son complexe. Les mesures MLS, gnrant un signal compos dun pseudo-bruit blanc (ou rose) dont le facteur de crte est de lordre de 3dB, ne
peut donc pas compltement mesurer cet effet parfaitement perceptible loreille, trs
sensible aux variations rapides de niveau sonore. Il faut donc recourir des mesures
moins directes et des savoir-faire que nous ne dtaillerons pas ici.
75
76
Chapitre 2 Le
systme dcoute
En revanche, on comprend tout lintrt davoir des cbles les plus courts possibles
entre lamplificateur et le haut-parleur, et donc lintrt des enceintes amplifies. En
multicanal, les enceintes amplifies sont un plus, mais ncessitent un minimum de
ventilation et bien sr, une alimentation secteur.
Cependant, dans le cas damplificateurs numriques, ces interactions amplificateur/
haut-parleur sont beaucoup moins sensibles aux courants microphoniques gnrs par
les hautparleurs et ce type de technologie permet de placer un amplificateur multicanal plus loin des enceintes, dans la baie technique, par exemple, pour autant que le
cble soit de bonne section.
Diffrentes configurations sont possibles, un choix souvent retenu est un filtrage passif
pour le mdium aigu et actif pour le grave. Un filtre passif (au-dessus de 500Hz) peut
donner dexcellents rsultats condition quil soit bien pens.
Dans tous les cas, les amplificateurs doivent tre identiques sur les cinq voies exceptes
pour lamplificateur du SUB qui doit tre plus puissant, mais de mme technologie,
sous peine de modifier considrablement lquilibre dynamique et tonal de construction avant/arrire ainsi que le type denveloppement.
2.8
coute multicanal
Les enceintes surround (SL et SR) peuvent tre ddoubles avec RS1/LS1 et RS2/LS2
situes +/ 80 et +/ 150 horizontal. Langulation verticale ne change pas.
En format7.1, il suffit daffecter les canaux SL, SR, BSL et BSR aux enceintes surround
dj prvues dans la configuration5.1 avec enceintes surround ddoubles. Cette
configuration est facilement compatible avec le format5.1 sans changer la position des
enceintes.
Dautres prconisations peuvent tre possibles, avec par exemple, des angles de 90 et
120 pour les enceintes surround. Comme nous lavons vu, les sept enceintes doivent
tre identiques.
Bass Management
Le bass-management (voqu prcdemment) est indispensable tant donn que la trs
grande majorit des installations grand public en est pourvue. En effet, si on dispose
denceintes acoustiques ayant une bonne capacit reproduire le spectre en pleine bande
avec un niveau suffisant, il peut tre tentant de mixer sans utiliser ce procd. Cependant, il est important de comprendre quune sommation lectrique (gnration de filtres
en peigne, dtimbrage) nest pas quivalente auditivement une sommation acoustique
(gnration dun effet despace et denveloppement). Par consquent, si lutilisateur final
possde un systme avec bass management, il est fortement conseill de mixer dans cette
configurationet le risque est grand de ne pas retrouver un mixage effectu sans bassmanagement sur une installation lutilisant!
77
78
Chapitre 2 Le
systme dcoute
Figure2.30Principe du bass-management.
La norme ITU prvoit daiguiller les frquences basses (< 80Hz en codage DTS et < 120Hz
en codage Dolby) dans le Sub Bass et, ainsi, de le mlanger au canal LFE (Low Frequency
Effect). La pente des filtres lectroniques utiliss doit tre suprieure ou gale 24dB/octave.
Une fois de plus, ce rglage doit tre pratiqu avec soin par un oprateur comptent!
Le rglage doit tre ralis avec prcision afin que la transition soit harmonieuse et
naturelle.
Laugmentation de 10dB du canal LFE sur le monitoring est obligatoire
en gnral et provient historiquement de la norme impose par Dolby.
Cependant, ce rglage +10dB nest pas utilis pour les mixages musicaux
purs (nous prciserons pourquoi par la suite).
coute multicanal
79
ATTENTION!
- Si on dispose dun analyseur de spectre, on mesurera directement les
+10 dB sur lcran de lanalyseur.
- Si on ne possde quun sonomtre et compte tenu des lois de sommations
acoustiques en fonction des largeurs de bande, le niveau dalignement
du LFE sera de 83dBC, cest--dire le niveau de rfrence augment
de +4dB.
- Laugmentation de 10dB seffectue uniquement sur la voie LFE et non
sur le caisson de grave (Sub Bass) en cas de bass-management.
et SACD
Pour une production Pure Audio Blu-ray ou SACD, les niveaux dalignement seront
les mmes quen DVD et Blu-ray (79 dBC par canal/-18 dBFS/bruit rose) except pour
le rglage de la voie LFE qui doit se faire au mme niveau relatif (0dB), mesur
lanalyseur de spectre.
Si on dispose uniquement dun sonomtre, le niveau dalignement du LFE sera de 73
dBC afin de tenir compte de ltroitesse de la bande de frquence de ce canal.
80
Chapitre 2 Le
systme dcoute
coute multicanal
81
Niveau dalignement
Les niveaux dalignement et de travail sont galement trs diffrents, compars aux
normes ITU.
Pour les voies avant (FR, FC et FL), on veut obtenir 85 dBC par canal au point dcoute
(derrire la console en mixage ou au 2/3 de la salle en projection) pour un niveau de
sortie de console de 20 dBFS avec un bruit rose large bande.
2/3
2/3
20 20
1/3
1/3
85 dBc
par canal
2/3
1/3
85 dBc
par canal
zone
d'coute
82
Chapitre 2 Le
systme dcoute
Pour les enceintes surround, cest la sommation de toutes les enceintes qui doit gnrer
85 dBC dans les mmes conditions ( 20 dBFS et au point dcoute).
Comme pour la norme ITU (DVD, TV, Blu-ray), le niveau dalignement de la voie LFE
doit tre +10dB par rapport aux enceintes principales, mesur par un analyseur de
spectre 1/3 doctave. Si on utilise un sonomtre, le niveau de calibrage sera de 89 dBC,
pour tenir compte des largeurs de bande.
Alignement
coute multicanal
83
tait trs absorbante et croissante dans laigu; les mesures au bruit rose, discutes prcdemment donnaient une image fausse de lquilibre tonal peru; enfin la distance
dcoute tait trs grande. Cest ainsi que cette courbe ISO X a t labore!
Parfaitement dactualit, lISO X est encore utilise, bien que la technologie ait beaucoup
chang (pavillons moins dispersifs et mieux contrls en directivit, crans plus transparents acoustiquement, possibilit de modeler la rponse impulsionnelle du systme,
etc.). Il est donc important que la norme prconise de lutiliser, avec des modifications
en fonction de la dimension de la salle, ce qui donne trois courbes ISO X diffrentes.
Figure2.36Courbes ISO2969X.
84
Chapitre 2 Le
systme dcoute
Figure2.38coute binaurale.
Ces deux signaux sont caractriss par une diffrence de niveau, une diffrence de
temps mais aussi des dformations en amplitude et en phase trs complexes dans la
bande mdium-aigu, tudies et connues sous le nom de fonctions HRTF (Head Related Transfer Function).
coute multicanal
Ces dformations sont dues la forme particulire de notre oreille, tte et torse et
donnent une signature sonore diffrente pour chaque angle solide (horizontalement et
verticalement); celles-ci sont identifies et compares une base de donnes existante
dans le cerveau, ce qui nous permet de localiser un son dans les trois dimensions. Lors
de lcoute sur deux enceintes situes +/ 30 horizontal, le cerveau peut utiliser
cette facult et localiser une ou des sources virtuelles lintrieur de cet angle, par un
artefact quon appelle lastrophonie (du latin stereo qui signifie relief).
Figure2.40Perception strophonique.
Un casque nenvoie quun seul canal chaque oreille avec un angle fixe de 90 par
rapport laxe de notre tte et se trouve donc incapable de restituer cette espace, do
limpossibilit de lutiliser pour caractriser en construction une prise de son.
Il est vident, quen multicanal cinq ou sept canaux, le problme est encore plus
insoluble. De multiples essais ont t tents pour reproduire cet espace horizontal que
85
86
Chapitre 2 Le
systme dcoute
Cette technologie est videmment base sur des calculs utilisant la rponse impulsionnelle prcdemment dcrite.
Malgr tout, lcoute au casque ne remplacera jamais une coute sur enceinte, plus
confortable et moins contraignante, mais peut tre considre comme complmentaire
suivant le contexte et les besoins en production.
2.9 Lcoute
multicanal et limage
Radio France propose galement des missions en codage binaural avec un choix de
fonctions HRTF adaptes aux diffrentes typologies doreilles.
2.9
Il existe donc des prconisations prcises (tudies par G.Steinke: Paper International
Tonmeister Symposium, novembre2005) permettant doptimiser ces combinaisons en
mixage TV et en mixage Cinma et reprsentes dans les figures2.42, 2.43 et2.44.
87
88
Chapitre 2 Le
systme dcoute
Le fait daugmenter le nombre de canaux arrire (7.1) ou simplement le nombre denceintes surround en ajoutant de la dcorrlation permet en pratique une augmentation
de la zone dcoute trs apprciable en mixage limage.
2.10 Lcoute
89
domestique en multicanal
les mlomanes et amateurs clairs ont souhait une reproduction plus naturelle, avec
lenvie dassister un concert, poussant en avant les technologies de plus en plus sophistiques et faisant appel des prises de son dites acoustiques naturelles. Les sources
relles ont fait place une imagerie sonore reproduisant des sources virtuelles beaucoup
plus riches en motions. Lespace strophonique stalait non seulement en largeur,
mais aussi en profondeur. Lquilibre spectral et dynamique est devenu de plus en plus
grand.
Pouss par le label THX, la monte du homecinma fut alors invitable dans les salons.
Les audiophiles hifistes cdent peu peu la place aux cinphiles. Mais ces deux mondes
ont eu bien du mal sunifier. En effet, les qualits recherches semblaient assez incompatibles, les audiophiles recherchant avant tout la qualit et les nuances musicales alors
que les cinphiles taient sensibles au niveau et la dynamique. Les matriels ddis
ces deux segments commerciaux navaient rien en commun et semblaient mme incompatibles.
Le
90
Chapitre 2 Le
systme dcoute
Les enceintes Back Surround (BSL et BSR) sont alimentes par le mme
canal de mixage, mais le processeur THX inclus dans le pramplificateur
home-cinma assure une dcorrlation temporelle de celui-ci afin de crer
un champ arrire plus diffus et non focalisant, amliorant ainsi limmersion.
Ce systme selon THX est trs intressant en home-cinma, mais il nest pas
adapt pour la reproduction audiophile en HI-FI multicanal (SACD et Blu-ray
music).
Actuellement, grce aux progrs des mesures lectroacoustiques, les systmes homecinma et les systmes HI-FI se sont rconcilis et la norme ITU rend compatible les
deux types utilisation avec un mme matriel permettant des rglages et optimisations
adaptes (grce au recours des processeurs numriques de plus en plus volus et pertinents). La tlvision HD facilite sans doute le dveloppement et la convergence de ce
march qui sera relay dans les annes venir par les systmes multimdias intgrant
aussi les jeux vido et Internet. Les supports Blu-ray permettent galement de satisfaire
les mlomanes les plus exigeants ainsi que les cinphiles avertis. Les liaisons (fibre
optique) et serveurs grand dbit vont galement amplifier cette mutation.
Actuellement une installation audiovisuelle domestique de ce type se configure selon
le schma suivant:
meilleurs systmes analogiques grce aux formats hautes rsolutions du type PCM
24/96 et aux algorithmes de compression de dynamique de plus en plus performants.
Cependant, il est craindre que lvolution de ces technologies gnre deux marchs
diffrents et divergents: le multimdia de masse avec des sons trs compresss privilgiant la quantit la qualit et laudiovisuel hi-tech de haut de gamme visant un public
socialement plus rudit, limage dune socit litiste deux vitesses
Il est important de comprendre que le fait dhabituer les jeunes gnrations couter
des sons compresss avec une fausse dynamique (MP3, Smartphone, ordinateur, etc.)
modifie lapprentissage du langage en lappauvrissant et par voie de consquence risque
de modifier leur manire de penser et le dveloppement de leur esprit critique. Des
tudes trs srieuses mais peu connues ont t menes ce sujet.
coute
91
92
Chapitre 2 Le
systme dcoute
Figure2.47Correction ou compensation?
93
94
Chapitre 2 Le
systme dcoute
Les filtres FIR sont des filtres dont lamplitude et la phase sont indpendantes (possibilit de correction en amplitude/frquence sans dphasage temporel) permettent
de faire des corrections beaucoup plus puissantes et prcises et donc plus pertinentes.
Ces filtres sophistiqus peuvent tre associs un simple microphone de mesure omnidirectionnel, une sonde directivit croissante, appele physio-angulaireTM et
dveloppe par la socit Taylor Made System, qui permet de rejeter les rflexions
arrires non amalgames au son direct par notre audition.
On peut aussi utiliser une sonde tridimensionnelle, dveloppe par la socit Trinnov Audio qui est assimilable une sonde intensimtrique. Dans ce dernier cas, nous
pouvons parler de correction de champ acoustique ou de correction et compensation
95
Intensit
acoustique
Ia
96
Chapitre 2 Le
systme dcoute
Cette application est particulirement intressante dans les cars rgis ou les cabines
exigus, o le placement des enceintes est trs restrictif.
Outils
de traitement et de correction
Grce aux mesures par rponses impulsionnelles et aux processeurs FIR, il devient
possible de mesurer et de reproduire une courbe cible correspondant aux circuits de
production type, ceci dune manire statistique. Dautres ajustements, plus subtils
doivent tenir compte des diffrences deffets de masque dus aux acoustiques diffrentes entre le lieu de mixage et le lieu de diffusion. Ces ajustements peuvent se faire
par modification du traitement acoustique et/ou par introduction dun anti-signal
gnr par les enceintes via un processeur FIR volu. Dans tous les cas, ce travail ne
peut se faire quavec la complicit et la confiance de lingnieur du son et avec le recul
suffisant. On pourrait comparer cette coopration avec celle du pilote et du prparateur
dans le domaine de la Formule 1 en automobile.
97
98
Chapitre 2 Le
systme dcoute
les cas observs dans les applications professionnelles, il est ncessaire de disposer dun
sonomtre talonn pour faire les rglages afin de rgler le niveau dalignement absolu.
La mthode, propose sur le site Web, nutilise que notre audition et fait appel ses
caractristiques physiologiques. En effet, notre sensation de niveau sonore varie avec
la frquence du son. Cette variation est donc incluse et compense dans le contenu
audio de la session de test. Le niveau de rfrence est important puisquil dtermine
la courbe disosonie utilisable pour les compensations auditives. Un instrument de
musique coutumier des exploitants son a t utilis pour ce faire. Le seul instrument
ncessaire est donc loreille exerce de lingnieur du son.
Par ailleurs, celui-ci ne disposant en gnral que de peu de temps, la mthode privilgie ici lefficacit et la rapidit danalyse plutt que laspect ludique, la finalit de ce
test tant de diagnostiquer rapidement le systme dcoute et de se rassurer quant au
niveau de confiance du mixage ralis.
Le test auditif est propos intgralement sur le site Web avec possibilit de
tlchargement de la session.
2.12 Perspectives
et volutions
Pour les salles de cinma, on voit apparatre des voix clestes trs intressantes pour
crer des effets sonores et des ambiances de znith. Cest le cas pour certains plantariums, parc dattractions et salles IMAX.
99
100
Chapitre 2 Le
systme dcoute
Figure2.56Principe du systme.
2.12 Perspectives
101
et volutions
Nous imaginons facilement que le nombre de voies ne peut pas augmenter indfiniment si on souhaite des formats reproductibles dun lieu lautre et restant viables
financirement. Dautres solutions radicalement diffrentes voient le jour actuellement.
Des solutions qui ne sont plus bases sur limagerie sonore virtuelle.
Dolby ATMOS
Cette volution met en uvre de multiples enceintes supplmentaires permettant la
reproduction de sources sonores dans le plan de la hauteur. Elle vise donc une immersion en 3-D dans le champ acoustique. Le positionnement dans le plan vertical est
102
Chapitre 2 Le
systme dcoute
tabli avec rigueur afin de permettre une reproductibilit des effets sonores quelle que
soit la salle. Par ailleurs, des voies latrales avant comblent lespace habituellement
vide entre les enceintes de faade et les enceintes surround classiques. Des caissons
de graves (LFE) additionnels peuvent galement tre positionns larrire de la salle.
Complment
Web 2.17
Cette technologie rcente est dtaille sur le site Web ainsi que le mixage
objet associ.
cran
spectateurs
LFE
couche
intermdiaire
10 canaux
couche
infrieure 3
canaux2 canaux
LFE
Figure2.59Principe du format22.2.
Le systme est destin des diffusions de grandes dimensions, les expriences menes
utilisaient un cran de projection de 10m de base avec une rsolution permettant un
angle de vision de 100, mais celui-ci peu tre dclin pour la tlvision Ultra Haute
Dfinition pour usage domestique.
2.12 Perspectives
103
et volutions
HDTV
UHDTV
Nombre pixels
1080 1980
4320 7680
Angle de vue
30 lhorizontal
Rsolution
quivalente un film en 35 mm
Ce format de diffusion est compatible avec un support5.1 et mme 2.0 et les enregistrements en 22.2 sont galement transfrables (down mixage) dans les formats5.1 et 2.0.
104
Chapitre 2 Le
systme dcoute
(S)
A
source primaire
front donde
recr partir
des sources
secondaires
attnuation
(So)
Figure2.62Principe dHuygens.
2.12 Perspectives
et volutions
105
La consquence de ce qui prcde est que lon sort du paradigme qui prvaut le plus
souvent en sonorisation et qui consiste disposer dune source par canal de restitution (une enceinte pour le canal gauche, une pour le canal droit, etc.). Dans le cas de
la WFS, on sappuie sur un rseau de transducteurs rgulirement espacs, puis on
gre le nombre de sources sonores virtuelles correspondant autant de positions de
sources spatialement localises que dsir. Le champ sonore se dploie alors sur toute
la zone de public en fonction des positions des sources virtuelles comme sil sagissait
de sources relles. Lauditeur nentend plus la sonorisation, mais une scne sonore beaucoup plus naturelle!
Complment
Web 2.18
Les applications sont trs nombreuses, en thtre, concert live, parcs dattraction, mais
aussi cinma 3D et ce systme reprsente sans doute une des solutions davenir du
multicanal!
La technologie Transaurale
Il sagit ici de recrer exactement le stimulus dorigine peru par les oreilles lors dune
coute naturelle. La technologie Transaural permet la localisation des sources sonores
grce lutilisation par notre cerveau des fonctions HRTF vues par ailleurs. La solution
la plus simple est de reproduire au casque un enregistrement effectu laide dune tte
artificielle de type binaurale avec, si possible, un tracking des mouvements de la tte
afin de compenser leffet de sa rotation.
Une autre solution est possible avec deux haut-parleurs, il sagit des techniques transaurales dont le principe repose sur une annulation des chemins croiss (crosstalk ou
cancelling): il faut donc traiter le signal lectrique de faon ce que loreille gauche
ne reoive que le signal du canal gauche et inversement (comme dans un casque, mais
avec un angle dattaque par rapport loreille beaucoup plus rduit). Ces solutions ont
dabord t proposes par Schroeder et Attal, puis dveloppes par Cooper et Bauck.
Lcoute strophonique, grce linterfrence entre les canaux gauche et droite, cre
une imagerie virtuelle comme le montre le schma de la figure2.63.
106
Chapitre 2 Le
systme dcoute
Figure2.64Restitution transaurale.
Le traitement des signaux binauraux, issus par exemple dune tte artificielle permet
une restitution 3-D par la technique de lannulation de ces chemins croiss. Le ralisme
de reproduction par cette technique peut tre tout fait tonnant: on peut parfaitement
entendre des sources places dans tout lespace y compris larrire. Mais ce rsultat est
2.12 Perspectives
107
et volutions
Lutilisation des techniques transaurales peut galement tre applique lenregistrement et au mixage en complment de systmes multicanal en5.1, en particulier afin de
stabiliser la localisation des sources latrales surround et ainsi agrandir sensiblement
la zone dcoute pour lauditeur. Des tudes pratiques ont t ralises entre autres, au
Conservatoire National Suprieur de Musique de Paris (CNSMDP).
108
Chapitre 2 Le
systme dcoute
Figure2.66Exemple dexprimentation
effectue au CNSMDP par traitement transaural
sur une coute5.1.
La restitution en 3D
On introduit ici la dimension dinformations en hauteur dj initie par le systme
Dolby Atmos, mais avec une approche dimagerie sonore virtuelle tendant le principe
de la strophonie dans le sens vertical.
Nous pouvons citer sans tre exhaustif, le systme Auro-3D, le systme HOA, le WFS
3D, les recommandations ITU-R BS-2051, etc.
Complment
Web 2.19
Chapitre 3
Les facteurs perceptifs
essentiels
110
Chapitre 3 Les
facteurs perceptifs
dfaire des automatismes de la stro. Certaines esthtiques, dites frontales (dveloppes dans le chapitre4) scoutent plutt facilement car elles font rfrence des
images relles que le cerveau traite quotidiennement dans la perception naturelle
de lespace. Cette approche consiste reconstruire limage sonore perue dans une
situation o laction se droule dans lespace frontal, de faon scnique: le sport,
le documentaire, la fiction TV, le concert en sont des exemples concrets. Dans ce
contexte, limage sonore spatialise donne un sens tout spectacle ou vnement
dans lequel, un effet de salle ou dambiance extrieure est prsent. Nous verrons par
la suite que le cinma est un cas particulier o la narration issue de limaginaire
du spectateur soppose trs souvent la perception raliste auditive, il fait appel
limaginaire du spectateur.
Lorsque lexploration de lespace se fait autour de lauditeur, intgrant le
champrverbr et le champ direct, lesthtique est quirpartie, elle dfinit trs
souvent des images sonores virtuelles, peut-tre plus difficiles apprivoiser
pourcertains. Lcriture du scnario est nouvelle et remet en question la ralisation: cest le caspar exemple de la fiction sonore en radio, la cration sonore, la
musique acousmatique, les musiques actuelles, une scne de film qui immerge le
spectateur dans laction.
Le dispositif5.1 est certainement plus complexe que le standard strophonique (voir
chap 2) mais il offre plus de possibilits. Il permet de placer le spectateur dans un
champ sonore. On parle alors deffet dimmersion: les sources sonores sont localises sur le cercle dfini par le dispositif dcoute5.1 et/ou au-del, on parle alors
denveloppement, mais certaines sont perues lintrieur. Lorsque les sources sont
localises lintrieur du cercle, proche de la tte de lauditeur, on parle alors dinternalisation. Une des difficults du5.1 consiste raccorder le champ frontal avec le
champ arrire afin dobtenir une homognit. Dans ce sens, le7.1, utilisant quatre
enceintes pour la restitution latrale et arrire, est un standard plus homogne et
simplifie la dmarche.
La psycho acoustique dfinit un certain nombre de facteurs perceptifs rpertorisdans ce chapitre qui aideront le lecteur une meilleure comprhension des
rgles du5.1: dfinition du standard stro et du fonctionnement de limage fantme, lapport du5.1, les contraintes du dispositif, la perception sonore spatialise
(le principe de localisation, limpression spatiale), le principe de lattention auditive.
Lanalyse de ces facteurs perceptifs nous permettra de dfinir limage sonore au
chapitre4.
3.1
Le standard stro
Dfinissons tout dabord le standard strophonique et rappelons le principe de fonctionnement de limage fantme.
3.1 Le
111
standard stro
Une image fantme se cre lorsque les deux champs sonores issus des deux enceintes
gauche et droite sont quasi identiques, et lorsque lacoustique de la pice est adapteet que lauditeur est centr sur son sweet spot (point de convergence du systme dcoute). Alors, lauditeur peut localiser limage sonore par sommation des
deux champs sonores. Limage fantme est une image virtuelle (qui soppose aux
sources relles que sont les haut-parleurs stro), car elle peut gnrer une infinit
de sources que lauditeur localisera sur un angle de 60, sil est positionn au sweet
spot.
Cette image fantme stro a deux limites.
La premire limite vient de leffet de prcdence (dfini par la suite) qui contraint lauditeur se placer au sweet spot. Il est bien connu que limage sonore est sensible
la position de lauditeur, si ce dernier se dcentre lgrement et soriente vers sa gauche
ou sa droite, sa localisation se porte rapidement vers lenceinte correspondante, et pour
un dplacement important la localisation par sommation ne fonctionne plus, lauditeur
peroit alors un champ sonore droite ou gauche. Le dplacement de lauditeur vers
lavant ou larrire modifie aussi la perception.
Le standard stro trouve aussi ses limites dans leffet de diaphonie acoustique
inhrent au procd. Lors de lcoute stro, quatre champs sonores sont considrer. Lenceinte gauche produit du son en direction de loreille gauche et loreille
droite, elle diffuse ainsi deux champs sonores. Lenceinte droite produit aussi, de
faon symtrique, les deux champs sonores opposs. Le champ sonore issu du hautparleur gauche, qui se dploie vers loreille droite, est considr comme de la diaphonie acoustique. Une source relle mettrait un seul champ sonore direct chaque
oreille tandis quune image fantme en produit deux. Le son issu du haut-parleur
gauche arrive loreille droite avec une diffrence de marche denviron 200s, en
comparaison avec loreille gauche et subit la diffraction due la tte. Il en rsulte,
par sommation des champs sonores, un filtrage en peigne qui donne une courbe
de rponse en frquence accidente, prsentant une forte attnuation vers 2kHz,
dans la zone de prsence, et des rjections vers laigu. Limage fantme sonne donc
plus distante, moins prcise, tandis que le centre rel port par lenceinte centrale,
appel hard center ou centre physique, sonne plein, riche.
Image
fantme stro
112
3.2
Chapitre 3 Les
facteurs perceptifs
Apport du5.1
Le dispositif5.1 est un dveloppement de la stro en deux dimensions, sur le plan horizontal. Il faut faire appel des formats suprieurs pour apporter linformation dlvation,
tels que le format Dolby Atmos, lIMAX (utilis la Gode), le 10.2 propos par Tomlinson
Holman, les formats Auro-3D, ou le 22.2 de la NHK.
Le dispositif5.1 largit tout dabord le point dcoute, notamment grce lenceinte
centrale qui permet lauditeur de se dcentrer tout en gardant une image bien localise. Leffet de dcalage de localisation existe toujours avec le centre mais il est nettement moins important que pour la stro.
Lenceinte centrale introduit la notion de source relle centre, en comparaison avec
limage fantme virtuelle, porte par les enceintes gauche et droite. Le centre rel nest
pas sujet la diaphonie acoustique, il sonne plein, non accident contrairement au
centre virtuel. Lenceinte centrale, combine aux enceintes gauche et droite, permet
dobtenir une scne frontale plus riche, plus large, offrant une bonne stabilit des
sources, une localisation plus prcise avec moins de distorsion angulaire, un meilleur
timbre et une plus grande clart pour les sources centres. Cependant, lutilisation
des trois canaux frontaux peut savrer imprcise, si lon ne procde aucun rglage
du systme dcoute. Loptimisation du dispositif permet dharmoniser les enceintes,
et, dans ce cas, la combinaison dun centre fantme et dun centre physique est plus
homogne. Sans optimisation, limage est disperse, on entend souvent les enceintes
sparment. Les sources mono diverges dans le frontal, rparties entre le centre, la
gauche et la droite, sont dmultiplies en trois sources au lieu de converger vers une
seule source centrale.
Limage sonore obtenue par le dispositif5.1 reproduit sur 360 les rflexions latrales
prcoces et le champ rverbr, lesquels se dploient tout autour de lauditeur donnant
ainsi une meilleure lecture de larchitecture de lvnement sonore. La perception est
naturelle, sans repliement despace, avec une sensation denveloppement et dimmersion dans le champ sonore. La reprsentation mentale est plus forte.
Enfin, les canaux arrire trouvent un meilleur quilibre grce la prsence de lenceinte centrale.
Apport
du5.1
- Deux types de centres: centre fantme issu des canaux L et R; hard center,
ou centre physique, provenant de lenceinte centrale seule; combinaison
de sources centres relles et virtuelles.
- Avec lutilisation du centre, les sources frontales sont plus stables, meilleure
restitution de leurs timbres, meilleur rapport son limage.
- Enveloppement et immersion dans le champ sonore.
- Internalisation possible.
3.3 Le
113
Dans cet apport du 5.1, deux nouveaux paramtres sont considrer, il sagit de
limpression spatiale, qui dfinit lespace ressenti par lauditeur et le principe de
lattention auditive. lcoute dun programme multicanal, lauditeur est sollicit
par les diffrents messages affrents tout autour de lui, ces informations concourent
leffet denveloppement. La localisation, travers le dispositif5.1, est dfinie en deux
dimensions, dans le plan horizontal, intgrant toutes les directions externes, au-del
du cercle dcoute dfini par les enceintes, ainsi que la direction interne entrant vers
le point dcoute (voir figures3.26 et 3.27). Nous verrons dans la partie attention
auditive que le spectateur peut rapidement tre gn auditivement par des sons venant
des cts et de larrire.
3.3
En thorie, le dispositif5.1 combine dix images fantmes issues des paires denceintes, lesquelles introduisent une certaine corrlation dans limage sonore. Cette
corrlation est ncessaire pour crer une image fantme. Cependant, si la corrlation est trop forte, nous obtenons alors un certain flou dans la localisation et un
talement des sources, les performances spatiales sont alors limites. linverse,
si la sparation des canaux est trop forte, limage fantme ne fonctionne plus. On
constate des trous dans lenvironnement sonore, une baisse du niveau sonore des
images fantmes, et les images sagglutinent sur les enceintes. Cette diaphonie
acoustique dpend des technologies de spatialisation, la prise de son (voir haute
rsolution spatiale), au mixage et la diffusion (voir WFS). Il existe donc, en fonction du systme de diffusion, une sparation optimale des canaux. La sparation
obtenue par le dispositif5.1 nest certainement pas optimale pour la restitution du
champ sonore.
Lutilisation du systme5.1 lorigine nest pas prvue pour une localisation prcisesur 360. Le5.1 vient culturellement du cinma, son centre est utilis pour
les dialogues du film, ses canaux frontaux restituent une localisation prcise
pourles bruitages, les effets et ses canaux surround apportent les ambiances, la
rverbration, les effets ponctuels, la musique en coordination avec les canaux
frontaux. Malheureusement, pour reproduire unespace sonore, nous ne pouvons
disposerduneinfinit de points dediffusion. Nous devons limiter la diffusion un
certain nombredenceintescompatibles avec lconomie de la production audiovisuelle et recrer artificiellement des sources virtuelles, travaillant en images
fantmes. Cest pourquoi le terme de strophonie augmente est peut-tre plus
appropri.
114
Chapitre 3 Les
facteurs perceptifs
LF
NH
14
vD,vJ 13
vH
0
H,sD
1
RF/LF
RF
NH
2
LF/RF
RB/RF
LB/LF
RB/RF
3vD/vJ
L, vD/vJ 12
40
30
20
10
4 L, vD/vJ
interchannel level-difference, dB
vL, D/J 11
L 10
LB
5 vL, D/J
RF/RB
LF/LB
RB/LB
9
NH
LB/RB
8
H
Front pair
Back pair
Right-hand pair
Left-hand pair
Experimental result
showing standard deviation
7
NH
D
H
J
L
NH
s
v
6L
RB
diffuse
high
jumpy
low
normal height
slightly
very
En5.1, les angles entre les enceintes arrires (140) et entre les enceintes latrales (80),
sont trop importants pour la cration dimages fantmes stables, il existe une distorsion angulaire consquente et des phnomnes de bascules entre les enceintes ont
lieu. De ce fait, la localisation des sources latrales est extrmement imprcise, indpendamment du systme auditif.
Le7.1 amliore la perception latrale et offre une meilleure cohrence frontale/arrire.
3.4 Localisation
3.4
115
Localisation
La localisation des sons repose principalement sur la thorie Duplex dfinie par lexistence de critres interauraux, le systme auditif tant quip de deux oreilles.
Pour localiser un son dans lespace, loreille utilise plusieurs paramtres: les critres
interauraux de temps ITD (Interaural Time Difference), de phase IPD (Interaural Phase
Difference) dans les basses frquences, dintensit ILD (Interaural Level Difference)
dans les hautes frquences suprieures 200Hz mais aussi les indices spectraux, dfinis
comme tant les colorations spectrales des fonctions de transfert HRTF (Head Related
Transfert Function). Ces colorations spectrales varient largement dun individu a lautre.
On dfinit loreille ipsilatrale comme tant loreille claire par londe sonore, et
loreille controlatrale, celle dans lombre.
Figure3.2Paramtres de positionnement
des sources dans le repre de la tte de
lauditeur, P.Guillon.
116
Chapitre 3 Les
facteurs perceptifs
LITD traduit, par une valeur de temps, la diffrence de marche que subit londe sonore
pour atteindre loreille oppose, controlatrale. Le modle de Woodworth donne une
approximation en ondes planes de lITD (voir figure3.3), assimilant la tte humaine
une sphre:
ITD,
modle de
Woodworth
LITD peut tre ou non significative par rapport aux longueurs dondes des signaux
sonores. Cela se traduit par deux types dITD:
les diffrences temporelles de la structure fine, dites aussi IPD (diffrences de
phase), valables pour les frquences basses, infrieures 1500Hz;
les diffrences de temps denveloppe, valables pour les frquences aigus, partir
de 200Hz.
Lchelle de grandeur de lITD est 0-800s, la plus petite diffrence perue tant de
lordre de 20s. La distance moyenne entre nos deux oreilles est entre 14 et 15cm, elle
influe sur les valeurs maximales dITD.
LILD traduit par une diffrence de niveau, la diffraction et labsorption que subit cette
mme onde. Aux basses frequences, lILD est tres faible, car la tte diffracte peu londe
incidente.
3.4 Localisation
117
LITD et lILD sont des critres dont la valeur est constante pour des positions de la
source et de la tte fixes, ils permettent de localiser le son dans ce que lon appelle le
cne de confusion, dont laxe de symtrie est laxe interaural.
118
Chapitre 3 Les
facteurs perceptifs
Lutilisation exclusive de ces deux indices ne permet pas de localiser convenablement les sons en hauteur, la localisation des sons en elevation semble tre contrlee
par leur contenu frequentiel, comme des expriences psychoacoustiques le suggrent. Dautre part, il semblerait que la localisation latrale est gntique, tandis
que llvation est un mcanisme qui sacquiert par la vision (calibration par la
vision).
Les indices spectraux permettent alors la localisation en lvation et lvent lindtermination avant/arrire. Les indices de localisation dynamiques ITD et ILD
obtenus par des micromouvements de la tte vont complter linformation. Par
exemple, pour une source situe devant lauditeur, dans le plan horizontal, si ce
dernier tourne la tte vers la gauche, la source sera localise sur la droite et si ce
dernier tourne la tte vers la droite, la source sera localise sur la gauche. Pour une
source positionne larrire, leffet sera inverse. Lauditeur peut ainsi discriminer
lavant de larrire.
Les figures3.6 et 3.7 reprsentent les variations ILD et ITD en fonction de langle
azimut de la source.
3.4 Localisation
119
hlix
fossette
naviculaire
anthlix
racine de l'hlix
tragus
conque
anti-tragus
lobule de
l'auricule
120
Chapitre 3 Les
facteurs perceptifs
afin de localiser le son. Les indices spectraux, qui contribuent le plus la localisation, sont ceux issus des effets des cavits des pavillons de loreille, plus prcisment la
conque. Ceux, issus de la tte et des paules, sont dun intrt moindre et correspondent
des frquences en dessous de 4kHz. Les frquences qui jouent un rle important
dans les indices spectraux des pavillons sont contenues dans la bande 4kHz-16kHz.
Pour localiser le son, le cerveau utilise potentiellement deux mthodes. La premire
consiste utiliser lindice spectral port par le spectre global de la source, en comparant le spectre peru et les spectres des HRTF enregistrs dans la mmoire. La seconde
fait rfrence aux irrgularits cres par les pics et les creux dans le spectre peru.
Figure3.10Reprsentation du plan
mdian, la localisation des sons en
hauteur semble tre contrle par leur
contenu en frquence, P.Guillon.
Encouleursurdunod.com
3.4 Localisation
121
122
Chapitre 3 Les
facteurs perceptifs
3.4 Localisation
123
En figure 3.15 une tude rcente sur la perception de hauteur, mene par J. Barbour,
publie par G.Theile et H. Wittek pour une diffusion sur un format Auro-3D.
Cette tude reprsente la moyenne et lcart type des positions de sources perues dans
le plan vertical, sur un format Auro-3D 9.1, suivant une diffrence damplitude entre les
enceintes horizontales et les enceintes de hauteur. Dans le format Auro-3D, les enceintes
de hauteur sont positionnes un angle dlvation de 30. Les rsultats traduisent un
tassement des sources entre 0 et 15, domaine o le pan-pot dintensit en lvation
fonctionne. Au-del de 15, les valeurs sont beaucoup plus disperses. Le pan-pot dintensit entre les enceintes horizontales et les enceintes verticales peut tre utilis, mais
la perception des sources reste trs instable, et les sources subissent un filtrage.
En conclusion sur la perception dlvation, les enceintes de hauteur amliorent nettement
la perception naturelle despace, la diffusion en hauteur de leffet de salle est convaincante.
En revanche, la localisation du son direct par image fantme entre les enceintes horizontales et les enceintes de hauteur ayant le mme azimut semble trs imprcise et instable
(par exemple lenceinte frontale gauche horizontale et lenceinte gauche en hauteur du format Auro-3D 9.1). Selon des exprimentations rcentes de Mike Williams, la localisation
entre une enceinte centrale place +45 de hauteur et les enceintes horizontales gauches
et droits donnerait de meilleurs rsultats, ce qui met en vidence lintrt de disposer
les enceintes en triangle entre la couche horizontale et la couche hauteur (autre exemple
dans la zone latrale, enceinte avant droite horizontale +30, enceinte hauteur droite
+90 dazimut et +45 dlvation et enceinte arrire droite horizontale +110). Dautres
exprimentations sont ncessaires afin de dfinir un format de diffusion 3D de type 9.1.
124
Chapitre 3 Les
facteurs perceptifs
Dans la phase du mixage multicanal, chaque angle dfini par la norme5.1 fait appel
une fonction de transfert HRTF spcifique, lorsque lon sollicite le placement des
sources au-del de 50, lquilibre spectral est modifi au-dessus de 4kHz. TomlinsonHolman voque lexprimentation suivante, reprsentant la diffrence de spectre
entre un son plac 30 dans le frontal et 120, larrire. La diffrence de spectre
apparat pour la zone de frquence allant de 1,5kHz jusqu 7kHz, dans laquelle la
source perd de son niveau, jusqu une dizaine de dB. Il en rsulte une perte de dfinition, de timbre, de clart.
3.4 Localisation
125
Zones dincertitude
de localisation
Localisation en azimut
- 20 40 .
- larrire: 11 .
- Sur le latral: 20 .
Pour un individu sourd dune oreille, les valeurs dincertitudes augmentent considrablement.
126
Chapitre 3 Les
facteurs perceptifs
Figure3.19 Reprsentation
des incertitudes de
localisation en lvation des
sources, donnes recueillies
auprs de 7 sujets, dont la
tte tait immobilise, les
stimuli tant de la parole
continue par une personne
familire, dun niveau de 65
phones J.Blauert
Figure3.20tude de leffet
du contenu frquentiel sur
la perception de llvation,
frontale et arrire, les
frquences autour de 8kHz
semblent tre localises
au-dessus de la tte, les
frquences 10kHz et 1kHz
semblent provenir de larrire,
les frquences 200Hz, 2kHz
et 16kHz semblent provenir de
lavant J.Blauert.
3.4 Localisation
127
10
500 Hz
1000 Hz
30
60
AZIMUT (degrs)
90
Figure3.22tude de la
variation de langle minimum
audible en fonction de la
frquence pour des valeurs de
provenance de 0, 30, 60, 75,
B.C.J.Moore.
128
Chapitre 3 Les
facteurs perceptifs
Lindice spectral est aussi utilis pour des distances modres, mettant en vidence
les proprits dabsorption de lair. Les hautes frquences sont plus rapidement attnues que les basses frquences, en fonction aussi de la prsence de vent et du taux
dhumidit de lair. Cet indice est dpendant de la familiarit avec les sources, il
est efficace dans le jugement des distances relatives mais pas dans lvaluation des
distances absolues.
Pour les sons proches de la tte, ce sont les valeurs dILD plus importantes, qui permettent dvaluer leur distance (effet de champ proche).
Dans une salle, lvaluation de la distance en absolu et en relatif se fait grce au rapport CD/CR et au temps initial, dlai entre le son direct et les premires rflexions. Le
spectre du son rflchi, altr par les premires rflexions, peut aussi servir dindice de
jugement de la distance.
Pour conclure, les informations obtenues des diffrents indices sont combines pour
valuer la distance, les deux principaux critres restant le niveau peru et le rapport
CD/CR. Ces deux indices donnent des rsultats dpendants du type de source, et de sa
position angulaire (azimut).
Le jugement de la distance est assez imprcis, des erreurs denviron 20% sont assez
communes pour des sons non familiers. Les valeurs perues pour les sons proches
ont tendances tre survalues, tandis que pour les sons lointains, les valeurs ont
tendance tre sous-values.
La variation de distance dune source mobile donne des carts de niveaux perus qui
diminuent avec la distance. On peut en conclure que la dynamique constitue trs certainement un critre dcoute intressant dans lvaluation de la distance.
3.4 Localisation
129
Paramtres
- Attnuation du niveau.
- Rapport CD/CR.
- Attnuation des frquences aigus.
- Dynamique des sons.
- Variation spectrale.
- Variations dILD plus importantes pour les sons proches.
Figure3.24tude de la localisation
sur un dispositif5.1ITU, G.Theile.
130
Chapitre 3 Les
facteurs perceptifs
vers lavant ou larrire. Ltude rvle aussi, par la reprsentation des excursions des
valeurs de localisation, une localisation des sources latrales imprcise, entre 50 et 110.
partir de cette tude, on peut conclure que le dplacement dans la profondeur est
plus critique que le dplacement latral, et limage frontale est plus robuste que limage
latrale. Limage sonore5.1 reste fragile par rapport au dplacement de lauditeur, il
faut faire appel un dispositif optimis (voir chapitre2) ou aux technologies WFS pour
stabiliser la construction de limage et largir la zone dcoute.
Suite ces exprimentations, la zone dcoute est un critre important, il est indispensable de sy dplacer pour valuer la robustesse de limage sonore, ainsi que les
variations spectrales possibles en rapport avec la diaphonie acoustique des canaux
du multicanal (lexemple du double MS prsente ces variations spectrales lorsquon se
dplace juste autour du sweet spot).
3.4 Localisation
131
Comme la figure3.25 lindique, leffet Haas a lieu partir dune diffrence de temps de
1ms jusqu environ 30ms. Il nest pas ngligeable dans le cas dune diffusion multipoint. Cet effet intervient avec une diffrence de temps darrive suprieure 1ms, ce
qui correspond une diffrence de marche de seulement 34cm. Entre 1ms et 10ms a
lieu leffet de fusion qui caractrise la modification du timbre peru de la source et de
sa localisation en fonction de la frquence.
La position de lauditeur par rapport aux diffrentes enceintes du dispositif5.1 est
donc sensible, la localisation fragile de limage sonore est dautant plus critique que
les enceintes ne sont pas toujours temporellement alignes. Avec un systme dcoute
optimis, la localisation des sources est plus prcise.
132
Chapitre 3 Les
facteurs perceptifs
Une corrlation forte des cinq canaux du multicanal internalise donc limage sonore:
cest le cas pour un mixage qui ne serait pas assez dcorrl, ou pour un systme de prise
de son multicanal trop concident. Dautre part, il existe des lieux o linternalisation est
tout fait possible et naturelle, par exemple un intrieur voiture, ou bien un ascenseur.
3.4 Localisation
133
reproduire parfaitement la localisation obtenue partir de cinq ou davantage denceintes rparties autour de lauditeur. La personnalisation des HRTF et lutilisation de
head tracking amliorent la perception.
Les HRIR sont les filtres binauraux obtenus par transforme inverse de Fourrier des
HRTF. Il est galement possible dintgrer aux HRTF les effets lis la propagation
acoustique dans une salle, ce sont les BRIR (Binaural Room Impulse Response).
Le casque multicanal fonctionne soit partir de rponses impulsionnelles (BRIR) intgrant lempreinte du systme dcoute, lacoustique, et les HRTF de lauditeur, soit
partir de librairies HRTF (mesures en chambre sourde une distance denviron
1,5m) gnralement compltes par un module de simulation de pice.
Une base de donnes HRTF de mille directions au moins semble suffisante pour un
espace virtuel 3D convainquant. Il existe diffrentes bases de donnes, dont les caractristiques pour les plus connues sont les suivantes (donnes 2013):
le CIPIC, Universit de Davis, 45 individus, 1250 directions;
lIRCAM, base Listen, 51 individus, 187 directions, lIRCAM procde fin 2013 la
mesure dune nouvelle base de donnes HRTF dans le cadre de BiLi, faite sur 1680
points (pas dchantillonnage de 6, latral 0 360, lvation -51 +86) avec 54
individus (42 hommes, 12 femmes) et 3 ttes artificielles dont la Neumann KU100
et la B & K 4100D;
le TNO FTR & D, Human Factors Research Institute, Soesterberg, 965 directions,
8 individus et une tte artificielle Head Acoustics HMSIII (base prive dOrange);
lISVR Institute of Sound and Vibration Research, Universit de Southampton;
E. Grassi, Universit du Maryland, 7 individus, 1093 directions;
Pr. Itakura, Universit de Nagoya, 96 individus, 72 directions horizontales.
Il existe depuis peu un format standard de fichier pour les HRTF nomm SOFA qui permet dimporter ses propres fonctions de transfert dans un procd de synthse binaurale.
Gnralement le casque multicanal qui fonctionne partir de HRTF personnalises, issues
de mesures de rponses impulsionnelles (BRIR), permet de reproduire les directions du
multicanal disponibles en entre (huit canaux gnralement), lauditeur peroit alors les
directions du systme dcoute5.1 ou7.1, mesures lors de la rponse impulsionnelle.
Parmi les diffrentes solutions proposes, quelques procds professionnels srieux ont
vu le jour: le casque dvelopp conjointement dans les annes 1990 par lIRT et Studer
(il ny a pas eu de vritable dveloppement commercial), le Realiser A8 dvelopp par
Smyth Research en 2009, le casque 3D Sound One de la socit 3D Sounds Labs et le
DMS BP84 rest ltat de prototype.
Le Realiser A8 permet lauditeur de mesurer ses propres HRTF avec des microphones
que lauditeur place dans le creux de ses oreilles et applique le filtrage obtenu aux diffrentes voies du multicanal. La mesure des HRTF est faite pour trois orientations de
la tte, -30, 0 et +30, le processeur calcule les angles intermdiaires par interpolation. La seconde tape de calibration consiste mesurer les HPTF (Head-Phone
134
Chapitre 3 Les
facteurs perceptifs
3.5 Impression
135
spatiale
Les fonctions HRTF varient en fonction des sujets et il est difficile dobtenir des valeurs
de HRTF moyennes satisfaisantes. Lutilisation de HRTF personnalises donne alors
de trs bons rsultats de localisation avec une bien meilleure externalisation. Voici
des lments de comparaison HRTF individualises/non individualises issus dune
synthse de publications faite par Rozenn Nicol, Orange Labs.
HRTF
individualises/non individualises
3.5
Impression spatiale
3.5.1 Dfinition
De nombreuses publications en acoustique des salles tudient limpression spatiale.
Ces tudes nous permettent de caractriser partir de critres bien dfinis les diffrents rendus sonores des salles.
136
Chapitre 3 Les
facteurs perceptifs
Figures3.28 et 3.29Distribution spatiale des rflexions dans une salle en stro (a) et en5.1 (b),
B.Priaux daprs G.Theile.
3.5 Impression
137
spatiale
Rle
138
Chapitre 3 Les
facteurs perceptifs
3.5.2 Enveloppement
Selon Arthur Harold Marshall, et telle que la dcrit Magali Deschamps, la notion
denveloppement dfinit la sensation que peut prouver un auditeur dans une salle de
concert: cette sensation correspondrait la diffrence entre se sentir lintrieur de la
musique, et la regarder comme travers une fentre.
Le critre denveloppement repose principalement sur deux paramtres, la dcorrlation interaurale, diffrence entre le signal qui arrive loreille gauche et celui qui
arrive loreille droite, et le contenu basses frquences en dessous de 600Hz. Plus
les basses frquences sont dcorrles, plus la sensation denveloppement est grande.
Dans ltude de lacoustique des salles, on dfinit plusieurs critres afin de mesurer
lenveloppement, voici les principaux:
LF: Lateral energy Fraction, rapport entre lnergie des premires rflexions latrales et omnidirectionnelles.
Ce premier paramtre traduit limportance des premires rflexions latrales prcoces
(arrivant dans les premires 80ms);
IACC: Interaural Cross Correlation.
Ce critre est li la dcorrlation interaurale, il mesure la corrlation des signaux
arrivant loreille gauche et droite;
Rapport de lnergie des rflexions frontales sur lnergie des rflexions arrires.
Ce dernier critre met en avant le rapport frontal/arrire des rflexions.
D.Griesinger dfinit autrement trois critres pour caractriser limpression spatiale: le
CSI, lESI, le BSI. En voici la dfinition, traduite par MagaliDeschamps:
CSI (Continuous Spatial Impression): cette impression survient lorsque le son
direct dune source continue (qui ne peut tre divise en diffrents vnements
sonores) interagit avec le son rflchi latralement, arrivant au moins 10ms aprs
le son direct. Le CSI dpend du rapport entre lnergie sonore du plan mdian et
lnergie du plan latral, il est totalement enveloppant, le son semble venir de toutes
les directions autour de lauditeur;
ESI (Early Spatial Impression): cette impression est lie aux diffrents vnements
sonores qui caractrisent le son direct, elle est gnre par lnergie latrale rflchie
arrivant dans les 50ms suivant la fin dun son de nature impulsive. Comme le CSI,
lESI dpend du rapport entre lnergie sonore du plan mdian et lnergie du plan
latral, mais il nest pas enveloppant. Il correspond limpression spatiale dune
petite pice, le son rflchi semble venir de lemplacement de la source sonore, et est
attach celle-ci tout en llargissant;
BSI (Background Spatial Impression): cette impression survient lorsque la source
consiste en une srie dvnements courts (notes courtes, phonmes). Notre perception organise ces vnements en un flux de premier plan, lnergie arrivant dans les
3.6 Attention
139
auditive
interstices sparant ces vnements est attribue un seul flux darrire-plan. Ces
sons sont spatialement diffus et sont considrs comme enveloppants.
Nous pouvons caractriser lenveloppement sous deux formes qui dpendent de lesthtique de limage souhaite: la salle qui entoure lauditeur (esthtique frontale) et le son
direct et la salle qui enveloppent lauditeur (esthtique quirpartie).
Impression Spatiale
- Taille de la salle.
- Spaciousness.
Largeur apparente des sources.
Enveloppement.
- Rverbrance.
3.6
Attention auditive
140
Chapitre 3 Les
facteurs perceptifs
Saillance cognitive
Parmi le flux de reprsentations qui occupent continuellement notre vie mentale,
certaines sont susceptibles dtre actives sans que leur mention ait fait lobjet dune
intention pralable, ou dune attention particulire. Il existe ainsi des automatismes
cognitifs qui mettent en dfaut les principes dinhibition en chappant aux filtrages
attentionnels mais larrt de leur droulement est coteux et provoque une orientation de lattention. Par exemple un son qui rappelle un souvenir dans laffect du
spectateur, une ambiance ou une musique, va provoquer le droulement dune pense. Larrt de son droulement est uniquement conditionn par lintervention de
lattention. Pour provoquer cet arrt, le sujet devra dpenser beaucoup de ressources
au dtriment des autres traitements en cours. La perception du message de la scne
3.6 Attention
auditive
141
sera en quelque sorte sous chantillonne, sortant ainsi momentanment le spectateur du scnario.
La mmoire visuelle agit ainsi sur le caractre nouveau du stimulus sonore et nous
sommes aussi habitus depuis le plus jeune ge la spatialisation de certains sons
comme lorage qui peut clater dans nimporte quelle direction.
La dislocalisation
Claude Bailbl dfinit la notion de dislocalisation par labsence de correspondance entre
les provenances visuelles et auditives des vnements. Le spectateur est dboussol
142
Chapitre 3 Les
facteurs perceptifs
par la rotation incessante des directions sonores, les provenances visuelles ne correspondent plus aux provenances auditives. Les carts de positions plus ou moins prononcs, voire contradictoires, empchent la fusion des images et des sons. Ce phnomne,
prsent en stro, saccentue dans le format multicanal avec les possibilits tendues
des directions du son.
La distraction
Le phnomne de distraction a lieu lorsque le spectateur est gn par des sources
intruses prsentes sur le latral ou dans la zone arrire, ce dernier sort alors du
scnario du film pendant un court instant ou bien il perd sa concentration dans son
coute.
lattention visuelle et lattention auditive du spectateur sont dissocies
lauditeur peut tre gn par ces sources latrales ou arrire avec ou sans image
Selon Claude Bailbl, les sources off trop incisives, dotes de transitoires dattaque
ou dextinction trop marqus, dclenchent des ractions dorientation involontaires,
des coups dil instinctifs en direction de lintrus auditif, lil reste tendu vers
lcran tandis que loreille est momentanment appele en coulisses, sur les cts ou
en arrire.
Dislocalisation
et distraction
3.7 bauche
143
En thorie pour les sons in on peut distinguer des valeurs de cadres sonores: gros
plans, plans rapprochs, plans densemble. Ces valeurs de cadres ne sont pas ncessairement corrles aux valeurs du cadre image. Le ralisateur peut introduire, par le
son, un niveau de proximit avec laction de la scne dont il nous distancie par limage.
La spatialisation suit le mme sens, les valeurs de cadres sonores ne dfinissent pas
toujours lenveloppement. Gnralement, le monteur son fait un choix pertinent des
sources off localises sur les cts et larrire en fonction de leur poids attentionnel
(caractre nouveau, leurs caractristiques dynamiques, frquentielles), leur degr de
prvisibilit, les contraintes esthtiques de luvre, le poids attentionnel de limage
(scne avec des contraintes ralistes ou image virtuelle avec peu de contraintes).
Il est judicieux de jouer sur la coexistence des sons frontaux et arrire:
accorder les sons en frquence, en dynamique et en espace de sorte constituer un
seul flux auditif;
masquage attentionnel dun son prosexigne (caractrise la capacit quont certains
stimuli dattirer automatiquement lattention) larrire par une autre stimulation
frontale;
habituation contre un stimulus caractre nouveau, jouer sur la ressemblance des
sons entre eux.
En dernier recours, traiter en frquence, temporellement et en dynamique les sons
arrire pour viter toute distraction.
3.7
3.7.1 Esthtique
Image relle, image virtuelle;
Esthtique frontale, esthtique quirpartie.
3.7.2 Localisation
Garder une dominance frontale des sources, importance de lquilibre frontal/
arrire en niveau;
Localisation interne des sources: effet, ralisme ou artefact?
Fonctions de transfert HRTF: deux flux auditifs perus lorsquun son est plac entre
les enceintes avant et arrire du5.1, possibilit daccorder en frquence le frontal et
larrire pour renforcer la localisation latrale dune source;
Perception des sources latrales imprcises et instables;
144
Chapitre 3 Les
facteurs perceptifs
Chapitre 4
Limage sonore, les esthtiques,
et la ralisation
Ce chapitre tudie le langage dvelopp pour la fabrication des images sonores en multicanal. Il traite dans un premier temps de lanalyse de limage sonore par un ensemble
de critres techniques et artistiques afin de dvelopper un langage commun. Un certain
146
Chapitre 4 Limage
4.1
4.2
4.2 Prsentation
147
Les critres proposs dans ce chapitre permettent simplement de dcrire limage sonore
en sappuyant sur un langage commun pour le mixeur, le preneur de son, le monteur
son, le ralisateur, le compositeur, etc.
Les critres font lobjet dune quantification de 1 5:
1 =mauvais, trs faible;
2 =pauvre, faible;
3 =correct, moyen;
4 =bon, grand;
5 =excellent, trs grand.
148
Chapitre 4 Limage
4.2 Prsentation
149
Relief
Le relief repose sur lexistence de diffrents plans sonores (ou cercles), il est li aux
caractristiques du lieu. Plus le lieu est de grande taille, plus le relief est important,
condition dutiliser des techniques de prise de son capables de restituer la profondeur.
150
Chapitre 4 Limage
Impression spatiale
Taille de la salle, dimension du lieu
Le volume de la salle ou du lieu est un paramtre important dans la perception de
lespace. Plus il est grand, plus lauditeur peroit un espace important.
Largeur apparente des sources: frontale, latrale, arrire
On dfinit par largeur apparente des sources, la distance maximale sur laquelle stend
un secteur du multicanal: la zone frontale constitue des trois enceintes, la zone arrire
ou les secteurs latraux. Cette notion na de sens que si la perception reste externe.
La largeur globale de limage provient de la largeur du sujet et de celle gnre par
lacoustique du lieu.
Dans le cas dune esthtique frontale, la largeur globale de limage repose essentiellement
sur le sujet localis sur les canaux L,C,R.Pour une esthtique quirpartie, la largeur
provient des diffrents secteurs frontal, latraux et arrire. La largeur et la taille dun
objet sont corrls.
4.2 Prsentation
151
Enveloppement
Lenveloppement traduit la sensation dtre entour par les sons. Lauditeur a la sensation dtre immerg dans un lieu, comme sil se trouvait rellement dans ce lieu. Cette
sensation est trs fortement lie la dcorrlation interaurale et repose sur la prsence
de signal dans les canaux arrire, plus prcisment sur le rapport en niveau entre le
frontal et larrire (quilibre F/A). Un enveloppement optimal demande un rapport
F/A bien quilibr, et une dcorrlation importante des cinq canaux du multicanal.
Sil existe trop de corrlation entre les canaux, lespace se referme et tend vers une
perception dinternalisation. Lenveloppement peut provenir de lacoustique du lieu
(rverbration de la salle, ambiance du lieu) ou bien de la combinaison entre son direct
et acoustique.
Rverbrance
La rverbrance est dfinie par le prolongement temporel des vnements, gnr par
la rverbration dune salle ou dun lieu, ou par des dlais ajouts dans un mixage. Ce
prolongement temporel influe sur la perception despace.
Diffusion de la salle
La diffusion de la salle est une caractristique qui traduit la densit des rflexions. La
salle peut gnrer un grand nombre de rflexions ce qui donne un champ diffus trs
homogne, ou bien un nombre rduit de rflexions : on peroit alors plutt des dlais.
Les quilibres
quilibre de construction
Homognit en construction
Lauditeur analyse la continuit de localisation, lexistence ventuelle de zones vides
dans limage, la focalisation possible vers certains canaux comme le centre, la prsence
de distorsions angulaires. Lhomognit en construction repose sur la prsentation des
composants de limage suivant la mme chelle. Cette homognit repose en partie
sur lquilibre frontal/arrire et lquilibre horizontal/hauteur (pour la perception 3D)
dfinis ci-dessous.
Lauditeur tudie lhomognit de leffet de salle, ou de lambiance du lieu. Leffet de
salle en multicanal peut tre trs diffus, trs homogne ou parfois polaris vers les
enceintes. La comparaison dune croix IRT et dun carr Hamasaki (voir chapitre5)
illustre les diffrentes images sonores obtenues: la premire est trs focalise vers les
enceintes, donnant des sources ponctuelles tandis que la seconde est trs homogne et
plutt diffuse. Les exemples sonores sont donns dans la partie web.
152
Chapitre 4 Limage
Figure4.4Image sonore dune ambiance
croix IRT, B.Priaux. Encouleursurdunod.com
On peut dfinir aussi lquilibre horizontal/hauteur de la mme faon pour les images
son 3D. Son ajustement est dlicat, trop de son alimentant les enceintes de hauteur
provoque une gne auditive.
Zone dcoute
4.2 Prsentation
153
La dislocalisation
La dislocalisation caractrise des vnements visuels et auditifs qui nont pas les mmes
provenances. Ce phnomne, prsent en stro, saccentue dans le format multicanal avec
les possibilits dcuples des directions sonores. Citons, pour illustrer ce dfaut, le cas
dun plan dimage serr sur un objet dont le son serait localis sur lenceinte gauche ou
droite, ou bien le cas dun son in plac sur les cts ou larrire. Les sources off peuvent
tre positionnes en dehors du canal central gnralement sans crer de gne auditive.
quilibre spectral
Lquilibre spectral traduit la bonne ou mauvaise linarit du spectre. On peut diviser le spectre en trois bandes de frquences: les basses frquences, les moyennes frquences et les hautes frquences. Lauditeur analysera lquilibre spectral global de
limage ainsi que sa distribution spatiale. Afin dobtenir une image sonore cohrente,
les directions du multicanal doivent avoir le mme quilibre spectral.
quilibre CD/CR
Lquilibre champ direct sur champ rverbr (Eq CD/CR) traduit la proportion de
son direct et de rverbration ou dambiance. Le multicanal induit ici encore une
contrainte spatiale logique. Afin dobtenir une image cohrente, le rapport CD/CR
doit tre le mme dans les diffrentes directions qui portent le sujet. Il arrive souvent
quon obtienne des rapports CD/CR diffrents sur les canaux L, RetC dun mme plan
sonore, pour des raisons de choix de systmes de prise de son, dorientation des capsules ou de choix de mixage.
Distraction
La distraction a lieu lorsquune source intruse sur les cts, larrire ou en hauteur
cre une certaine gne auditive, avec ou sans prsence de limage. Cest le cas de certains mixages qui prsenteraient des sons directs sur les cts, larrire ou en hauteur
mal intgrs au frontal. Dans ce cas, les sources avec transitoires mergent trop et
attirent lattention. Ce peut tre aussi la consquence dun choix de systme de prise
de son multicanal trop corrle ou bien une captation o le son direct est trs prsent
autour dun ensemble cohrent de capsules.
154
Chapitre 4 Limage
La dfinition
La dfinition peut tre compare la notion de nettet de limage photographique
(ou de piqu). Elle dsigne la puret du signal sonore, sa finesse et la prcision de ses
transitoires avec laquelle on la peroit.
Lauditeur analysera la dfinition de limage dans sa globalit ainsi que son homognit
spatiale.
Lintelligibilit
Lintelligibilit dsigne le degr de comprhension du signal. Sommes-nous en mesure
de comprendre le texte chant, parl ou bien jou? On parle aussi de sparation des
timbres lorsque lon tudie le spectre de limage.
4.3 Application:
155
La transparence
La transparence est la capacit de mettre en relation immdiate les sources sonores et
lauditeur, en labsence de tout autre lment. On peut parler de puret ou dabsence
de voile qui sinterpose entre la source et lauditeur. Lanalogie avec la photographie nous amne comparer la transparence sonore la qualit de transmission de
la lumire. Cette transparence rsulte des conditions de propagation de londe sonore
(temprature, nature du milieu, clrit, etc.), de labsence de micro bruits divers et
de la ligne de transmission de la source jusqu lauditeur, en passant par les microphones, les cbles, les convertisseurs, les supports denregistrement et le systme de
monitoring, auxquels il convient dajouter les conditions de propagation propres la
salle dcoute.
Lauditeur analysera la transparence de limage dans sa globalit ainsi que son
homognit spatiale.
Existence de microparasites
Ce dernier paramtre numre lensemble des bruits qui peuvent altrer la qualit
dune image sonore: des micro-lments dorigine acoustique ou lectrique, rumble,
saturations, distorsion harmonique, pleurage, ainsi que des artefacts trs frquemment
prsents sur les sons encods.
Est propose en figure4.6, sous la forme dun tableau, une synthse de lensemble des
critres abords.
4.3
coute dextraits sonore 5.1 et binaural, comparaison des systmes de prise de son multicanal
156
Chapitre 4 Limage
Esthtique
Localisation en profondeur
Stabilit des plans (ou cercles)
Mouvements des sources (linarit)
Localisation
Construction
quilibre de construction
quilibres
Le dessin de limage
Impression
spatiale
Taille de la salle
q.spectral
q.son direct /
CD/CR global, homognit spatiale du CD/CR
son rverbr
Ractions de lorientation rflexe de
Distraction
lattention dans les zones latrales et arrire
Diffrence entre niveau maximum et niveau minimum
Perception des nuances
Dynamique
Couleur de
limage
Qualit du
signal
Restitution des
timbres
Coloration de la
Homognit en frquence
salle
Dfinition
Intelligibilit
Transparence
Figure4.6Paramtres multicanal.
4.4 Genres,
4.4
157
esthtiques et ralisation
lments principaux de
spatialisation, esthtique
Film, Fiction
Documentaire
Sport
Animation
Documentaire
Musique: concert
Fiction
Reportage
Album
Jeux vido
Dplacement du
personnage, bruitages,
ambiances, FX, musique
Scnographie
Cinma, TV
Programmes Radio
Musique supports
Dfinition du genre
Ralit virtuelle
158
Chapitre 4 Limage
des monteurs son et des mixeurs. Ce langage sappuie avant tout sur le placement des
dialogues, gnralement dans lenceinte frontale afin quils soient intelligibles par tous
et bien en rapport direct avec limage. Laction est scnique. La musique extradigtique, les ambiances et les effets constituent le dcor gnralement spatialis.
Le film est gnralement abord par une esthtique frontale, parfois trs spatialise
sur certaines squences daction. La spatialisation est traite diffremment suivant les
scnes: il y a un temps pour lenveloppement et un temps pour le frontal. Tout dpend
de ce qui est trait, du type de film, du lieu, de limage, de ses cadres et de son poids
attentionnel La rgle partage par les mixeursest dviter de perturber un spectateur
dans la vision dune histoire, do lexistence des paramtres en rapport avec limage
aborde prcdemment, distraction et dislocalisation.
Lambiance est souvent utilise pour crer des changements de lieux, comme le passage
dune scne intrieure une scne extrieure. La voix-off, lment extradigtique,
peut tre restitue trs proche du spectateur, en interne, plus prs que le plan dfini
par limage. Mais on peut aussi se servir de la spatialisation pour exprimer une
motion particulire du personnage que lon voit et tablir des contrastes.
Les films danimation proposent un univers imaginaire, dans lequel le mixeur peut
pleinement spatialiser les effets et dfinir des mouvements sonores, en utilisant les
canaux arrire qui marquent les dplacements limage.
Le documentaire est gnralement spatialis de la mme faon, le spectateur suit
lhistoire conte dans la zone frontale. Certaines squences virtuelles sont plus
quirparties. Dans le documentaire animalier Microcosmos, certaines squences
reposent sur des images de synthse, des schmas qui demandent une illustration
sonore imaginaire, ou bien sur des scnes o le point de vue de la camra plonge dans
lunivers des insectes. Laccent est mis sur le point de vue de linsecte: le spectateur
glisse alors dans ce monde spatialis et devient acteur.
Le documentaire musical This is it combine diffrentes esthtiques: les squences trs
frontales des interviews, les rptitions ralistes du spectacle en salle avec le travail des
ambiances et les vido clips o le son devient plus quirparti et plus virtuel.
Le sport en multicanal est abord par lesthtique frontale. Lambiance capte par un
systme de prise de son multicanal suspendu au niveau de la tribune ou plac sur le
terrain constitue la spatialisation du son. Les sons directs sur les matchs de football ou
rugby appels le zoom sont disposs dans la zone frontale, ils prcisent les frappes de
balles, les changes entre les joueurs et larbitre. Les commentaires sont gnralement
divergs entre centre physique et centre fantme pour une meilleure homognit.
4.4.3 Musique
Lesthtique de la musique en multicanal sappuie sur deux approches. La premire est
dfinie par lesthtique frontale o le son direct est dans la zone frontale et le champ
rverbr est dploy tout autour de lauditeur. Cest gnralement le cas de la musique
classique donne en reprsentation frontale. Lopra, le ballet, lorchestre symphonique
4.4 Genres,
159
esthtiques et ralisation
sinscrivent dans ce type desthtique sonore. Limage sonore est relle, la rfrence est
donne par la perception de lauditeur en salle que lon sefforce de reproduire.
Louverture de la scne sonore (langle sous lequel on voit le sujet) varie selon le genre
abord et suivant le type denregistrement, concert ou disque (sans reprsentation
publique), elle place luvre la frontire entre le frontal et lquirparti. Souvent
lorchestre stale jusquaux enceintes arrire, sur un angle dincidence de 220, ce qui
amliore considrablement la lisibilit de luvre.
La seconde approche repose sur lesthtique quirpartie, dans laquelle on dispose
le champ direct et le champ rverbr tout autour de lauditeur. Cest le cas par
exemple de la musique actuelle ou celui de la musique acousmatique dfinissant une
image virtuelle. Dans ce contexte, la musique na plus cette reprsentation frontale,
le compositeur sollicite toutes les directions du multicanal, sur des formats souvent
mme suprieurs au5.1 tels que le format octophonique.
Les uvres classiques contemporaines dont lorchestration est trs dense sont traites
en quirpartition: lenregistrement reprend la disposition des sources dans la salle
(notamment les uvres Rpons de Pierre Boulezet et On the transmigration of souls de
John Adams).
160
Chapitre 4 Limage
En ce qui concerne les musiques actuelles, lalbum Vespertine de Bjrk sorti en 2001
est un exemple dcriture ralise partir de bruitages et de sons musicaux pour un
espace totalement virtuel. Le traitement interne de la voix de Bjrk repose sur une
distribution corrle sur les cinq canaux. Leffet apporte une certaine proximit
avec lauditeur et une bonne intelligibilit, lutilisation de rverbration apporte la
profondeur, lenveloppement. On retrouve dailleurs ce type de traitement de voix
dans toutes les uvres de lartiste. Lorchestration repose sur des sources, souvent
4.4 Genres,
esthtiques et ralisation
161
162
Chapitre 4 Limage
4.4 Genres,
esthtiques et ralisation
163
sonore et son identification; tout son est candidat tre musique cest--dire susceptible de gnrer une rception de type musicale, mais comment sopre lcoute quand
les sons entendus sont inous ou utiliss dans des contextes totalement inattendus?
Ds les annes cinquante a t associ au processus de perception le concept dcoute
acousmatique. Ce mot trs ancien dcrit lcoute dun son sans rfrence visuelle;
Pythagore laurait introduit dans son enseignement au cinquime sicle avant JC en
tant que catgorie pour y placer les auditeurs qui lcoutaient derrire un rideau
avant davoir accs la catgorie de mathmaticiens. Cette coute de la source masque est un des fondements de lAcousmatique; elle dfinit la situation dans laquelle
nous entendons un signal sonore, en interprtons lorigine et essayons de comprendre
linformation vhicule. Ainsi notre perception effectue un double travail didentification et dinterprtation bas sur notre exprience auditive. La musique concrte,
ensuite acousmatique, propose un cadre dcoute diffrent des musiques instrumentales, o les sources sont connues et identifiables; lcoute dcouvre, interprte,
construit des cadres possibles de perception musicale et prouve, comme dans toute
musique, le plaisir des sons.
2. Jacques Poullin, Lapport des techniques denregistrement dans la fabrication de matires et de formes musicales nouvelles. Applications la musique concrte , LOnde lectrique, vol. 34, n 324, Paris, 1954, p. 282-291.
164
Chapitre 4 Limage
Linvention est le travail des compositeurs mais elle ncessite des outils, cest pourquoi,
dans cette approche, les outils de transformation et gnration de sons sont indispensables pour fabriquer les lments ncessaires aux musiques. Une dmarche trs
souvent observe est celle de lutilisation dun nombre restreint de sources sonores,
enregistres et ensuite modifies de nombreuses fois par des outils de modification
spectrale, temporelles ou hybride associant des outils de synthse. Ainsi tous les sons
crs partir des sources dorigine (tout en tant diffrents) conservent lempreinte
initiale de cette source et impriment aux sons crs une logique spectro-temporelle qui
facilite leur intgration dans une construction musicale.
Laspect probablement le plus intressant est celui de la restitution des musiques en
concert. Les uvres sont produites dans des formats trs divers; nous avons vu les
dbuts monophoniques des premires musiques; ensuite est arrive, la stro, les
quatre pistes, le huit-pistes, 16, 24 et le5.1. Chaque format complexifie le processus de
restitution, surtout si luvre est donne en public et si ce public est nombreux. Pour
cela il faut des outils puissants et versatiles capables de sadapter des situations et des
contextes acoustiques trs diffrents. Dans la continuit, du concept dAcousmatique,
un outil appel lAcousmonium a t dvelopp en 1974. Cest un outil compos dun
nombre variable de haut-parleurs distribus permettant un contrle adaptable des
musiques dans diffrents espaces acoustiques pouvant aller de quelques dizaines plus
de mille de personnes. Ses caractristiques principales sont les suivantes:
proposer une multiplicit de points de diffusion sonore distribus dans le lieu de
projection, y compris dans le public grce des ensembles de haut-parleurs spcialiss appels arbres sons avec quatre ou six branches contenant chacune un
haut-parleur de haute frquence;
permettre une distribution complexe du spectre sonore: la plupart des haut-parleurs
sont spcialiss dans des rgions du spectre allant de linfra grave lextrme aigu,
dautres ont une rponse constante sur tout le spectre;
offrir une modulation trs souple de lespace acoustique, depuis les haut-parleurs de
proximit crant une image trs nette du son jusquaux projecteurs lointains faisant
intervenir toute lacoustique du lieu;
assurer un contrle prcis de lensemble travers une console de mixage avec
laquelle les musiciens travaillent linterprtation des uvres en ladaptant aux
conditions acoustiques de la salle de concert.
Ce dispositif a permis de raliser plus de six cents concerts depuis sa cration et
continue dvoluer pour permettre de sadapter aux formats mais surtouts aux
musiques. LAcousmonium permet une mise en espace du son acousmatique. Le
son devient source mobile, sa projection dirige souvre linterprtation.
4.4.5 Radio
Les uvres radiophoniques crites en multicanal sont le documentaire, le reportage, la
fiction et le concert. Elles sont gnralement trs spatialises, cest le cas particulirement
4.4 Genres,
esthtiques et ralisation
165
166
Chapitre 4 Limage
Dans ce jeu, nous dirigeons le personnage de Batman dans une vue 3D ( la troisime
personne, cest--dire que nous voyons le corps de Batman en permanence devant
nous). Nous avons la libert de diriger librement la camra (l o regarde Batman) ainsi
que les dplacements (marcher, se baisser, voler, etc.). Il est aussi possible de porter des
coups (coups de poing, coups de pied, coup rapide, coup puissant, etc.) et dactionner
des mcanismes (ouvrir la grille dun conduit daration, par exemple).
Le gameplay (briques de jeu) est constitu principalement de phases dexploration/
nigme (trouver le passage jusqu la salle des gardes, actionner le circuit de ventilation,
etc.) et de phases de combat (tuer des ennemis de plus en plus dangereux, soit de
manire directe, soit de manire furtive).
Lhistoire se droule dans un asile de fous dont le Joker a pris possession. Batman tente
de le capturer mais de nombreux piges lattendent. Lambiance gnrale du jeu est
assez oppressante: les dcors sont sombres, le mobilier est cass, il y a des gardes et
des dtenus, nous assistons des scnes de torture, de nombreuses machines et mcanismes peuplent cet univers et les personnages que nous croisons sont tous drangs.
Le son du jeu est compos de trois familles distinctes: Musique/Voix/SFX (bruitages
et ambiances).
4.4 Genres,
esthtiques et ralisation
167
La musique est omniprsente dans le jeu avec un mixage qui ragit de manire dynamique, ce qui permet dobtenir une orchestration vivante. La musique extradigtique
souligne la fois le ct hroque de Batman et le monde sombre dans lequel il se
trouve.
Elle est diffuse en stro pendant le jeu et nutilise pas le canal Lfe. Une raison de ce
choix tant de ne pas troubler les repres spatiaux du joueur (la position des ennemis)
et ne pas masquer les effets spciaux. Les trois tats principaux sont:
tat 1: Exploration (en boucle dure une minute)
Cest ltat calme du jeu. Cest le moment o lon nest pas en prsence dennemis et que
lon cherche son chemin. On entend le thme principal du jeu trs calme (orchestral) au
cor solo, des violons, des churs, quelques cymbales dorchestre, des nappes sourdes
(comme des souffles), des sons de synthse discrets et des bruitages de vent et de chocs
lointains.
168
Chapitre 4 Limage
Cest ltat qui se dclenche quand on tue discrtement un ennemi. Le thme est
toujours prsent mais son orchestration a chang. Maintenant, les violons sont plus
prsents et plus rythms, les sons lectroniques prennent plus de place. Cette partie
musicale remplace doucement le premier tat (utilisation de crossfade) puis reste
environ deux cycles (deux minutes), mme si lon ne tue pas dautres ennemis. Ainsi la
tension est mise en place et revient sur ltat 1.
tat 3: Combat (en boucle dure une minute)
Les violons sont encore plus marqus et sont trs rythmiques, le thme est maintenant
soutenu par la section des cuivres, les percussions orchestrales font leur entre
(timbales) et les bruitages disparaissent. Cette partie se dclenche ds que Batman est
repr et sestompe quand il est cach.
Les voix
Les voix originales (US) sont trs varies entre la voix sombre et monotone de Batman, la voix rieuse du Joker dans les haut-parleurs et sur les tlvisions de lasile,
les remarques des gardes et les innombrables cris. noter que dans un jeu de cette
ampleur la localisation (traduction) est faite en treize langues.
La majorit des voix sont spatialises en temps rel sur cinq canaux et bnficient
en plus dune rverbration multicanal qui se transforme en fonction de la taille des
diffrentes pices.
4.4 Genres,
169
esthtiques et ralisation
Cette catgorie est la plus riche notamment pour sa diversit et les techniques de
mixage spatial utilises.
Cette fois-ci le canal Lfe est utilis et renforce la prsence des ambiances du jeu (Layer 2).
170
Chapitre 4 Limage
Layer 1: Les pas et les bruits de dplacements de Batman ne sont pas mixs trs
fort (toujours prsents). Les sonorits changent en fonction des matires rencontres
(plaque de mtal, bton) =dans le canal central +rverbration 5.0.
Layer 2: Lambiance omniprsente dans les diffrents niveaux change subtilement en
fonction de la position de Batman (souffle lointain, ronronnement des machines) =
diffuse en statique en5.1 (avec Lfe).
Layer 3: Les lments du dcor comme les portails laser (grincement lectronique),
les machineries (grondement et cliquetis), les conduits daration (souffle) =spatialiss
sur les cinq enceintes.
Layer 4: Les diffrents coups que porte Batman (sorte de bruit de vtements, cape) =
placs dans le canal central uniquement +rverbration en 5.0.
Layer 5: Utilisation des accessoires de Batman comme le batarang, la cape, le grappin,
etc. =diffuss en statique sur les trois enceintes frontales.
Layer 6: Passage en mode dtection (pouvoir de vision spcial) =son de flash sur les
cinq enceintes en statique en entre et sur la centrale en sortie.
Layer 7: Les tirs des gardes =spatialiss en 5.0 +rverbration avec les impacts de
balle dans la centrale.
Layer 8: Linterface du jeu (utilisation des menus) =en stro.
Mixage multicanal interactif
La nature imprdictible des interactions du joueur dans un monde virtuel rend la tche
du mixage extrmement ardue. Dans le jeu Batman, rien nempche un joueur de raliser plusieurs actions en simultan. Par exemple courir en lanant des batarangs vers un
groupe dennemis qui nous tirent dessus et qui crient pendant que le joker parle dans
les haut-parleurs de la prison, tout en longeant une srie dnormes ventilateurs. Tout
cela soulign de musique orchestrale dans un mixage5.1 interactif!
Cest ltape de lintgration qui permet de relier les diffrents tats du jeu avec les
dclenchements sonores. Ici, le moteur FMOD est sollicit pour faire ce travail. Dans
cet environnement, il faut dterminer des catgories et des sous-catgories sonores
(par ex: arme puis arme du joueur puis coup de poing). Chaque famille
cre possde des attributs (lecture en boucle, alatoire, etc.) avec des rglages et des
comportements spcifiques. On peut ainsi dfinir le volume de tous les coups ports
par Batman et ne les assigner que dans le canal central.
Dans certaines situations, le joueur se retrouve avec des incohrences de mixage. Par
exemple la hauteur (monter ou baisser la tte) na pas dinfluence sur le son et on a du
mal associer le son du Joker avec les haut-parleurs accrochs. La rverbration 5.0
change radicalement quand on passe dune pice lautre, mme si les portes sont
grandes ouvertes. Les voix ne sont pas attnues lorsquon se situe derrire un mur
4.4 Genres,
esthtiques et ralisation
171
(problme docclusion). Les distances dattnuation sont parfois mal gres et il arrive
de pouvoir couper une parole en se reculant
Il est donc ncessaire pour lquipe son de tester un maximum de situations et, ainsi,
pouvoir faire les ajustements ncessaires dans le moteur audio. Il arrive assez souvent
en production que le manque de temps (ou de disponibilit dun programmeur
son) oblige lquipe faire confiance au moteur de rendu sonore et ne pas ladapter
(utilisation des rglages par dfaut).
La compatibilit stro du jeu via une rduction automatique par FMOD oblige aussi
certains choix de travail, comme lutilisation des enceintes frontales pour les cinmatiques.
172
Chapitre 4 Limage
lments
4.4 Genres,
esthtiques et ralisation
173
Certains sons attirent lattention tels que les sons transitoires marqus, ceux
dont le spectre est autour de 3 kHz, zone sensible de loreille, ou bien tout son
caractre nouveau. Ces sons, comme voqu au chapitre3, sont susceptibles de crer
de la distraction sils sont placs sur les cts, larrire ou en hauteur. On peut les
spatialiser autour de lauditeur en travaillant la fusion frontal/arrire ou horizontal/
hauteur des sons.
Le sens de lecture dune uvre spatialise est gnralement frontal. Sans limage,
lcoute nest pas toujours polarise, la fiction radio est un cas envisager o lauditeur
peut tre plac dans nimporte quelle direction.
Une uvre peut comporter des contraintes culturelles limitant la ralisation en
multicanal. Cest souvent le cas de la musique actuelle o la stro a format le langage.
Cest pourquoi il est indispensable dcrire ou de rcrire luvre en considrant les
opportunits pour lespace. Certains essais de spatialisation dans la musique classique
qui impose une image relle ne sont pas concluants car luvre nest pas respecte. Les
instruments peuvent tre spars et lharmonie crite par ces instruments desservie.
174
Chapitre 4 Limage
Chapitre 5
La prise de son
essentiels
176
Chapitre 5 La
prise de son
Nous dfinissons la prise de son multicanal dune scne sonore par lutilisation dun
systme de captation prvu pour alimenter les enceintes du dispositif de restitution,
gnralement les cinq enceintes du5.1. Nous utilisons donc un ensemble de microphones
spatialiss, afin de capter lacoustique dune salle ou lambiance dun lieu. La scne sonore
doit tre spatialise dans une salle suffisamment rverbrante ou dans un environnement
ayant des proprits sonores enveloppantes afin dobtenir une image sonore spatialise
intressante. Lorsque les priorits spatiales du lieu sont limites, la construction du sujet
sur les trois canaux du frontal donne gnralement des rsultats satisfaisants.
Il existe un grand nombre de systmes travaillant trois, quatre ou cinq microphones. Il
est important de faire la diffrence entre un systme principal et un systme dambiance.
Le systme principal est comparable au couple strophonique, il donne limage sonore
principale avec une spatialisation des sources et un rapport champ direct sur champ
rverbr adquat, de telle sorte que les lments sonores sont suffisamment timbrs.
Cest une photo de la scne qui apporte linformation de localisation des sources et qui
donne un point de vue. En gnral, on construit le reste de limage sonore partir de
ce systme principal.
Le systme dambiance ne prsente pas de sources directes, il pose en quelque sorte
le dcor, latmosphre dune scne, en restituant une certaine distance. Ensuite, on
travaille en gnral le reste de limage en intgrant le son direct en frontal, ou parfois
tout autour de lauditeur, capt en mono, en stro ou partir de trois ou cinq canaux.
5.1
5.1 Rappels
177
Figure5.1Les directivits
cardiodes, M.Williams.
Figure5.2Les directivits
hypocardiodes, M.Williams.
178
Chapitre 5 La
Figure5.3Les directivits
hypercardiodes, M.Williams.
Figure5.4Les directivits
supercardiodes, M.Williams.
Figure5.5Les directivits
bidirectionnelles, M.Williams.
prise de son
5.1 Rappels
179
Figure5.6Les directivits
omnidirectionnelles, M.Williams.
Figure5.7Reprsentation
de langle de reproduction
strophonique (-30, +30) en
fonction de langle de provenance
de la source pour un angle de prise
de son de 100, M.Williams.
180
Chapitre 5 La
prise de son
5.1.5 Directivits
Les microphones que nous utilisons ont des lois panoramiques de captation
dordre 0 pour lomnidirectionnel et dordre 1 pour le bidirectionnel. Nous dfinissons
alors, par combinaison, six directivits possibles: lomnidirectionnel, lhypocardiode,
le cardiode, lhypercardiode, le supercardiode et le bidirectionnel. Ces directivits
sont dfinies par le schma de la figure5.9.
5.2 Principe
181
de son
Stro
182
Chapitre 5 La
prise de son
Figure5.11Captation du triplet avant avec superposition des angles de prise de son, G.Le D.
5.3 Les
183
Figure5.12Captation du triplet avant prsentant une zone non couverte par les angles
de prise de son, G.Le D.
5.3
5.3.1 MMAD
Le systme Multiphonic Microphone Array Design a t conu par Mike Williams et
Guillaume Le D. Il repose sur la thorie des angles de prise de son et comporte une
infinit de configurations possibles publies sous forme dabaques.
Prsentation
Le principe repose sur la segmentation parfaite du champ sonore, cest--dire
lobtention dun raccord parfait (critical linking) entre les cinq angles de prise de
son pour couvrir les 360, sans superposition ni zones non couvertes, avec une totale
libert dans le choix des diffrents angles de prise de son. La diaphonie acoustique
entre les microphones opposs est ngligeable par rapport aux couples strophoniques
adjacents du fait des orientations opposes des microphones, de leurs distances et des
directivits utilises (cf. publication AES 118th AES Convention in Barcelona Preprint
6373, 2005).
184
Chapitre 5 La
prise de son
Figures5.13 et5.14Liaison parfaite des segments frontaux gauche et droite, FLS: secteur frontal gauche,
FRS: secteur frontal droite, M.Williams.
Figures5.15 et 5.16Angle de prise de son infrieur (5.15) et suprieur (5.16) langle physique entre les
microphones, M.Williams
5.3 Les
185
ten
ax
ed
'in
sit
ax
ed
e
tem
ps
186
Chapitre 5 La
prise de son
5.3 Les
187
Dans les deux cas, les axes de temps et dintensit ne sont plus superposs, le couple
devient physiquement asymtrique. Langle de prise de son a subi une rotation vers la
droite ou vers la gauche, suivant les cas. Cette rotation de langle de prise de son nous
permet dtablir le lien critique entre les secteurs couverts.
Les figures5.21 et 5.22 illustrent la reprsentation sur le triplet:
Les deux offsets des figures5.21 et 5.22 sont quivalents et consistent rendre le couple
de microphones physiquement asymtrique.
Les quatre types doffsets produisent les mmes effets: ils translatent la courbe diffrence de temps/intensit du couple (en fonction de langle dincidence de la source)
188
Chapitre 5 La
prise de son
selon laxe des DT ou laxe des DI, ce qui entrane un changement des extrmits de
langle de prise de son (intersections avec les courbes de localisation strophonique)
soit, plus concrtement, une rotation de langle de prise de son.
Figure5.25Fonction diffrences dintensit et de temps avec offset positif lectronique de temps - 0,28ms,
dcalage selon laxe t et angle de prise de son asymtrique - 35/ +70, M.Williams.
5.3 Les
189
On dfinit en premier lieu les angles de prise de son des deux segments avant gauche et
avant droit et on choisit une combinaison distance/angle entre les micros L, C et R qui
les ralise. Ensuite, on utilise un offset par position de microphones (dissymtrisation
des couples) pour raliser la liaison parfaite des deux angles de prise de son.
La valeur des angles de prise de son latraux est impose par les angles choisis pour
lavant et larrire (somme des angles =360). Pour raliser ces angles de prise de son
latraux, on fait varier la distance entre le triplet avant et le couple arrire (les angles
sont dj tous dtermins).
190
Chapitre 5 La
prise de son
Quand la bonne distance est ajuste, la liaison parfaite avec les segments latraux reste
encore raliser: on applique alors un offset lectronique intensit ou temps sur le
couple arrire, cest--dire quon attnue ou on retarde le couple arrire par rapport au
triplet avant, ou linverse, selon les cas.
Caractristiques gnrales
Les angles de couverture du systme MMAD sont variables, et leur diffusion sur
lcoute5.1 intgre des compressions en gnral dans le frontal et des extensions
souvent sur les latraux et dans la zone arrire. Il est cependant possible de compresser
ou dtendre volont des secteurs de lespace sonore dans lespace de reproduction,
et grce la liaison parfaite des segments, de raliser une extra largeur, cest dire de
faire stendre limage strophonique sur les cts, au-del des enceintes gauche et
droite, sur une zone allant jusqu 50.
La mthode est gnralisable, le principe de ces systmes reste valable quel que soit le
nombre denceintes de diffusion.
Il existe une infinit de systmes, comme pour les couples strophoniques, un nombre
quasi infini de combinaisons distances/angles permet de raliser les angles de prise
de son dsirs. Il est aussi utile, dans la dmarche du preneur de son, de prendre en
compte lorientation des microphones par rapport aux sources pour obtenir le meilleur
rendu.
Le systme MMAD peut tre utilis avec nimporte quelle directivit, et cette souplesse
convient parfaitement lapproche du preneur de son qui consiste faire le choix de la
directivit en fonction des sources et de lacoustique du lieu.
Pour la captation en salle, si limpression de salle semble insuffisante, un systme
dambiances arrire peut tre combin au systme MMAD.
5.3 Les
191
Complment
Web 5.1
our aller plus loin: reprsentation des systmes par le logiciel CAMAD,
P
configurations usuelles.
192
Chapitre 5 La
et
prise de son
4.0
Omnidirectionnels
- 5.0 distance d capsules =63cm; angle PdS =72; rayon r =53,6cm.
- 4.0 d capsules =52c; mangle PdS =90; rayon r =36,8cm.
Hypocardiodes
- 5.0 d capsules =46,8cm; angle PdS =72 ; rayon r =39,9cm.
- 4.0 d capsules =31,7cm; angle PdS =90 ; rayon r =22,5cm.
Cardiodes
- 5.0 d capsules =39cm; angle PdS =72; rayon r =33,2cm.
- 4.0 d capsules =23,8cm; angle PdS =90 ; rayon r =16,9cm.
Supercardiodes
- 5.0 d capsules =32,5cm; angle PdS =72; rayon r =27,7cm.
- 4.0 d capsules =16cm; angle PdS =90; rayon r =11,4cm.
Hypercardiodes
- 5.0 d capsules =32,5cm; angle PdS =72 ; rayon r =27,7cm.
- 4.0 d capsules =16cm; angle PdS =90; rayon r =11,4cm.
5.3 Les
193
micro central est de 1,74m, avec un dlai de 4,2ms et complt par une croix
larrire (24,5cm entre les microphones, angle droit).
Est prsent en figure 5.32 lexemple dun MMAD 8.0 magic array utilisant
8 microphones cardiodes, dont les quatre centraux sont disposs en croix.
194
Chapitre 5 La
prise de son
MMAD en 3D
Dans le contexte actuel des recherches sur la prise de son multicanal avec restitution
de la hauteur (son 3D), il est possible de configurer un MMAD 3D. Le parti pris est de
minimiser linteraction entre le plan microphonique horizontal et celui de hauteur. Lautre
possibilit serait de considrer linteraction entre les deux plans, mais, comme abord
au chapitre3, la perception de hauteur semble reposer plutt sur les indices spectraux
que sur des diffrences dintensit et de temps. Cest pourquoi, il semble difficile de
restituer des sources virtuelles avec hauteur, entre le plan horizontal et le plan dlvation.
Gnralement, les microphones dlvation apportent un intrt pour la restitution de
lacoustique, sans prsenter dinteraction avec les microphones horizontaux.
Le MMAD 3D dispose un systme4.0 additionnel plac 1m de hauteur par rapport
au systme horizontal, quip de microphones supercardiodes ou bidirectionnels,
placs en croix, distants entre eux de 52cm, orients vers le haut, de telle sorte que la
directivit annule la captation du son direct. Les capsules sont places suivant les angles
0, 90, 180, -90. Le dispositif microphonique 4.0 de hauteur travaille en diffrence de
temps simplement, les directivits tant orientes vers le haut. Cette configuration permet
une restitution de lacoustique sur les quatre canaux de hauteur LH, RH, RLH, RRH. Le
dispositif de restitution peut tre alors un format 11.1 compos dun 7.0 pour lhorizontal
(0, 30, 75, 120) et dun 4.0 (0, 90, 180, -90) pour la hauteur. Pour une restitution
Auro-3D 9.1, les capsules du systme de hauteur sont places aux angles - 45, -135, 45,
145. Le systme est encore en cours dexprimentation et la question du dispositif de
restitution reste pose car aucune norme pour la diffusion son 3D na vraiment t valide.
Figure5.33Exemple dune
configuration MMAD 3D 9.0
cardiodes pour la couche horizontale,
bidirectionnels pour la couche
lvation, le march B.Priaux.
5.3 Les
195
MMAD
- Choix de la directivit.
- Choix des angles de prise de son.
- Configurations usuelles 5.0 avec des angles physiques et de prise de son
superposs de 72.
- Compatible 4.0, 5.0, 6.0, 7.0, 8.0.
- Compatible stro avec la configuration Magic Array pour une distance de
captation assez importante.
ANALYSE
- Systme trs homogne.
- Trs bonne impression spatiale.
- Pas de contrainte sur lquilibre spectral.
- Systme modulable.
- Utilisation en salle de concert avec ltoile, et en reportage avec le parapluie
(voir ci-dessous).
Supports MMAD
Le systme MMAD a lavantage de donner un excellent rendu spatial et une image trs
bien localise, cest en revanche un systme complexe mettre en place, car lutilisateur
doit respecter les angles et les distances entre les microphones suivant labaque quil
choisit. Cest pourquoi, il est prfrable dopter pour des supports dj configurs,
utilisant les dispositions usuelles 72 dangle physique et de prise de son. Ltoile
de Williams et le parapluie sont les supports commercialiss en France par la socit
Areitec. Le parapluie est prvu pour le tournage et le reportage, ltoile est utilise pour
la captation en salle.
Le systme de reportage, le parapluie, utilise une configuration de cinq microphones
72, compatible avec les microphones miniatures de type Schoeps CCM, en cardiodes,
hypocardiodes et supercardiodes. Le systme se monte trs rapidement comme il peut
se replier trs facilement avec les bonnettes pour le transport.
Ltoile peut tre quipe de CCM Schoeps ou de microphones traditionnels, elle
comporte une suspension anti-vibrations dveloppe en collaboration avec la socit
RYCOTE partir du modle Lyre de la srie InVision Broadcast. Elle peut tre
suspendue ou fix sur pied, avec diffrentes configurations:
4.0 cardiodes ou hypocardiodes;
5.0 cardiodes, hypocardiodes ou omnidirectionnels;
7.0 cardiodes ou hypocardiodes.
196
Chapitre 5 La
prise de son
5.3 Les
197
Lobjectif est donc de limiter la diaphonie acoustique entre les microphones pour viter
lapparition dimages fantmes multiples (pertes sur la prcision en localisation, le
timbre et la stabilit des sources avec un dplacement latral de lauditeur). Pour cela,
on a recours lutilisation de microphones plus directifs (supercardiodes) orients
de manire rendre quasi nulle linfluence dun micro sur le couple oppos (micro
L sur le couple C-R par exemple). La disposition des microphones est celle de la
figure5.39.
198
Chapitre 5 La
prise de son
Les microphones gauche et droite sont des supercardiodes Schoeps CCM41, placs
90, et le microphone central est un cardiode CCM4, avec un avancement constant
de 8cm.
LIRT a dvelopp un logiciel Image Assistant qui permet danalyser la
localisation des systmes de prise de son. Le schma ci-dessous reprsente la courbe
de localisation pour une paire de microphones stro, dont langle de prise de son
est de 100.
5.3 Les
199
OCT Surround
LOCT Surround complte lOCT par deux microphones cardiodes arrire, orients
180 et distants du triplet avant de 40cm. La distance entre ces deux capteurs est gale
celle de la base, plus 10cm de chaque ct.
LOCT est accompagn souvent dun systme dambiance en fond de salle qui remplace
les deux microphones arrire, on utilise pour cela couramment une croix IRT ou un
carr Hamasaki, pour renforcer limpression de salle.
200
Chapitre 5 La
prise de son
OCT Surround
- Micro central cardiode avanc de 8cm.
- Micros L et R supercardiodes 90, distance b variable en fonction de
langle de prise de son frontal souhait.
- Micros arrire cardiodes orients 180, 40cm du triplet avant, distance
entre eux =base b +10cm de chaque ct.
- Utilisation de deux omni pour le renfort des graves des canaux L et R.
- Utilisation frquente de lOCT avec un systme dambiance Croix IRT ou
Carr Hamasaki.
ANALYSE
- Trs bonne localisation frontale, plans sonores bien restitus.
- Bonne impression spatiale.
- Manque de basses frquences.
-
Systme peu modulable: orientations des micros fixes, directivits
imposes.
- Utilisation pour la salle de concert.
- LOCTS est plutt utilis pour des esthtiques frontales.
OCT2
LOCT2 est une variante de lOCT pour laquelle le microphone central est avanc de
40cm au lieu de 8cm. Pour respecter rigoureusement les proprits de localisation de
lOCT, le microphone central doit tre retard de 1ms. Cette configuration se rapproche
de larbre Decca (voir paragraphe suivant), la dcorrlation entre les microphones est
plus importante que pour lOCT. Du fait de labsence de diaphonie acoustique entre
les microphones, lOCT donne de bons rsultats de downmix stro, ces proprits de
downmix sont encore amliores par lOCT2.
OCT9 (3D)
LOCT9 est le systme propos par Gnther Theile pour la captation du son avec
lvation. Le dispositif de restitution utilis est lAuro-3D 9.1. La base du systme
microphonique est constitue dun OCT classique, elle est complte par quatre
microphones supercardiodes placs environ 1m ou plus en hauteur, par rapport la
base horizontale. Ces quatre microphones Lh, Rh, Lsh et Rsh sont orients vers le haut,
et placs au-dessus des microphones L, R, Ls et Rs.
5.3 Les
201
Triangle Decca
Le triangle Decca est le systme utilis pour les enregistrements dorchestre par les
preneurs de son du label Decca dans les annes 1950. Le systme tait compos de trois
microphones omnidirectionnels Neumann M50 largement espacs en triangle, le micro
central tant replac au centre de la stro. Ce systme a par la suite t exploit lors
des enregistrements dorchestre pour le film, utilisant le micro central pour la cration
dun centre physique, ds lapparition du format Dolby Stereo. Il ne repose sur aucune
thorie, il est constitu de trois microphones omnidirectionnels et sa configuration de
base est celle de la figure5.46.
202
Chapitre 5 La
prise de son
Lapproche du triangle Decca est de tirer parti de lespace et du timbre reproduits par
les systmes AB omnidirectionnels et remplir le trou au centre, cr par le grand AB
omni, grce au micro central. Les grandes distances entre les microphones limitent les
effets de diaphonie acoustique grce leffet Haas.
Lanalyse de la courbe de localisation du triangle Decca rvle la prsence de limage L-R
gnrant une diaphonie acoustique. Cette image fantme est dun niveau comparable
celui des images L-C et C-R, mais elle est retarde denviron 5ms, ce qui amliore
le rendu en localisation du systme par leffet de prcdence. La diaphonie acoustique
naffecte donc pas la localisation des images fantmes. En revanche, le schma traduit
une non linarit de localisation, laquelle repose alors sur les courbes L-C et C-R. Ces
deux courbes montrent que toutes les sources situes dans un angle de provenance
de 45 sont reproduites au centre de limage frontale ou proximit, et celles qui
sont en dehors du secteur 60, sont reproduites sur les enceintes gauche et droite. La
thorie prvoit donc une focalisation des sources sur le canal central, do la ncessit
de baisser souvent le niveau du microphone central lcoute.
5.3 Les
203
AB large (3D)
La configuration AB large en 3D a t exprimente lors des tests la confrence de
Detmold ICSA 2011. Elle repose sur une configuration arbre Decca, avec une distance
de 0,5 2m entre les microphones omnidirectionnels sur le plan horizontal. Les
microphones de hauteur sont aussi omnidirectionnels, distants de plus d1m et orients
vers le haut. En fonction de la distance des microphones de hauteur, le dispositif est
susceptible de modifier la localisation horizontale des sources et dtendre ces dernires
vers le haut.
Arbre Decca
Dunod Toute reproduction non autorise est un dlit.
204
Chapitre 5 La
prise de son
Arbre Fukada
- Arbre Decca avec des directivits cardiodes qui permettent dadapter le
rapport CD/CR capt.
- Utilisation pour la captation en salle.
5.3.5 INA5
Le systme INA5 (Ideale Nieren Anordnung : arrangement idal de cardiodes) a t
conu par U. Herrmann et V. Henkels. Cest une disposition de cinq microphones
cardiodes donnant un angle de prise de son frontal de 180. Le triplet avant (INA3)
dispose les microphones 25cm de distance et angle droit, ce qui met en vidence
deux angles de prise de son de 90. Les microphones arrire, distants de 53cm par
rapport aux microphones gauche et droite et placs 150, donnent des angles de
captation de 60. Nous obtenons ainsi trois angles de captation de 60 sur les cts et
larrire.
5.3 Les
205
Figure5.50Configuration du systme
INA5, G.Theile.
Lanalyse de courbe de localisation dans lespace frontal ci-dessus rvle leffet non
ngligeable de la diaphonie acoustique, le niveau de limage fantme L-R est denviron
3dB infrieur celui des images L-C et C-R. Dautre part, le retard de limage L-R est
de 1ms, ce qui nvite pas la combinaison des trois images fantme pour la localisation
des sources. Langle denregistrement est de 100, si lon augmente ce dernier, le dlai de
limage fantme L-R diminue.
206
Chapitre 5 La
prise de son
Figure5.53Systme Brauner
ASM, B.Priaux.
5.4 Les
5.4
207
5.4.1 Double MS
Principe gnral
Le Double MS est un systme trois microphones, driv du MS auquel on a rajout
un microphone cardiode orient vers larrire. Le systme dispose deux couples
MS en frontal et larrire, tte-bche, avec partage du microphone bidirectionnel
orient vers le ct. Les microphones M.(avant et arrire) peuvent tre cardiodes ou
hypercardiodes, on trouve aussi des configurations avec un microphone canon pour
lavant. Lenregistrement se fait donc sur trois pistes que lon dmatrice avec le plug-in
Double MS Tool dvelopp par Schoeps.
Dmatriage
Le plug-in Double MS Tool a lavantage de pouvoir dmatricer le signal en faisant le
choix des directivits avant et arrire de faon indpendante, et en rglant langle
entre les microphones virtuels ainsi obtenus. Le canal central est principalement
aliment par le microphone M.avant et sa directivit est variable selon le dosage
du bidirectionnel. Il existe un botier de dcodage pour le monitoring direct la
prise mais les enregistreurs permettent trs facilement de dcoder le signal dans les
modes de monitoring. Il existe dautres dmatriceurs comme le Double MS Tool BF,
codvelopp par Schoeps et Illusonic, ainsi que le DMS2Five, dvelopp par Daniel
Courville.
208
Chapitre 5 La
prise de son
Figure5.56Dmatriage du Double MS en 4
canaux, Schoeps.
Figure5.57Dmatriage du Double MS en 5
canaux, Schoeps.
Configurer
le
DMS Tool
dans
Pro Tools
Le plug-in DMS Tool se configuredans Pro Tools en insert sur une piste
auxiliaire de format5.1, dont lentre est un bus5.1 cr dans le IO setup.
Ce bus5.1, que lon peut nommer DMS, permet alors de router les trois
pistes mono, sur lesquelles on place les prises cardio avant, bidirectionnel
et cardio arrire. La piste cardio avant est envoye lavant gauche, vers
le bus DMS, en utilisant le pan-pot multicanal (ou directement vers le canal
1 du bus DMS), la piste bidirectionnelle est envoye lavant-droite (canal
3), et la piste bidirectionnelle au centre (canal 2). Lutilisation des modes
solo sur les pistes permet de vrifier que la configuration est bien faite, en
identifiant le signal sur les entres meter du plug-in.
5.4 Les
209
La version DMS Tool BF intgre un algorithme qui permet damliorer la slectivit des
directivits, avec une meilleure sparation des canaux, ainsi quelle permet de grer le
champ diffus de faon indpendante du son direct avec des possibilits de dcorrlation.
En pratique
Le systme est lger, il peut tre facilement perch. Il est quip de capsules Schoeps
CCM4V et CCM8 et dune suspension avec bonnette anti-vent. Cest donc un systme
adapt pour le reportage, le documentaire ou le cinma pour sa compacit, et aussi
pour sa souplesse dutilisation, car il laisse le choix au mixeur de nutiliser que le MS
stro avant voire que le M.sans compromis.
210
Chapitre 5 La
prise de son
Diaphonie acoustique
Ltude de la diaphonie acoustique du systme met en vidence le phnomne
dinternalisation, variable en fonction des rglages. La perception est interne, proche
de la tte, mais le rendu sonore est ajustable dans certains cas grce lutilisation du
dlai et du filtrage des canaux arrire. Dautre part, la version DMS Tool BF intgre un
algorithme qui permet damliorer la slectivit des directivits et la dcorrlation du
champ diffus. Le systme ne donne pas une impression despace trs importante du fait
de la technologie concidente mais il reste trs intressant pour des applications dans
des lieux de petite taille (intrieure voiture, monte-charge, intrieurs dappartement)
ou bien pour donner des effets dinternalisation. Cest dautre part un des systmes les
plus pratiques pour lenregistrement dITV en multicanal, parfaitement compatible
mono.
Double MS et Format B
En principe, les signaux dun double MS peuvent tre convertis en format B horizontal
(voir paragraphe sur le Soundfield) par addition et soustraction. Les signaux W, X et Y
du format B sobtiennent par les oprations suivantes:
W =M.avant +M.arrire
X =M.avant M.arrire
Y =S
5.4 Les
211
212
Chapitre 5 La
prise de son
Figure5.64Chane de captation
Soundfield avec utilisation du MarkV,
Soundfield.
Format A et B
Format A: signaux Lb, Lf, Rf, Rb issus du microphone, transmis au processeur dentre
Lb -: left back down (arrire gauche bas)
Lf +: left front up (avant gauche haut)
Rf -: right front down (avant droite bas)
Figure5.65Format A, Soundfield.
5.4 Les
213
Y = Lf-Rb-Rf +Lb
Z =Lf-Lb +Rb-Rf
En pratique
Le microphone Soundfield peut tre
utilis dans diffrentes configurations,
sur pied, sur perche, ou suspendu.
Il existe des paramtres de contrle
pour la disposition du microphone,
ce sont les fonctions END et INV
prsentes sur le pramplificateur
(le module dentre du MarkV ou
le botier du ST450) et que lon
retrouve sur le dcodeur (SP451
ou Surroundzone). Le paramtre
END doit tre actif si le microphone
est dispos de faon axiale, et le
paramtre INV gre lorientation
verticale (voir figure 5.68). Les
fonctions azimuth et elevation
contrlent la rotation virtuelle du
microphone, il est aussi possible
de focaliser plus ou moins vers le
champ direct grce au paramtre
dominance ou zoom (Back/
214
Chapitre 5 La
prise de son
5.4 Les
215
Figure5.70Soundfield
ST450 et son botier,
Soundfield.
LHarpex constitue une autre solution de dcodage format B, avec des possibilits de
dcorrlation complmentaires.
216
Chapitre 5 La
Configurer
le
Surroundzone
en5.1 dans
prise de son
Pro Tools
Le SPS 200
Le SPS200 dvelopp rcemment est quip de petites capsules, il permet denregistrer
directement le format A avec le pramplificateur de son choix. DCAudiovisuel a
rduit la taille du microphone pour quil puisse tenir dans une bonnette Zephyx.
Son dcodage est ralis par le Surroundzone SPS200 qui encode en Format B puis
dcode en5.1.
5.4 Les
217
Le DPA-4
La socit DPA a dvelopp au dbut des annes 1990 son propre systme ambisonique
dordre 1, le DPA-4, partir de leurs capsules.
Le Core Sound TetraMic
Le TetraMic est un microphone ambisonique dordre 1 petites capsules, dvelopp
par la socit amricaine Core Sound.
Soundfield
- Systme quasi concident, 4 capsules hypocardiodes.
- Enregistrement directement au format B ou au format A (SPS200) suivi de
lencodage format B.
- Dcodage du format B en5.1, 6.1,7.1, 8.0.
ANALYSE
- Trs bonne localisation circulaire.
- Impression despace et profondeur trs limites, forte corrlation des
5 canaux.
- Indpendant du dispositif dcoute multicanal.
Principe gnral
La sphre KFM360 est un autre systme matric, constitu dune sphre stro de
18cm de diamtre avec deux capteurs de pression et deux microphones bidirectionnels
(CCM8) placs de chaque ct de la sphre et dirigs vers lavant. Langle de prise de son
strophonique des deux microphones omnidirectionnels est de 120 tandis quil est
de 90 pour la sphre Schoeps KFM6 (20cm de diamtre).
La localisation latrale repose sur la diffrence dintensit grce au codage MS tandis
que les localisations avant et arrire reposent sur de la diffrence de temps combine
de la diffrence dintensit, gnre par la diffraction de la sphre (proche du principe
de localisation binaurale naturelle).
Le processeur effectue une praccentuation des aigus sur les signaux provenant des
microphones omnidirectionnels et une praccentuation des graves sur les signaux
provenant des microphones bidirectionnels.
218
Chapitre 5 La
prise de son
Dmatriage
Canaux avant gauche/droite
Les canaux avant gauche et droite sont obtenus par sommation des signaux issus des
capteurs de pression et des bidirectionnels. Le dosage omnidirectionnels/bidirectionnels
dtermine la directivit des microphones virtuels ainsi crs (FRONT). La balance
gauche/droite peut tre modifie.
Canaux arrire gauche/droite
Les canaux arrire gauche et droite sont obtenus par soustraction des signaux issus
des capteurs de pression et des bidirectionnels. Le dosage dtermine la directivit des
microphones virtuels ainsi crs (REAR). Cette directivit arrire est indpendante
de celle de lavant.
Il est possible dajuster:
Le niveau des canaux arrire par rapport ceux de lavant (F/REAR BALANCE);
Le dlai des canaux arrire par rapport ceux de lavant (REAR DELAY/ms);
Le filtrage passe-bas des canaux arrire (REAR SLOPE/Hz) 12dB/octave.
Canal central
Le canal central est cr par matriage des canaux avant gauche et droite. Les signaux
corrls de ces canaux sont dirigs vers le canal central et soustraits des canaux gauche et
droite. Le dosage du canal central est dtermin par le paramtre FRONT PANORAMA.
Canal Lfe
Le canal Lfe est cr partir des signaux issus des capteurs de pression non galiss
par sommation et attnuation de 6dB puis filtrage passe-bas 80Hz, avec une pente
de 24dB/octave.
219
5.5
Systmes dambiance
Les ambiances sont trs couramment captes sur quatre canaux, restitues vers les
enceintes L, R, Ls et Rs, laissant ainsi le centre disponible pour les dialogues par
exemple. On trouve cependant des systmes constitus de cinq microphones, avec aussi
parfois une capsule pour la cration dun Lfe.
Figure5.75Double ORTF,
B.Priaux.
220
Chapitre 5 La
prise de son
Double ORTF
- 2 couples ORTF dos dos, distants de 30cm.
- Angles de PdS 90 sur chaque secteur.
ANALYSE
- Bonne localisation.
- Trs bonne impression spatiale.
- Adapt pour les espaces extrieurs avec profondeur.
- Utilisation pour la captation dambiances en reportage, documentaire, et
fiction radio.
221
physique de 80. Les angles de captation sont de 90. La localisation de limage sonore
restitue est cohrente. Le systme a sa propre cage anti-vent et son systme de poils,
on peut aussi lquiper dune bonnette Zephyx. Il est possible dutiliser un systme de
chauffage des capsules pour les tournages en milieux humides.
222
Chapitre 5 La
prise de son
Il est possible de percher avec une croix si lon ajoute un systme de suspension.
Autrement, la croix est souvent utilise en complment dun triplet avant.
Il existe deux autres versions de la croix IRT, lune quipe de quatre microphones
cardiodes distants de 20 cm et lautre quipe de microphones supercardiodes,
distants de 14cm.
223
224
Chapitre 5 La
prise de son
Croix IRT
- 4 cardiodes disposs en croix, espacs de 25cm, avec un angle droit.
- 4 angles de prise de son de 90.
ANALYSE
- Bonne localisation.
- Trs bonne impression spatiale.
- Bonne restitution des timbres.
- Utilisation pour la captation dambiances en salle de concert ainsi que pour
les ambiances en reportage, documentaire, et fiction.
Remise
225
226
Chapitre 5 La
prise de son
227
Voici lordre de branchement du H2 Pro: L, R, C, Lfe, Ls, Rs, Top, Center Rear.
Rising Sun Production a dvelopp une gamme de systmes plus petits, nomms H3
D et H4 super mini, ce dernier se fixe sur des camras. Dautres modles comme le
PortaMic Pro et PortaMic5.1, plus compacts, intgrent un encodeur Dolby Surround
et vhiculent en sortie un signal stro LtRt.
Holophone H2 Pro
-
8 microphones omnidirectionnels DPA 4060 placs sur une tte
hmisphrique.
ANALYSE
- Localisation plutt imprcise.
- Impression spatiale peu favorable, image sonore avec internalisation.
- quilibre spectral favorable aux basses frquences.
- Peu sensible aux dplacements et au vent.
- Trs rapidement oprationnel.
228
Chapitre 5 La
prise de son
DPA 5100
- 5 microphones omnidirectionnels DPA, concidents devant avec procd
DipMic et distants larrire, disposs dans une forme revtue de tissu.
ANALYSE
- Bonne localisation.
- Impression spatiale bonne, image sonore avec internalisation.
- Manque de transparence.
- quilibre spectral favorable aux basses frquences.
- Peu sensible aux dplacements et au vent.
- Trs rapidement oprationnel.
- Utilisation pour la TVHD, pour les programmes de sport et le reportage
radio.
5.6
5.6 La
229
diffus par tous les canaux, par consquent limage fantme correspondante est
reproduite par un nombre lev de haut-parleurs. La thorie OCT Surround de
Gnther Theile met justement en vidence la combinaison de ces images fantme
et le recours loptimisation de la diaphonie acoustique, grce lutilisation de
directivits supercardiodes. Lutilisation de cinq enceintes implique thoriquement
la combinaison de dix images fantme. La superposition de ces images fantme
a pour consquence un talement spatial des sources apportant une certaine
corrlation des canaux.
230
Chapitre 5 La
prise de son
Aujourdhui, nous ne disposons pas de microphone dune directivit aussi slective que
la prcision obtenue lordre 5. Si nous disposions de tels microphones, il serait alors
simple de positionner nos microphones pour obtenir les directivits idales adaptes
au format5.1. La loi panoramique idale 5.0 est dfinie par cinq figures de directivits
qui expriment lintensit des canaux pour former une image fantme optimale dans
chacune des directions des enceintes.
Voici un comparatif donn par Trinnov entre les deux types de rendus de spatialisation
multicanal obtenus avec un systme concident rsolution standard, en diffrence
dintensit uniquement (la diffrence de temps nest pas prise en compte), et avec un
systme haute rsolution type SRP (Surround Recording Plateform) Trinnov Audio.
Ce schma illustre la diaphonie acoustique existante dans un systme5.1 ITU concident
rsolution standard.
Sont reprsentes sur la figure5.92 les lois de panoramique dintensit utilises pour le
mixage mono dirig, le panoramique dintensit dordre 5, et la loi continuous surround
panning dordre 4 (P. Craven, 2003). Ces lois ont sensiblement la mme forme gnrale.
5.6 La
231
Figure5.91Comparaison
des prises de son 5.0
haute rsolution spatiale
et rsolution spatiale
standard, Trinnov Audio.
Encouleursurdunod.com
232
Chapitre 5 La
prise de son
La figure5.93 compare diffrentes lois de panoramique pour une restitution en5.1 ITU,
ordre 1 standard en cardiodes concidents, ordre 5, et ordre suprieur 5, avec leurs
rendus sonores, insuffisant pour lordre 1, optimal pour lordre 5, trop slectif pour
les ordres suprieurs. La haute rsolution spatiale repose sur la sparation optimale
et non maximale des canaux. Une trop forte sparation des canaux ne permet plus le
fonctionnement de limage fantme.
On constate cependant que les lois panoramiques utilises par les systmes de prise de
son multicanal dordre 1, abords en dbut de chapitre (OCTS, MMAD, DMS, DORTF,
Soundfield) sont en gnral mixs des microphones dappoint qui travaillent avec
des lois panoramiques dintensit comparables lordre 5 dfini par le SRP. La rsolution
spatiale des images sonores ainsi combines nest en effet pas la mme que celle obtenue
pour un systme principal unique travaillant diffrence d'intensit seulement.
Ceci dfinit donc un systme de prise de son 5.0 idal qui reproduirait la meilleure
image fantme possible dans la mme direction. Pour obtenir ce type de directivit 5.0
idale, il est ncessaire de renoncer lapproche traditionnelle qui consiste utiliser un
microphone pour un haut-parleur. Il faut sorienter vers un procd de matriage sur
un rseau de microphones. Afin datteindre une qualit spatiale maximale, le SRP effectue un filtrage matriciel total. Chaque canal est obtenu en tirant profit de lensemble des
microphones. Le signal de chaque microphone est filtr de manire spcifique, puis lensemble des signaux ainsi forms est combin de manire produire un canal optimal.
Les avantages dun tel systme denregistrement haute rsolution spatiale permettent
une sparation optimale des canaux tout en gardant une certaine corrlation
indispensable au fonctionnement de limage fantme. Le systme augmente la
5.6 La
233
ponctualit des sources, car limage fantme sollicite par la reproduction dune
source est fabrique par la contribution de seulement deux canaux (voir figure5.94 la
reprsentation des deux types de rsolutions spatiales).
Figure5.94Comparaison
de la ponctualit des
sources entre systme
rsolution spatiale
standard et systme
haute rsolution spatiale,
Trinnov Audio.
234
Chapitre 5 La
prise de son
La perception dlvation nest pas envisage par la prise de son avec le SRP, car les
directivits virtuelles obtenues sont tablies sur un plan horizontal, compatible avec
le dispositif5.1.
Principe dchantillonnage spatial, recomposition des directivits slectives
Comme les microphones usuels ne permettent pas dobtenir des directivits
trs slectives comme celles obtenues au degr 5, il convient de recomposer ces
directivits grce un filtrage matriciel. Le SRP fonctionne donc en deux tapes,
une tape dacquisition dinformations sur le champ acoustique laide dun rseau
de microphones standards et une tape de traitement permettant de synthtiser les
directivits souhaites. Ltape dacquisition est un chantillonnage spatial du champ
acoustique, ce procd est illustr par la figure5.96.
5.6 La
235
Figure5.98Trinnov Audio
SRP, B.Priaux.
236
Chapitre 5 La
prise de son
5.7 Prise
237
de son binaurale
5.7
La tte artificielle KU 100, reprsente ci-dessous, est la rplique dune tte humaine,
avec un microphone omnidirectionnel plac dans chaque oreille.
Figure5.103Tte artificielle
Neumann KU80, B.Priaux.
238
Chapitre 5 La
prise de son
Il existe dautres systmes tels que la tte artificielle Head Acoustics HMS3 ou HMS4
(celles-ci ne comportent pas de pavillons), le rcent et original systme sans tte Free
Space Pro 3DIO Sound, le mannequin Kemar bien plus ancien constitu de fibre de
verre ou le mannequin B & K 4100.
Figure5.105Mannequin Kemar,
GRAS, Sound and Vibration.
Voici un historique de la prise de son binaurale donn par Bernard Lagnel (preneur de
son Radio France):
Petite
1930: Creation du mannequin OSCAR par Barlett Jones de la Bell Systems Laboratory a
Chicago, les capteurs sont placs en avant des oreilles.
1969: OSKAR Dummy Head Stereo de Sennheiser.
1974: Dummy Head stro 2 de Sennheiser, MZK2002 et version microphones miniatures
MKE2002.
1972: Kemar, Gras.
1973: Nuemann KU80, quipe de microphones KM83, tte galise pour une rponse linaire
en champ direct, les pavillons ne comportent pas de tragus.
1982: Neumann KU81i, microphones KM83, tte galise pour une rponse linaire en champ
diffus, compatible avec hauts-parleurs, prsence du tragus sur les pavillons.
1992: Neumann KU100, tte galise pour une rponse linaire en champ diffus, compatible
avec hauts-parleurs, prsence du tragus sur les pavillons.
2011: Samrec type 2500s Southern Acoustics Co. Ltd Japon, sorte de clne de la tte
MZK2002?
2013: Free space pro 3DIO Sound.
Ces systmes de prise de son ncessitent une galisation, laquelle est souvent contenue
dans la tte, cest le cas de la Neumann KU100. Cette galisation dgrade quelque peu
les indices spectraux mais minimise les artefacts de dtimbrage, elle peut se faire pour
5.7 Prise
de son binaurale
239
une rponse linaire en champ direct (la mthode gnralement utilise en chambre
anchoque) ou en champ diffus.
Voici le systme exprimental de Bernard Lagnel qui utilise un couple AB avec des
oreilles artificielles:
La prise de son binaurale native donne de bons rsultats, cest une forme de captation
naturelle comparable au systme principal dfini en dbut de chapitre, impliquant
donc une certaine distance avec la source et restituant une image gnrale. Elle contient
les fonctions HRTF du systme utilis (tte artificielle ou tte du preneur de son) et
donne une image spatialise fige. Seule linversion gauche droite de la scne sonore est
possible par inversion des canaux gauche et droite de la piste stro en postproduction,
mais la rotation de la scne sonore nest malheureusement pas possible. Elle peut tre
complte par des microphones dappoint traits alors par synthse mais se pose alors
la question des HRTF utilises pour obtenir la meilleure compatibilit.
240
Chapitre 5 La
prise de son
Une autre approche consiste alors encoder un flux binaural par synthse:
soit partir dune prise de son ou dun mixage multicanal finaliss, on obtient alors
un format binaural dont les directions restent quantifies par le format multicanal;
soit par le mixage utilisant un logiciel ou un plug-in de synthse, on obtient alors
une image binaurale dont les directions sont quantifies selon la finesse de la base
HRTF ou du systme dcoute mesur. Dans ce dernier cas, la spatialisation comporte gnralement davantage de directions et de ce fait est plus naturelle.
5.8
Complment
Web 5.3
Liste denregistreurs utiliss pour la prise de son multicanal.
5.9 Applications
5.9
241
Applications
5.9.1 Film
Gal Nicolas: le point de vue dun monteur son, utilisateur du format B
Gal Nicolas est monteur son pour le film, il pratique lenregistrement ambisonique,
en format B, depuis 2005, date laquelle il achte son premier microphone Soundfield.
Les possibilits de dcodage du format B, mont tout de suite amen dcouvrir toute
une perspective de recherche en matire sonore. Avec un son enregistr au Soundfield,
je pouvais en crer 20 30 autres, selon le paramtrage du dcodage, suivant la gestion
de lespace, des canaux avant et des canaux arrire.
Complment
Web 5.5
Gal Nicolas ITV.
242
Chapitre 5 La
prise de son
Complment
Web 5.6
Thierry Lebon ITV.
5.9 Applications
243
simultanment au lieu de passer dun couple stro lautre, ceci, afin de ne pas rater
un dplacement danimal. Nous nous sommes rendu compte quil y avait mieux faire:
capter, non pas plusieurs points diffrents, mais un ensemble cohrent avant-arrire.
Figure5.111Philippe Barbeau,
P.Barbeau.
Complment
Web 5.7
Philippe Barbeau, Martine Todisco ITV.
Figure5.113Premier jour de
tournage, Les Bonobo, Crespin,
Christine Simone, Boukavou, Guy
Senaux, On Voice.
Guy Senaux ingnieur du son Radio France nous raconte ici les premiers documentaires,
reportages et fictions radiophoniques produits en5.1 Radio France, de 1995 2002.
244
Chapitre 5 La
prise de son
Complment
Web 5.8
5.9 Applications
245
En son multicanal, vous ncoutez plus les chos dun reportage, mais vous faites
rellement partie de lexpdition. Au milieu de ce dcor sonore, lauditeur devient acteur.
Choix du matriel
Pour des raisons de fret et de portage pendant nos diffrentes marches en fort trs
humide, le poids a t un des lments capitaux de notre slection. Comme ctait en
priode de trs grande humidit (prs de 90% et 30 de temprature au mois doctobre),
nous navons pas choisi le Nagra numrique quatre pistes car il navait pas t utilis
dans de telles conditions et vu le cot de la mission, on ne pouvait pas prendre de risques.
Nous nous sommes dirigs vers le choix de:
2 couples ORTF Schoeps capsules MK5;
2 HHB Portadat 1000 TC, enregistreurs DAT stro, synchroniss par un gnrateur
de time code (voir photo ci-dessous).
Prise de son des voix narratrices
Prise de son
246
Chapitre 5 La
prise de son
Lcoute slective doit se faire dabord en coutant sans casque, puis au casque, car
aprs avoir dtermin le choix du positionnement des sons enregistrer, il ne sera
possible dcouter au casque, lors de lenregistrement, que le son provenant soit du
couple avant, soit du couple arrire.
Les mouvements de perches doivent tre adoucis car on dplace simultanment quatre
microphones, ce qui accentue les risques de bruits parasites et les trpidations.
La proximit du preneur de son et des quatre micros, oblige celui-ci ne faire aucun
bruit (vtements, dplacements, respirations, voix). Cette proximit est une grande
contrainte, dautant plus que les housses des PORTADAT ont des fermetures velcro qui
ne sont pas particulirement discrtes.
Dans la fort quatoriale, il ny a pas de grandes montes, mais des petites butes de 3
4 mtres de haut, trs glissantes et lair parat rare. Lors des longs travellings dans
la fort, dans certains cas, il est ncessaire dutiliser une perchette flexible de 30cm
plaant le couple arrire au-dessus de la tte du preneur de son, afin de diminuer au
maximum tous ses bruits de respirations.
Si jai choisi dutiliser le couple ORTF, cest que par ma longue pratique denregistrement
de fictions, cest le meilleur systme de prise de son qui respecte la prcision des plans
sonores et la profondeur en plans moyens et en plans lointains. De plus, ce systme 44
est trs pratique pour les reportages avec la possibilit de sparer les deux couples, comme
par exemple sur les pirogues ou pour la coupe dun arbre Okoum. Jacques Charreaux
tait 40 mtres la chute de larbre avec le couple arrire, et moi-mme, avec le couple
avant, au pied de larbre. On a synchronis les deux enregistrements au mixage.
Prcisons quentre deux
enceintes espaces de 3 mtres,
si la voix est enregistre sur
un seul microphone, elle a une
dimension de 60cm. Enregistre
en stro avec ce systme de
deux microphones, la voix a
une dimension de 1,5 mtre 2
mtres. Elle est dautre part plus
brillante, avec la rsonance du
studio qui lui rajoute une belle
sonorit dans le haut mdium.
linverse du Cataclysme
Sonore, le Singe Soleil est
une mission bio , car
Figure5.116Radeau dOkoum Jacques Charreaux.
nous navons rajout aucun
effet sonore. Seulement de
temps en temps des corrections pour couper le lger vent caressant les capsules ou les
trpidations de la perchette.
5.9 Applications
247
Robert Arnaut ma dit tu vas voir, la chute de larbre, tous les oiseaux sarrtent
de chanter, cest le grand silence Mais pas du tout! Ils sont habitus au bruit de la
trononneuse, car le forestier a une concession de 27km2 et coupe trois okoums de
40 mtres par hectare. Tout lisorel qui arrive en France vient du Gabon. Pour la prise
de son de labattage, jtais la base de larbre avec le couple ORTF avant et Jacques
Charreaux 40 mtres plus loin la chute, avec le couple ORTF arrire. Au mixage,
grande discussion, car certains voulaient garder la vraie prise de son. Celle-ci restituait
le son de la scie devant mais aussi larrire, ce qui faussait compltement la mise en
scne. Nous avons donc choisi de mettre le couple avant que sur le frontal avec une
ambiance 4.0 de fort fournie et, lors de la chute, on a bascul le couple vers larrire,
sur le couple plac la chute de larbre avec une ambiance 4.0 de fort trs calme. Pour
certains, cela sappelle tricher, pour dautre cela sappelle crer un dcor sonore.
Remarques
Comme il est impossible denregistrer une pluie en fort quatoriale car on mouille les
microphones, et si on a un parapluie, on entend les gouttes sur le parapluie, jai trouv
une solution. Jai enregistr labri dun petit toit du cabanon o nous dormions, la
pluie tombant sur des grandes feuilles, avec le couple avant de mon systme 4x4, le
couple arrire captait la rsonance de la pluie sur labri en bois.
Au mixage on a pris cet enregistrement (quatre pistes) et on a matric la pluie du couple
sur lavant et une partie entre lavant et larrire. On a pris cette mme pluie 30 secondes
plus loin et on a fait linverse. On la mise (sur 4 autres pistes) sur larrire en matriant une
partie au milieu, entre larrire et lavant. On a mix les 8 pistes et comme cela on a form
un ciel et il pleut sur lauditeur. Vous rajoutez un chasseur qui marche dans la fort en se
faisant un passage coups de machette, et lauditeur avance dans la fort, sous la pluie, en ne
se rendant pas compte que cette dernire est fixe et tombe toujours sur les mmes feuilles.
Prcisons que, dans le canal Lfe, nous navons pas mis volontairement toute lmission.
Nous avons choisi que les sons frquences basses : orage, intrieur de camion,
intrieur de 4x4, passage dun train dans un tunnel, etc.
Pour produire cette mission bio de 56 minutes, il aura fallu 10 jours de tournage,
voyage compris, 24heures denregistrements, 2 semaines de drushage et montage
248
Chapitre 5 La
prise de son
Figure5.117Enregistrement des
abeilles, J.Charreaux.
Complment
Web 5.9
Bonobo: le hippie des Grands Singes, France Inter Interception.
Complment
Web 5.10
5.9 Applications
249
Complment
Web 5.11
Herv Djardin Tournage Interception.
5.9.5 Sport
Complment
Web 5.12
Application Sport: football (VCF) et tennis (BBC, FTV).
5.9.6 Musique
Complment
Web 5.13
Chapitre 6
La postproduction
Points
essentiels
- Downmix.
- Upmix.
- Mthodes de mixage et analyses.
- Synthse binaurale.
- Exploitation des nouveaux formats, mixage objets: Auro-3D, WFS,
Dolby Atmos.
- Outils de cration sonore et spatialisation interactive.
- Applications: exemples de ralisation de mixages film, musique, habillages
de chanes HD.
- Points de vue de mixeurs film.
252
Chapitre 6 La
postproduction
6.1
Gnralits
6.1.1 Monitoring
Le point de dpart dun mixage repose toujours sur le monitoring et ce dernier, en
multicanal, nest pas simple. Le chapitre2 a introduit les diffrences fondamentales
entre lcoute cinma et lcoute ITU pour la TVHD, la radio, les supports DVD et Bluray. Rappelons que nous avons un niveau de rfrence de 85 dBC SPL en auditorium
cinma, et 79 dBC SPL pour une rgie broadcast. Il ny a pas vraiment de niveau de
rfrence pour la musique ou la radio. Lcoute cinma est sans bass management, en
revanche, lcoute broadcast ncessite un bass management, ainsi que tout produit
diffus sur une installation home-cinma (DVD, SACD, Blu-ray). Certains mixeurs
en TVHD travaillent avec une coute rgle avec bass management, mais il est
intressant davoir deux presets dcoute, un avec et un sans, afin de mieux matriser
le grave. En effet, mixer sans bass management conduirait forcment des problmes
de compatibilit dans le grave, en gnral on obtient trop de basses frquences ce qui
nuit lintelligibilit du mixage. Dautre part, avoir un preset sans bass management
permet de bien identifier le grave issu du canal Lfe seul et celui provenant de la
sommation des canaux principaux. Il est aussi vivement souhaitable davoir un
contrleur de monitoring avec la fonction Solo, Mute sur les diffrents canaux, le
calibrage dun niveau de rfrence, la possibilit de downmixer en stro et en mono
depuis le format5.1 (certains contrleurs proposent un downmix LtRt). Les autres
fonctions telles que la possibilit dactiver un bass management avec une frquence
rglable, le rglage du gain du canal Lfe (0dB ou +10dB) et le recours possible au
filtrage du canal Lfe 120Hz sont aussi trs importantes, elles sont souvent assures
6.1 Gnralits
253
254
Chapitre 6 La
postproduction
Le monteur organise sa session Pro Tools ou Pyramix avec des stems de monitoring de
diffrents formats quil utilise pour son propre travail et livre ensuite sa ou ses sessions
Pro Tools au mixeur avec des stems dj regroups, ces derniers seront rutiliss au
mixage.
Le contenu sorganise sous forme de sons directs (synchrones), gnralement les
dialogues, les post-synchro, les bruitages, les ambiances, les FX ou effets et la
musique.
Les sons directs sont composs de perches mono et HF, de sons stro synchrones
parfois (couple MS, couple AB) sous forme de plans proches ou plans lointains. Le
tout sera regroup dans un montage denviron 12 16 pistes mono et de 3 ou 4 pistes
stro. Les sons VI sont constitus denviron 4 pistes, des sons de dplacements, des
bruits de portes ou de voitures qui permettent de garder la synchro pour la version
internationale. Les directs peuvent tre travaills dans une session spare dans le
cas o il y a un monteur parole distinct et/ou un premix paroles. Ils peuvent aussi tre
intgrs la session complte selon la mthode du monteur son. Il livre alors des pistes
mono et stro spares que le mixeur positionnera dans lespace. En revanche, deux
bus de monitoring DIALOGUES et VI sont utiliss pour faciliter le monitoring durant
le montage.
La post-synchro est compose de sons mono, et livre sous formes de pistes mono
spares.
Les bruitages sont constitus de 12 16 pistes, au format mono, stro ou LCR quelques
fois. Ce sont les prsences, les pas et manipulations enregistres en auditorium.
Les ambiances et FX sont organiss en stems au format 5.0 ou5.1 (pour les FX), souvent dcomposs par familles FX A, FX B, FX C, FX DCes stems sont constitus dans
6.1 Gnralits
255
lautomation, par routing, de telle sorte que le mixeur peut toujours accder aux lments spars. Les ambiances et FX sont des sons additionnels, venant de sonothques
(personnelles ou commerciales), de prises de sons du monteur, et des sons seuls enregistrs au tournage. La quantit de ces sons seuls est trs variable, allant de cinq sons
une centaine, ils sont indispensables pour la figuration, les squences de voitures et
doivent raccorder avec laction du direct. Les ambiances sont gnralement au format
stro, bien que le format multicanal intresse de plus en plus les monteurs. Quelques
squences spcifiques avec mouvements sont spatialises. Quelques squences spcifiques avec mouvements sont spatialises ds cette tape.
256
Chapitre 6 La
postproduction
6.1 Gnralits
257
6.1.4 DAW
La gestion du multicanal dans une station audionumrique est tout dabord
conditionne par la compatibilit des formats, les stations sont gnralement toutes
compatibles 5.1, certaines acceptent les formats 6.1, 7.1, ou 10.2. La compatibilit
avec les formats suprieurs est rare mais certains logiciels de cration sonore comme
Reaper les grent. Il est courant de crer des pistes en5.1, ceci facilite le montage et le
mixage. Le rglage de lordre des canaux affichs sur une piste5.1 nest pas toujours
possible, mais les chemins de sortie avec linterface audio peuvent se rgler afin
dadapter lordre aux diffrentes normes. Limport de fichiers entrelacs multicanal
est bien gr par les logiciels qui sont compatibles avec le format entrelac quelque
soit lordre dentrelacement, le logiciel reconnat les canaux du multicanal, autrement,
si ce nest pas le cas, on doit respecter pour plus de commodit lordre des canaux du
logiciel. Le logiciel doit pouvoir exporter des fichiers multicanal entrelacs, compatibles
avec la norme demande, mais dans ce cas galement, lordre des canaux nest pas
toujours paramtrable. Le pan-pot multicanal est un outil primordial, il conditionne
la spatialisation des sources, avec une palette doptions plus ou moins compltes et
abouties (voir outil pan-pot) et intervient de ce fait souvent dans le choix du logiciel.
Le monitoring multicanal intgr dans le logiciel est une option pratique et se prsente
sous forme dun menu part qui gre gnralement le niveau dcoute, les diffrentes
options de downmix et quelques fois, la structure de mixage par stems est prsente.
Complment
Web 6.1
DAW et multicanal.
6.1.5 Consoles
La plupart des consoles de mixage grent aujourdhui le multicanal, en5.1, et en7.1 pour
certaines, ce qui suppose lintgration dun pan-pot ddi permettant dacheminer le
signal vers un bus multicanal et dune section monitoring multicanal adapte, comme
vu prcdemment dans les stations audionumriques.
Un autre point important est la gestion de la stro pendant le mixage5.1: la Duality
chez SSL permet par exemple dalimenter un dpart stro issu du master bus5.1 par
downmix stro LoRo (voir dfinition section 6.9). Le mixeur peut donc mixer en5.1
et il dispose en parallle dun bus de downmix stro LoRo paramtrable.
Une autre particularit de limplmentation du multicanal dans les consoles, est la
possibilit de grer une piste au format5.1 ou7.1, contrle par un seul fader, ce qui
simplifie le mixage surtout lorsque la session comporte beaucoup de pistes audio. Il est
alors gnralement possible de dgrouper les 6 canaux LCRLsRsLfe de la piste (mode
Spill chez SSL C300, mode Reveal chez Lawo) et daccder individuellement
leurs faders. La particularit du mixage multicanal cinma tant de travailler par
258
Chapitre 6 La
postproduction
stems5.1, limplmentation de cette structure par stems dans la console simplifie alors
considrablement le travail. La console System 5 Fusion par exemple offre une grande
souplesse dans la gestion des stems, la surface de contrle Nuage via Nuendo aussi.
6.2
La mesure
Loutil de mesure est bien abouti lorsquil met en vidence une reprsentation graphique
en cohrence avec la perception de limage sonore. En stro, le niveau lectrique du
signal est analys par le crtemtre qui mesure les quasi-crtes (DIN 45406 QPPM
10ms dintgration) ou les crtes instantanes (PPM fast), ou par le vumtre, plus
en rapport avec le niveau peru par loreille (300ms dintgration). Le corrlateur de
phase donne linformation de corrlation des deux canaux. Nous dvelopperons dans
le chapitre8 la nouvelle norme de mesure du loudness.
La mesure en multicanal intgre les six canaux du bus de mixage5.1 et souvent la version
stro (LtRt ou LoRo) pour le broadcast, soit les huit canaux dun programme5.1+2,
tel quon le nomme dans le broadcast. Se pose alors la question de reprsentation
graphique du niveau des six canaux. Loutil de base comporte en gnral six indicateurs
de niveau (crtes, VU), mais une reprsentation spatiale suivant la disposition des
enceintes, avec le niveau de chaque bus est complmentaire. Gnralement, chacun
des segments des canaux principaux sont relis entre eux pour former une forme de
patatode. Cette forme donne une ide assez prcise de la rpartition nergtique des
canaux, et contient, par un code couleur, linformation de phase. Lutilisateur sait par
la lecture de la forme sil remplit les canaux de faon homogne ou non, et peut vrifier
la construction du centre de limage sonore par exemple.
6.2 La
259
mesure
La phase est reprsente en gnral par un corrlateur que lon rgle en indiquant
les deux canaux du multicanal mesurs. Cest le mode de mesure propos par
Surroundscope dans Pro Tools. Master Pinguin Surround Meter indique toutes les
informations de phase entre les canaux, elles sont au nombre de 10, tandis que Dk
audio code linformation dans la reprsentation graphique Jellyfish en rouge, pour
indiquer lopposition de phase.
260
Chapitre 6 La
postproduction
(largeur du sujet), elle est reprsente par ltendu de la base du segment. Sa couleur
associe, donne alors linformation de corrlation des canaux:
le vert indique une corrlation entre +0,25 et +1;
le jaune une corrlation entre -0,25 et +0,25;
le rouge, une valeur entre -1 et -0,25.
Le PSI se retrouve sur chacune des paires adjacentes du surround, L/Ls, Ls/Rs, R/Rs.
Lorsque nous considrons lensemble des canaux, nous retrouvons la patatode, chez
RTW plutt en forme de carr, cela sappelle le TVI (Total Volume Indicator). Il donne
ltendu spatiale des canaux L R Ls Rs et intgre le centre C part, pour une meilleure
lecture en relation avec les canaux L et R. La forme du carr varie suivant la corrlation
des canaux, les segments sont incurvs vers lintrieur si cest en opposition de phase,
droits entre -0,25 et +0,25 et orients vers lextrieur pour une corrlation entre +0,25
et +1. Il existe une information trs pertinente, le barycentre global de limage, appel
DMI, Dominance Vector, il est reprsent par la croix blanche centrale. Enfin, RTW a
gradu lchelle des 6 secteurs de la patatode, les positions rouges indiquent la valeur
du niveau dcoute de rfrence (85dBC SPL ou 79dBC SPL). Nous trouvons aussi un
corrlateur de phase pour les canaux arrire Ls/Rs.
Dautres outils, notamment Nebula Surround Scope (Pure Analyzer) dvelopp par
Flux, reprsente la corrlation des canaux adjacents, il traduit par les petites valeurs
(petites longueurs des arcs de cercles entre canaux adjacents) la sensation despace,
lenveloppement, ou bien la fermeture despace, soit limmersion, par les grandes valeurs.
Nous verrons par la suite quun outil de mesure intgre maintenant la mesure true peak
pour les crtes mais aussi le loudness conformment la norme EBU R128.
Mesure
du signal multicanal
6.3 Manager
6.3
multicanal
261
Manager multicanal
Lutilisation de pistes au format multicanal implique des outils de gestion despace
multicanal, on peut les appeler des manager multicanal. Ils permettent de grer
lquilibre en niveau des diffrents canaux, de modifier leurs phases et dajuster les
dlais. La rotation despace peut tre utile pour modifier la polarisation de limage,
on peut alors dcaler limage sur la gauche ou vers la droite ou bien renverser
compltement limage vers larrire. Certains outils analysent la dcorrlation de
limage sonore, il peut tre intressant de recorrler limage, on utilise pour cela la
divergence ou width/depth (largeur/profondeur), ne pas confondre avec la divergence
centrale. La divergence agit sur les diffrents secteurs de limage (frontal, arrire,
latral), elle rinjecte par diffrences dintensit une partie des canaux frontaux par
exemple, vers les canaux arrire de telle sorte que lon recorrle les diffrents bus du
mixage. On pourrait imaginer devoir recorrler un espace issu dune prise de son
multicanal un peu trop large, comme un systme DORTF, ou bien vouloir rinjecter
une partie des canaux arrire vers lavant pour amliorer la compatibilit Dolby
Surround du mixage.
Le changement de routing des diffrents canaux peut tre pratique dans certains cas
o lordre des canaux dune rverbration ou dun effet nest pas conforme celui de la
session de mixage.
Le manager est aussi un outil de monitoring, comportant les fonctions solo, mute,
ce qui permet disoler dans notre session de mixage un bus issu dune piste ou dun
master 5.1. Certains outils manager sont capables de faire du bass management,
lutilisateur peut alors rgler la frquence du bass management et les pentes des filtres.
Dans ce cas, loutil permet dajuster le niveau dcoute, avec des valeurs mmorises,
et de gnrer du bruit rose afin de calibrer lcoute.
Enfin, loutil peut permettre de downmixer vers des formats infrieurs stro et
mono, avec ajustement des coefficients de downmix.
Dans Pro Tools, il nexiste pas aujourdhui de manager par dfaut, nous pouvons utiliser
le plug-in multi-mono trim pour grer les niveaux des diffrents canaux, autrement il faut
installer des plug-ins comme le manager prsent dans le bundle Waves Surround Tools. Ce
Manager M360 est compatible avec diffrentes configurations pour lcoute multicanal5.1
(possibilit dajuster les angles entre les enceintes), il offre les fonctions suivantes:
solo, mute, opposition de phase, niveaux des canaux;
bass management (send to Sub, ou get Lfe appel aussi distribute ou
extract);
ajustement rapide des niveaux du centre et des canaux arrire par pas de 3dB;
262
Chapitre 6 La
postproduction
adaptation du niveau du canal Lfe (0dB, -10dB, +10dB) suivant la norme utilise;
rotation de limage sonore, diffrents modes de calcul (pair-wise, triple-wise);
divergence vers les autres canaux (width), diffrents modes de calcul (balanced,
front-stage, F/R stage, focus, mono diverge).
Pyramix propose le global channel routing, cest une sorte de grille de routing
basique mais trs pratique. Il gre le niveau des diffrents canaux et permet aussi de
changer le routing interne des canaux de la piste de mixage multicanal.
Le Toolbox est lalgorithme de management multicanal chez TC Electronic, prsent
dans la M6000. Cet outil est un manager complet, il propose toutes les fonctions cites
auparavant. On y retrouve donc les fonctions de gestion du monitoring, avec trois
niveaux dcoute programmables, les solo, les mute, lopposition de phase, le downmix
stro avec limiteur, la calibration dcoute, et le bass management.
La console Studer Vista9 gre des pistes au format multicanal et offre les fonctions de
Manager suivantes:
6.3 Manager
263
multicanal
La possibilit de reprsenter sous forme de six faders les diffrents canaux dune piste
multicanal5.1 (mode spill chez Euphonix ou reveal chez Lawo par exemple)
facilite la gestion des niveaux.
Lhyperpan de Lawo permet de changer la rpartition des diffrents canaux de la
piste multicanal graphiquement, afin de resserrer un canal relativement aux autres,
comme reprsent sur le schma ci-dessous. On peut grer une piste multicanal
comme un objet, et dplacer lobjet vers le frontal par exemple. Nuendo6 reprend
aussi ce type de gestion objet avec le Surround Panner V5 qui fait office de manager
de piste multicanal.
264
Chapitre 6 La
postproduction
Manager Multicanal
- Gestion des niveaux des canaux, dlais, filtrage, opposition de phase,
reprsentation des canaux dune piste5.1 ou7.1 sous forme de faders.
- Monitoring: solo, mute des canaux.
- Rotation de limage sonore multicanal.
- Divergence centrale.
- Recorrlation des canaux.
- Divergence vers les autres canaux ajustement des largeurs de chacun des
secteurs (largeurs frontale et arrire, profondeur).
- Changement de routing des canaux.
- Bass management.
- Downmix avec limiteur ou non.
6.4
6.4 Gestion
265
Pour le film, le Lfe est un canal part, que lon va solliciter pour renforcer les squences
daction, la partie design sonore, les effets, il donne plus dimpact aux sons. On lutilise
pour la gestion des frquences infrabasses, mais les graves du mixage ne doivent jamais
reposer sur ce canal. Autrement dit, le mixage doit garder son spectre quilibr lorsque
le Lfe est coup. Lutilisation du canal Lfe en musique par exemple est beaucoup plus
continue que dans le film. On lassocie en gnral des instruments graves si bien qu
chaque intervention, le Lfe est sollicit.
Le bass management est le procd de redistribution du grave des canaux principaux vers le SUB, on le trouve dans la partie monitoring5.1. On parle aussi de bass
management lorsquil est question de grer le grave dun mixage5.1. On peut alors
redistribuer de la mme faon le grave des canaux principaux du mixage vers le
canal Lfe, afin de renforcer ce canal. Une application peut tre loptimisation du
mixage afin de le rendre compatible avec lcoute bass management (en dernier
recours). Ce peut tre aussi le moyen de gnrer un canal Lfe partir dun mixage
5.0. Ce mode de bass management est appel Mode Extract. Lautre mode, appel
Mode Distribute, permet de redistribuer le canal Lfe vers les canaux principaux,
on dplace en quelque sorte le grave du Lfe vers les canaux principaux. On peut ainsi
passer dun format5.1 un format 5.0. On retrouve ces deux modes dans le Toolbox
de la M6000.
Bass
management
Mode extract.
- Passage dun5.1 vers un5.1: le grave des canaux principaux est extrait
et renvoy vers le canal Lfe.
- Passage dun 5.0 vers un5.1: fabrication dun canal Lfe.
Mode distribute.
- Passage dun5.1 vers un5.1: le canal Lfe est redistribu vers les canaux
principaux du mixage.
- Passage dun5.1 vers un 5.0: le canal Lfe est supprim et redistribu vers
les canaux principaux.
Canal Lfe,
quel filtrage?
266
Chapitre 6 La
postproduction
Dolby
- Dolby Digital: 120Hz.
- Dolby Surround EX 6.1: 120Hz.
- Dolby True HD7.1: pleine bande.
DTS
- DTS Cinma APT- X1005.1, DTS ES Matrix 6.1.
- L, C, R: 20Hz 20kHz.
- Ls, Rs: 80Hz 20kHz, le contenu 20Hz 80Hz est envoy vers le Lfe
lencodage.
- Subwoofer: 20Hz 80Hz, canal Lfe filtr 80Hz et contenu Ls +Rs
infrieur 80Hz dirig vers le Lfe.
- DTS vido Coherent Acoustic.
- DTS Digital Surround: 120Hz.
- DTS ES6.1: 120Hz.
- DTS HD, DTS Master: pleine bande, filtre passe bas 100Hz 60dB/oct au
dcodage.
- MLP (DVD audio): pleine bande.
- DSD/DXD (SACD): pleine bande.
- AAC (MPEG2/MPEG4): variable jusqu 1kHz.
- MPEG2 BC: variable.
- SDDS: variable jusqu 330Hz.
On utilise souvent le filtre Waves Lfe 360 qui peut sinsrer sur une piste5.1, il nagit
que sur le canal Lfe, avec une pente 60dB par octave.
Lfe
6.5 Pan-Pot,
6.5
267
Amplitude, VBAP
La rpartition dun signal sur un nombre de haut-parleurs suprieur deux prsente
quelques difficults psychoacoustiques dont la distribution nergtique du signal, la
prcision de localisation des sources fantmes, lcoute en dehors de laxe central et les
dtimbrages possibles. Michael Gerzon, connu pour son travail de recherche sur le son
ambisonique, dfinit une loi de pan de qualitpar la bonne continuit de localisation
entre les enceintes, sans trou ni focalisation vers une direction particulire.
Il existe diffrents procds de pan-pot multicanal, le premier est une extension
de la loi de pan-pot damplitude dfinie pour un format stro, cest loutil que la
plupart des mixeurs utilisent dans les consoles et les DAW. On la dfinit par la loi de
pan damplitude par paires denceintes (pairwise amplitude panning). Cette loi
damplitude -3dB sapplique chaque paire denceintes adjacentes, de telle sorte que
la puissance est constante lorsque la source est pan-pote dun canal lautre. La
268
Chapitre 6 La
postproduction
perception de niveau reste alors la mme. Cette premire solution est assez efficace et
son implmentation reste simple.
Le concept de pan-pot damplitude a t tendu un ensemble de plusieurs hautparleurs adjacents distribus sur un cercle ou une sphre au centre desquels se trouve
lauditeur, il sagit du VBAP (Vector Base Amplitude Panning). La technologie VBAP
ncessite de connatre par avance la position des haut-parleurs, et utilise les trois
enceintes les plus proches de la position voulue de la source. Cette approche, dveloppe
par Pulkki en 1997, utilise la composante directionnelle des vecteurs de chacune des 2
ou 3 enceintes les plus proches de la source sonore.
Un autre procd, le DBAP (Distance-Based Amplitude Panning) dfinit un pan-pot
damplitude sur un ensemble de haut-parleurs dont la position na pas besoin dtre
connue. Les facteurs de gains pour chaque haut-parleur sont tablis sur un modle
dattnuation de distance entre la position de la source sonore et chacune des enceintes.
Pan-pot ambisonique
On trouve aussi des lois de pan reposant sur la thorie ambisonique diffrents ordres,
elles offrent une bonne stabilit dimage sonore, un placement des enceintes libre mais
elles peuvent gnrer des oppositions de phase pour certaines positions de pan et la
sparation des canaux semble assez pauvre. Le Spatialisateur de lIrcam est un outil qui
permet de spatialiser au format ambisonique ordres 1 et 2, en 2D et en 3D. La suite B2X
plug-ins (dveloppe par Daniel Courville) permet de spatialiser des sources jusqu
lordre 5, le panner encode une source mono en un format B.
Pan-pot avanc (amplitude, temps, filtrage)
Enfin, il existe des lois de pan qui intgrent des fonctions HRTF de ttes artificielles
ou qui simulent des systmes de prise de son multicanal comportant des diffrences
dintensit et de temps. Certains algorithmes simulent des fonctions HRTF qui
annulent les chemins croiss issus de la diaphonie acoustique. Ainsi, pour un auditeur
6.5 Pan-Pot,
269
plac prcisment au sweet spot, une source positionne sur lenceinte gauche pourrait
tre perue uniquement par loreille gauche, sa perception par loreille droite serait
nettement amoindrie. Le Virtual Surround Panner que lon trouve dans la console
Studer Vista 9 repose sur ce type de fonctionnement. Le VSP intgre diffrents
modles de microphones, la sphre, le modle ORTF, le modle omni AB, utilisant des
diffrences dintensit, de temps, et de frquence.
Ce premier type de pan-pot est celui que lon rencontre sur la plupart des consoles et des
logiciels. Il offre trois potentiomtres avec ou sans reprsentation graphique du point de
localisation: un circulaire PAN L/R, pour grer la rpartition gauche/droite des sources,
un circulaire LR/LCR appel aussi Divergence Centrale ou Focus (dfinie par la suite)
et un circulaire PAN F/R (front/rear) pour ajuster la disposition de la source en profondeur, entre le frontal et larrire. On trouve aussi un autre potentiomtre circulaire ddi
au niveau de dpart du canal Lfe. Ces quatre potentiomtres principaux, que lon rencontre par exemple sur la console SSL Duality, constituent la base du fonctionnement.
270
Chapitre 6 La
postproduction
6.5 Pan-Pot,
271
Les consoles Studer et Lawo proposent les paramtres Front width, Back width
et Depth, lesquels permettent de rgler les largeurs frontales, arrire et la profondeur frontal/arrire. Ceci revient grer la divergence vers les autres canaux.
272
Chapitre 6 La
postproduction
Chez Studer, la divergence centrale est gre par le paramtre Center, la divergence
vers les autres canaux sappelle Diverge.
Figure6.18 Pan-pot type Lawo, Lawo
6.5 Pan-Pot,
273
Figure6.20 Pan et Ultipan SSL C300, SSL
274
Chapitre 6 La
postproduction
rflexions. Une fois la position circulaire de la source valide, il est possible dagir sur la
divergence vers les autres canaux afin dlargir la source localement sur le cercle. Loutil
est complt par le champ diffus de
la rverbration R360.
Le Virtual Surround Panner de
la console Studer Vista 9 utilise
diffrents modes de pan-pot avec
lintgration de fonctions HRTF. On
trouve les modes suivants:
HRTF : utilisation de courbes
HRTF annulant les chemins
croiss issus de la diaphonie
acoustique;
Sphere : ce mode simule un
microphone sphrique impliquant une diffrence damplitude, de temps et de frquence
Figure6.22 Surround tools Imager Waves,
(simulation de lattnuation des
Waves
frquences aigus par ombrage),
cest un modle de restitution spatial binaural;
User (MST Microphone Simulation Tool): ce mode permet de designer son
propre modle microphonique.
source sonore
(positionnement
par pan et contrle
de distance)
simulation du placement
des microphones
Figure6.23VSP Virtual Surround Panner Studer,
Studer.
6.5 Pan-Pot,
275
LIrcam, associ Flux, a dvelopp sous forme de plug-in une version du Spatialisateur.
Cet outil repose sur un modle perceptif avanc, il permet de spatialiser des sources en
prenant en compte un grand nombre de paramtres acoustiques, comme la variation
du niveau sonore avec la distance, labsorption des frquences aigus qui crot avec la
distance, la directivit de la source, sa prsence, son orientation par rapport lauditeur
(rotation de la source autour de son axe), leffet Doppler, le positionnement des enceintes
de restitution, la prsence de la salle, son enveloppement etc.
276
Chapitre 6 La
postproduction
Longcat Technologies, socit franaise spcialise dans les technologies audio 3D,
dveloppe notamment un logiciel de synthse AudioStage, dont les applications sont
innovantes. Cest une application de modlisation numrique pour lcriture 3D de
scnes sonores animes. Lauditeur se dplace dans la modlisation de lenvironnement,
son point de vue change.
6.5 Pan-Pot,
277
voie centrale. Apparaissent alors les problmes de diaphonie acoustique, perus sous
forme de filtrage en peigne. Il est possible de les rduire en retardant les canaux L et R,
mthode propose par Bernard Lagnel, chef oprateur son Radio France. Ce dernier
retarde les canaux L et R denviron 0,7ms lorsquil souhaite gnrer un centre partir
dune captation 4 canaux L R Ls Rs. Il apparat logique par consquent dadjoindre cet
outil divergence centrale le dlai des trois enceintes, afin de dcorrler la source mono
sur les trois canaux LCR.
Ds lors quon utilise un triplet LCR pour la captation de spectacles (opras, orchestres,
thtre, comdies musicales), le routing du canal central se fait sans divergence, en
revanche, les microphones de proximit ou appoints peuvent utiliser la divergence
centrale. Par exemple, un microphone appoint sur une contrebasse dispose au centre
de lorchestre sintgrera plus facilement dans lensemble avec de la divergence centrale.
Dirig vers le centre physique, linstrument sera peru de faon trop ponctuelle. Pour
le mixage dimages sonores virtuelles (fictions radio, musiques acousmatiques et
actuelles), on considre souvent le centre comme une direction sans rel lien avec les
autres, il apporte simplement une diversification des provenances.
Dans le contexte du film, la musique est mixe en amont au format5.1, elle est livre
au mixeur sous forme de stems. On doit considrer le fait quau mixage final, le centre
dun stem musique peut tre considrablement baiss ou mme coup, afin damliorer
lintelligibilit des dialogues. Do la ncessit de ne pas placer de source seulement
dans le centre et de la diverger.
Le
centre en multicanal
- La voie centrale peut tre considre comme une voie indpendante sans
rel lien avec les autres canaux (images virtuelles).
278
Chapitre 6 La
postproduction
leurs placements relatifs, simplement avec cette divergence. Il suffit alors de trouver le
bon paramtrage de divergence et de copier la valeur sur toutes les pistes concernes.
Par continuit sur tous les canaux du multicanal, lorsquon pan-pote les sources
en utilisant la divergence, on recorrle limage sonore, limpression spatiale est alors
diminue. Si lon diverge au maximum la source, elle alimente alors les canaux du
multicanal avec le mme signal.
6.5 Pan-Pot,
279
280
6.6
Chapitre 6 La
postproduction
Rverbration
La rverbration en multicanal permet de localiser une source dans lespace par le
champ des premires rflexions quelle synthtise. Le champ diffus cr est constant
dans toute la salle, donc rparti de la mme faon, avec dcorrlation, sur les diffrents
canaux L, C, R, Ls, Rs du multicanal.
La rverbration en mixage multicanal peut se grer de deux faons diffrentes. La
premire consiste travailler avec plusieurs rverbrations stro que lon spatialise
dans limage multicanal : on place gnralement une rverbration dans lespace
frontal et une seconde dans lespace arrire. Cette mthode permet de bien matriser le
dosage de la rverbration du mixage et particulirement son placement, elle est tout
fait applique au travail dune image virtuelle ou une image o la scne est dynamique
(les sources, les personnages bougent et les lieux changent).
Les images relles, en revanche, utilisent plutt une seule rverbration multicanal au
format 5.0, afin dobtenir une meilleure homognit. On peut alimenter la rverbration
par un format 5.0 ou5.1 (le Lfe nest pas rverbr, lutilisation dun chemin5.1 simplifie
le routing), ce qui consiste grer la spatialisation avant la rverbration: un dpart
auxiliaire5.1 permet alors de spatialiser la source grce un pan-pot5.1. Il est courant
de relier le pan denvoi de rverbration et celui de la piste principale, cette fonction
sappelle Follow main pan dans Pro Tools et permet de dplacer la source directe
dans lespace et grer en parallle son placement dans la rverbration.
On peut aussi alimenter lunit de rverbration en stro, ce qui suffit dans certains cas.
La latralisation gauche-droite se fait alors en stro dans le dpart aux, et le placement
frontal/arrire ainsi que lajustement gauche/droite se paramtrent sous forme de
sources placer dans la rverbration (voir M6000, algorithme VSS5.1 source).
On peut ensuite combiner les deux mthodes, rverbration multicanal et plusieurs
rverbrations stro disposes lavant et larrire.
Le paramtrage dune rverbration multicanal se fait selon les critres habituels
utiliss en stro: un temps de rverbration TR global qui peut sajuster par bandes de
frquences (Damping), une taille de salle relie un type de premires rflexions, le
paramtrage de la densit des rflexions, un filtre en sortie et ventuellement en entre, le
rglage dun pre delay, et des effets de modulation. Ensuite, il est possible de modifier par
coefficients multiplicateurs le TR de chaque canal, et rallonger au besoin la rverbration
dans certains secteurs de lespace: on obtient donc cinq valeurs de TR ajuster. On peut
filtrer les canaux frontaux et arrire indpendamment, par dfaut les ajustements sont
relis entre eux. Le Damping du TR peut aussi, dans certaines rverbrations, tre
paramtr de faon diffrente entre le frontal et larrire. On trouve parfois un paramtre
intressant, lquilibre frontal/arrire (chez Waves, Front/Rear), il permet de changer
rapidement la rpartition en niveaux frontal/arrire de la rverbration, autrement on le
gre avec le niveau des diffrents canaux (souvent LR, C, LsRs).
Le positionnement des sources dans lespace en interne dans la rverbration est
propos par certains algorithmes, cest le cas du Spatialisateur de lIrcam, ou de
6.6 Rverbration
281
rverbration multicanal
Les rglages possibles sur les rverbrations convolution taient au dpart plus
rduits que sur les rverbrations synthse, mais ils ont bien volu depuis. Le TR
est ajustable en gnral en pourcentages ou en rapport multiplicateur (le rapport
multiplie le TR dfini par la rponse impulsionnelle), on trouve la taille de la salle, la
rpartition en niveau des canaux (LR, arrire, centre, Lfe), le Damping, la position
des haut-parleurs dans la salle, le filtrage en sortie. Sur certains plug-ins, il existe un
paramtre (Decorr dans lIR360) qui permet de dcorrler les diffrents canaux
282
Chapitre 6 La
postproduction
afin daugmenter limpression despace. On peut aussi paramtrer dans certains cas
lenveloppe temporelle de la rverbration (Reverb envelope) et crer des cluster
chos (cest le cas de lIR360).
TC Electronic M6000
Algorithme VSS-6.1 Reverb: rverbration dun mixage
6.6 Rverbration
283
Lautre algorithme, VSS-5.1 source, est plus adapt la rverbration de sources spares,
et propose en entre quatre sources S1, S2, S3 et S4 au format mono. Lutilisateur dcide
de la spatialisation de ces quatre sources dans la salle suivant des positions prdfinies
proposes par la rverbration. Cet algorithme prend en compte le champ des premires
rflexions, variable en fonction de la localisation de la source, le champ diffus tant
constant. Il est possible aussi de changer le point dcoute de lauditeur afin de se
rapprocher ou bien de sloigner des sources frontales. Les caractristiques de chacune
des sources peuvent tre paramtres de faon indpendante: les caractristiques
temporelles (dmarrage et extinction), le filtrage des premires rflexions, le niveau du
champ des premires rflexions et du champ diffus. Le TR peut tre rgl pour chacun
des canaux et il est possible dajuster la direction des premires rflexions dans lespace
frontal et dans lespace arrire, les valeurs sont donnes en degrs:
Espace frontal: 22, 30, 45, 90
284
Chapitre 6 La
postproduction
6.7
Traitement Dynamique
Figure6.32Compresseur Master5.1
analogique type SSL Duality, SSL.
285
compression grce aux deux side chain, deux compressions indpendantes peuvent
tre ralises (voir figure6.33). Il est aussi possible de filtrer le side chain par canal
(filtre coupe-bas, sidechain filter) afin de rendre la compression slective en fonction
de la frquence.
Pour obtenir une plus grande matrise dans la compression dun programme5.1 avec
davantage de side chain, il faut se tourner vers des outils numriques comme la TC
M6000 ou dautres plug-ins. Ltape de mastering5.1 peut ncessiter ce type doutils.
La M6000 prsente deux types de compresseurs multicanal5.1 multibandes, le MD5.1
et le MDX5.1. Le paramtrage des side chain fonctionne de la mme faon pour
les deux types de programmes: lalgorithme repose sur un systme de quatre side
chain:
S1 pour L et R;
S2 pour C;
S3 pour Ls et Rs;
Lfe SC pour le canal Lfe.
286
Chapitre 6 La
postproduction
287
288
Chapitre 6 La
postproduction
Figure6.39Pure limiter Flux, Flux.
6.9 Downmix
6.8
289
Autres effets
6.8.1 Autopan
Lautopan en multicanal permet de simplifier le travail dautomation que lon pourrait
grer par des courbes de pan-pot. Il existe un autopan dvelopp par Trillium Lane
Labs (Avid) qui permet de faire tourner une source mono sur le cercle ou sur un arc
de cercle, dans un sens ou dans lautre, vitesse rglable (la frquence). Le calage
au tempo est possible, la distance du cercle ou plus prcisment la dcorrlation du
mouvement est paramtrable, le mouvement peut tre continu ou bien quantifi sur
des points prdfinis dans lespace. Dautres fonctions complmentaires sont proposes
par le GRM Space (INA).
6.8.2 Dlais
Il nexiste pas aujourdhui de dlai vraiment optimis pour le5.1. On trouve cependant
le GRM Tools Shuffling (INA), un outil trs cratif qui permet de designer le son
en le dcoupant en fragments de dures variables. Le dlai est paramtrable, ainsi
que les temps de monte et dextinction des fragments (rapide, lent) qui gnrent des
transitoires plus ou moins marqus.
La TC M6000 propose un programme de dlai circulaire, reflector 6. Le son est
dlay sur plusieurs points localiss sur le cercle dcoute.
6.9
Downmix
Le downmix est le procd de conversion dun format multicanal vers un format
infrieur: passage du5.1 vers la stro ou la mono, ou passage dun7.1 vers un5.1. Cette
tape est importante car elle est associe automatiquement la compatibilit stro dun
format5.1 Dolby Digital ou DTS, en diffusion TVHD, ou sur supports DVD ou Blu-ray.
En effet, la tendance est de proposer un format5.1 Dolby ou DTS sur les supports et de
ne plus intgrer de format stro. Le mixeur doit donc grer la compatibilit stro de
son mixage5.1, cette compatibilit sera porte par des coefficients de rduction dans les
formats Dolby Digital et DTS. Ceci fait lobjet dune metadata quon appelle Downmix,
intgr dans les codages Dolby Digital, Dolby E, DTS
Voici ci-dessous la fabrication dun downmix LoRo (downmix en phase), par simple
sommation des diffrents canaux:
Downmix LoRo
- Lo =L +C (-3dB) +Ls (-3dB) Left only.
- Ro =R +C (-3dB) +Rs (-3dB) Right only.
290
Chapitre 6 La
postproduction
Les coefficients (-3dB, -3dB) sont ceux proposs par dfaut, mais le mixeur peut les
ajuster.
Le canal LFE est gnralement abandonn dans les downmix.
On trouvera dans le chapitre8, les downmix LtRt associs la diffusion Dolby Digital,
pour la compatibilit avec le format Dolby Surround.
Il existe donc des outils de downmix associs aux bus5.1 des consoles ou sous forme de
plug-ins. Le plug-in Neyrinck Soundcode Stereo par exemple permet de downmixer
dans Pro Tools un mixage 5.1, lajustement des coefficients se faisant par pas de
0,1dB. Lintgration du canal Lfe est possible, ce qui permet de rintgrer du grave
supplmentaire dans la stro. Ce plug-in ne simule pas vraiment un downmix de
diffusion, il permet simplement de fabriquer une stro, LoRo ou LtRt, partir dun5.1.
Le LtRt peut tre dcod afin de valider lencodage.
Les consoles numriques intgrent une fonction downmix paramtrable, avec des
options intressantes comme le downmix LtRt propos par Studer. Il est possible de
mmoriser plusieurs presets de downmix sur le bus master, ou dans certains cas,
directement sur les stems, comme le propose la console Euphonix Systme5 Fusion.
6.10 Upmix
Lopration inverse, celle qui consiste passer dun format mono ou stro un format
multicanal sappelle lupmix. Lutilisation dun tel procd se justifie lorsque lon
souhaite spatialiser une ambiance stro, par exemple, ou un mixage dont les pistes
6.10 Upmix
291
spares nexistent pas (des archives par exemple) ou bien ne sont plus exploitables.
Cest aussi le cas malheureusement lorsquon ne dispose pas assez de budget pour
envisager un mixage5.1 et surtout dans des applications de diffusion (voir chapitre8).
Il existe de nombreux algorithmes qui, par analyse de la phase, le dlai entre les deux
canaux de la stro et leur contenu frquentiel, produisent une image sonore spatialise.
Linformation hors phase est restitue dans les canaux arrire, linformation en phase,
au centre, et le contenu restant alimente la stro du multicanal. Cest le principe du
dcodage Dolby Surround. Cette analyse de la corrlation des signaux est le principe
de base des algorithmes dupmix, ensuite dautres modules additionnels peuvent tre
intgrs comme lajout de rverbration, la spatialisation dans lespace multicanal par
diffrence dintensit et de temps de la stro, ou la sparation du champ direct et du
champ rverbr dun signal.
Lalgorithme unwrap du TC M6000 (ou DB8) intgre un module de rverbration
dont le mode de dcorrlation des canaux est paramtrable. Il repose sur lanalyse en
phase, dlais, frquence des deux canaux de la stro. On peut ajuster la quantit en
pourcentage de la stro traite, 0% signifie quon laisse la stro dentre en sortie LR
du multicanal sans traitement. Une utilisation de 60% permet de fabriquer un centre,
tout en prservant la largeur du mix original.
Autre exemple, lUpmix5 dvelopp par Arkamys pour Pyramix, ce dernier najoute
pas de rverbration.
Lalgorithme AMBIT, que lon trouve dans les consoles Lawo, spare le procd
dupmix en deux modules, le module Upmix pour le traitement frontal et le module
Spatialize pour la cration des canaux arrire.
292
Chapitre 6 La
postproduction
dialogues
stem dialogues
LCR ou 5.0
montage
son
auditorium
postsynchro
bruitages
stem bruitages
VO LCR ou 5.0
effets
stem FX
5.1
multi
SDDS 7.1
multi DTS
5.1
multi Dolby
5.1
ambiances
studio
musique
musique
stem ambiances
5.0
stem musique
5.1+ stems sp.
VI Fx amb
spares 5.1
VI
mlanges
5.1
TV VI
5.1
multi DVD
Blu-ray 5.1
TV VI
stro
stro
Dolby LtRt
multi TV
5.1
TV VO
stro
6.11 M thode
de mixage et analyses
293
le discours en frontal: la voix, un instrument de musique soliste ou tout autre lment mlodique, ce qui attire lattention;
lenveloppement: les ambiances, lacoustique, la musique, les FX, des sources larges
sans transitoires, les sources qui nattirent pas lattention;
lhomognit, la fusion frontale/arrire des sources : des sons qui travaillent
ensemble;
lacoustique: souvent au format multicanal pour donner leffet dune seule salle ou
dun mme lieu, apporte une homognit.
Comme voqu au chapitre3, le choix des sources off localises dans les zones latrales
et larrire se fait en fonction de leur poids attentionnel (le caractre nouveau de
la source, leurs caractristiques dynamiques, le contenu frquentiel), leur degr de
prvisibilit, les contraintes esthtiques de luvre, le poids attentionnel de limage
(scne avec des contraintes ralistes ou image virtuelle avec peu de contraintes, des
images abstraites).
294
Chapitre 6 La
postproduction
6.13 Exploitation
295
Spatial Audio Designer (New Audio Technology) est un pan-pot sous forme de plug-in
qui permet de grer des formats suprieurs au 7.1, il est notamment compatible
Auro-3D 13.1, DTS, 22.2, sans limite. Il gre un systme de bus interne dfini par le
format choisi (9.1, 11.1, 13.1, 22.2). Loutil permet de dtourner les possibilits de bus
multicanal dun DAW qui gnralement est limit au7.1. Les sources sont repres par
un code couleur, et deux reprsentations graphiques permettent de placer les sources
dans lespace, une vue de dessus pour lhorizontal et une vue de face pour le vertical.
Cet outil, dvelopp par Tom Ammermann, intgre aussi les divergences centrales des
secteurs qui comportent un centre.
Le logiciel Reaper (Cockos) offre un pan-pot trs complet appel ReaSurround. Il permet
de grer des formats allant jusqu 64 canaux prenant en compte llvation. Il existe
296
Chapitre 6 La
postproduction
des presets mais il est possible dditer son propre format en ajustant les paramtres
influences, lesquels permettent de dfinir la corrlation de chaque enceinte. Le schma
ci-dessous reprsente le pan-pot 9.1 (type Auro-3D).
Auro Technologies propose aussi des outils 3D dont lAuro-3D Panner qui travaille avec
le moteur de mixage 3D Auro-3D mixing engine.
Le GRM Space (INA) est un panner compatible avec de nombreux formats multicanal
que lutilisateur peut diter, il propose de nombreuses fonctions complmentaires
comme lautopan, ldition de trajectoires, la gestion des sources regroupes en objets.
6.13 Exploitation
297
298
Chapitre 6 La
postproduction
6.13 Exploitation
299
La fonction premire de cet outil est de positionner les haut-parleurs dans lespace
et de transmettre ces informations au processeur qui se charge alors de calculer les
coefficients de filtrage ncessaire pour le rendu WFS. Un mme mixage peut tre diffus
sur des configurations denceintes diffrentes; lorsque les lieux daccueil ne permettent
pas de placer les enceintes exactement de la mme faon, loutil WaveDesigner, qui
prend en compte les nouvelles positions denceintes, permet dadapter parfaitement le
mixage au nouveau lieu, dans un temps trs court.
Le WaveDesigner met aussi disposition des outils de calibration du systme avec un
galiseur paramtrique (8 filtres peak, low et high shelf, passe haut et passe bas), une
commande de niveau, un limiteur et la possibilit dappliquer des cross over pour
lalimentation des systmes multi voies. Une volution rcente du processeur permet
de plus de dclarer jusqu 4 sous-systmes. Ceux-ci peuvent correspondre par exemple
diffrent lments du systme de diffusion (faade, rappels dans la salle) ou bien des
systmes secondaires (bar, cabine de mixage) avec des rglages de niveau et retard
indpendant pour chaque source de chaque sous-systme.
300
Chapitre 6 La
postproduction
Cette technologie oriente mixage objet permet de spatialiser des sources sans la
contrainte du systme de diffusion. Le systme gre la position et le dplacement des
objets. Lutilisateur indique la configuration multicanal des enceintes dont tiendra
compte le mixage objet. Cette configuration naffecte en rien le mixage objet labor,
elle indique simplement comment la position des objets est prsente la sortie audio
du DAW. Cela permet aussi de travailler dans diffrentes configurations denceintes
surround sans modifier les donnes de pan-pot ni lautomation. Le plug-in peut
travailler avec le processeur de diffusion WFS Iosono.
Le stage view dtermine la scne sonore de lauditeur, avec la reprsentation des
enceintes (speaker icons). La figure6.51 reprsente diffrents types dobjets, chacun
pouvant tre dplac de faon indpendante par rapport aux autres.
La figure6.52 prsente un exemple de spatialisation dune source par le procd
dupmix:
6.13 Exploitation
301
Un bed est compatible 9.1 (7.1 plus 2 canaux de hauteur). Dolby Atmos peut grer
jusqu 128 pistes rparties en beds et objets, soit 10 canaux pour le bed et
118 canaux pour les objets.
La postproduction est gre par le RMU (rendering and mastering unit), lunit de rendu
et de mastering Dolby, que lon contrle par lapplication Dolby Monitor. Le mixeur gre
la spatialisation des objets par lintermdiaire de metadata gnres par le plug-in Avid
Panner insr sur chaque piste objet. AMS Neve, Euphonix et Harrison intgrent aussi
des outils de spatialisation dans leurs consoles dvelopps conjointement avec Dolby.
302
Chapitre 6 La
postproduction
Le RMU permet tout moment de simuler des downmix en Dolby Surround7.1, en5.1
et en stro LtRt ou LoRo.
Dans la phase de mixage, un stem sera donc compos dun bed principal orient
channel et des objets accompagns de metadata de spatialisation.
La chane de production se dcompose comme suit, en tapes de montage/premix,
mixage final et mastering:
6.14 Cration
Dilger
303
La cration sonore est un domaine o la spatialisation des sons est trs courante, si bien
que la norme5.1 est souvent largement dpasse. La restitution en 3D est aujourdhui
trs sollicite par les compositeurs/sound designers. Linteractivit du contenu
augmente dautre part lintrt pour lespace, de plus en plus dexprimentations
sonores spatialises sont mises en place pour la scnographie.
Les outils de cration de contenus interactifs sont passs, en quelques annes, du stade de
la programmation en ligne de codes celui dun environnement graphique trs labor.
304
Chapitre 6 La
postproduction
6.15 Applications
6.15.1 Film
Il faut sauver le soldat Ryan (Saving Private Ryan)
Le Film Il faut sauver le soldat Ryan, ralis par Steven Spielberg et mix par Gary
Rydstrom, est connu pour sa premire squence longue dune vingtaine de minutes,
mettant en scne le dbarquement alli du 6juin 1944 sur la plage dOmaha beach
en Normandie. La scne est trs raliste et choquante par sa brutalit. Le film a reu
lOscar du meilleur son et du meilleur mixage en 1998. Cette scne met en vidence le
6.15 Applications
305
contraste soulign par le son, entre la vision externe du personnage principal, avec une
partie FX et ambiances trs fournie, constitus dimpacts de balles, dexplosions dune
grande duret rparties tout autour du spectateur et son ressenti intrieur, exprim par
le point de vue de la camra qui plonge dans leau, et autres courtes squences o lon
perd les sons des tirs pour entrer dans le point de vue subjectif du soldat.
Lanalyse de Gary Rydstrom expose dans Surround Sound de Tomlinson
Holman, explique la ralisation son du film qui consiste placer le spectateur au
milieu du dbarquement, avec le point de vue claustrophobique du soldat tremblant
de peur. Ainsi, le son par son immersion intense, nous fait glisser habilement dans
la peau du personnage. Le son spatialis donne des informations sur lorientation,
lchelle, lmotion, donnes que la camra na pas besoin de prciser. Bien sr,
la bande son est caractrise par la librairie sonore dense des diffrents tirs de
mitraillettes, des sons isols de tirs, de balles, dartillerie, de bateaux, de tanks,
dexplosions, de dbris.
Comme lvoque le mixeur, lorsque lon traite un son in, il suffit de le placer non loin
de limage, dans les canaux frontaux, mais la majorit des sources qui constituent la
bande son du film sont des sons off, ce qui offre une grande libert de spatialisation.
Lauteur voque quelques points intressants sur lintrt de spatialiser un son: la
sparation des canaux permet dviter leffet de masque, lorientation du spectateur
est plus prcise, les possibilits de dynamique sont bien plus grandes, et le mouvement
des sons est possible. Notons aussi lutilisation des diffrents points de vue, le point de
vue sur lextrieur de la scne et celui portant sur le ressenti du personnage.
306
Chapitre 6 La
postproduction
squences: la camra qui plonge sous leau ou les scnes o le personnage perd momentanment loue, symbolis par un sifflement et un resserrement spatial vers la stro.
Les changements despaces offrent ces possibilits de dynamique, sajoutant aux variations de niveaux et aux frquences contrastes.
Le mouvement des sons, une faon de renforcer lmotion
Le spectateur est trs attentif aux changements de localisation des sons, ainsi la
squence comporte de nombreux passages de balles sifflantes, trs souvent de larrire
vers lavant, prcdant limpact de la balle lcran. Les chos des tirs se rpondent
dans des zones opposes. Ces mouvements nous donnent limpression dtre dans
laction, ils nous apportent la proximit avec le sujet trait et nous vhiculent lmotion
du personnage en danger de mort. Le mouvement des sons des explosions, des cris des
soldats accompagnent aussi le mouvement de la camra qui explore le champ autour
du spectateur.
Les limites des canaux surround
Dans la configuration cinma, les sons pan-pots larrire perdent une partie
de leurs frquences, ils perdent de leur qualit et de leur poids compars aux canaux
avant.
Les canaux arrire au cinma sont envoys vers un ensemble de haut-parleurs, qui ne
restituent pas un point prcis de localisation. Le son restitu est plutt ressenti comme
une ambiance (le Dolby Atmos permettrait cette dcorrlation).
Le mixage multicanal repose sur une utilisation intelligente des canaux surround pour
envelopper le spectateur sans le distraire et le sortir du scnario du film. Il y a un temps
pour lenveloppement et un temps sans surround. Comme il existe pour limage des
artifices comme la mise au point, la profondeur de champ, les mouvements de camra
ou le dcoupage, destins orienter lattention du spectateur, il existe des techniques
identiques dans le son, comme lutilisation ou non des canaux arrire.
6.15 Applications
307
film, Chris Jenkins, nous avons chang sur la faon damener la musique dans le film,
jtais lpoque assez inexpriment dans limmersion mme du Cinma. Je suis alors
parti du principe o je disposais de six canaux que je pouvais pleinement exploiter, je
ne souhaitais pas mixer avec une utilisation dominante de limage fantme L-R, et un
peu de rverbration place larrire, qui souvent fait la blague. Je souhaitais grer un
vrai centre physique, avec une cohrence spatiale forte. Je me suis battu pour imposer
cette vision, mme avec le compositeur qui a lhabitude de faire des maquettes trs
prcises mais qui pensait lpoque stro largie.
Complment
Web 6.4
Didier Lozahic ITV.
308
Chapitre 6 La
postproduction
Chapitre 7
Le codage et la diffusion
Points
essentiels
7.1
Introduction
7.1.1
Dfinition
Ce chapitre traite du codage numrique, qui est une transformation du signal audio
afin de rduire son dbit et faciliter sa transmission ou son stockage.
Le format PCM a t le premier codage couramment utilis et adopt par la norme CD
audio. Cette simple numrisation du son est dj un codage puisquen dfinissant une
310
Chapitre 7 Le
codage et la diffusion
7.2
Principes
Deux voies peuvent sassocier: le codage entropique qui rduit le dbit mais ne supprime aucune information et le codage perceptif conu pour supprimer les informations inaudibles.
7.2 Principes
311
Paramtres de codage
Qualit
La qualit auditive est un lie diffrentes caractristiques techniques dont principalement le dbit. La mesure de la qualit est aborde ultrieurement et concerne le codage
perceptif et non le codage entropique.
Dbit
Le dbit, donn en bits par seconde, (kbit/s ou Mbps) est une caractristique souvent
utilise pour qualifier un codage.
Complexit
Les complexits du codage et du dcodage sont des lments important des systmes
matriels ou logiciels. Les utilisations tant asymtriques, un codeur et des millions de
dcodeurs pour une diffusion radiophonique ou tlvise, cest la simplicit du dcodage qui est favorise. En principe, les spcifications ne dfinissent que le dcodage,
ce qui permet les progrs du codage en restant compatible avec les dcodeurs en utilisation.
Latence
La latence est un dlai de traitement, prsent au codage et au dcodage. Selon lexploitation, les impratifs de latences sont diffrents: une conversation tlphonique exige
une latence trs faible. Par contre le dlai de codage dun signal audio pour un support
DVD ou Blu-ray na pas dimportance.
Robustesse
Elle caractrise la rsistance du codage aux erreurs et pertes lors des diffusions ou
transferts. Rajouter des codes pour viter les erreurs lors de la reconstruction du signal
est toujours un compromis entre dbit et robustesse.
312
Chapitre 7 Le
codage et la diffusion
7.2 Principes
313
Transformation temps-frquence
Le signal acoustique volue temporellement mais lanalyse faite par le systme auditif, dont la membrane basilaire de loreille interne, est plutt de nature frquentielle.
Certaines performances de loreille tant plus faciles caractriser dans un domaine
frquentiel, des outils mathmatiques, les transformes, permettent de passer dun
domaine lautre. Dans le cas du codage audionumrique, les transformes sont bases
soit sur des banques de filtres soit sur les transformes de Fourier discrtes (DFT).
Ces transformes permettent de calculer le spectre dun signal stationnaire ou non.
Gnralement on scinde le signal en blocs en imaginant que ceux-ci se rptent priodiquement. Les transformes modifies utilisent une proprit de traitement de
signal appele TDAC (time-domain aliasing cancellation) qui permet de calculer sur
des fentres conscutives se recouvrant et, sous certaines conditions, dviter dintroduire des erreurs dues au repliement temporel.
7.2.4 Bases de psychoacoustique
Les seuils daudibilit
La rponse de loreille nest linaire ni en frquence ni en niveau, ce qui est constat sur
les courbes daudibilit en figure7.1.
Ces rponses sont approximatives et reprsentent une moyenne qui ne correspond pas
forcment la perception individuelle.
Dfinitions
- dBSPL: mesure physique ayant pour rfrence 0dB une pression sonore
de 20 micropascals.
- Phones: mesure du niveau sonore peru rfrenc 1kHz. Un son de
60 phones 300Hz est peru au mme niveau quun son de 60 phones
1kHz alors que leurs niveaux SPL sont trs diffrents.
Masquage temporel
Le masquage temporel est un processus li loreille interne qui rend inaudibles les
signaux faibles prcdant ou suivant un signal fort. Le temps de post-masquage peut
stendre 100ms, alors que le prmasquage est limit environ 20ms.
Masquage spectral
On parle de masquage frquentiel ou de masquage simultan quand un son nest pas
peru parce quil est couvert par un son de niveau plus lev mais simultan.
314
Chapitre 7 Le
codage et la diffusion
7.2 Principes
315
Rectangular Bandwidth). Dans les moyennes frquences, les bandes prsentent une
largeur denviron 1/6e doctave. Dans le registre grave, les performances sont bien
moindres.
316
Chapitre 7 Le
codage et la diffusion
suivre fidlement les signaux courts (percussifs, par exemple). En effet, les erreurs sont
dfinies par la notion de bruit de codage, rparti sur la dure du bloc. Ce bruit dans
un bloc court est plus proche temporellement du signal et donc mieux masqu. Leffet
typique d une longueur de bloc trop importante est le pr-cho, une erreur ressemblant au signal coder mais sans bnficier du prmasquage.
Dans les codages volus, la taille des blocs est asservie au signal, des blocs longs tant
plus efficaces pour la rduction de dbit et des blocs plus courts sont utiliss si laudio
a un caractre transitoire (128 chantillons donc 3ms au minimum dans le cas de
lAAC). Les erreurs sont toujours prsentes mais mieux masques subjectivement parce
que plus proches temporellement du signal.
Le spectre instantan extrait du signal est compar aux courbes de masquage frquentiel et le contenu sous le seuil nest pas cod. Le signal restant, nest cod quau-dessus
de la courbe de masquage, en 4 ou 5 bits seulement au lieu des 16 ou 20 de dpart.
La prparation des lments est un aspect primordial du codage: si les signaux sont
bruits, une partie du dbit sera utilise pour coder le bruit de nature alatoire. Il est
donc important, en audio comme en vido, de nettoyer les lments avant toute
compression.
Un aspect des modles psychoacoustiques est li la perception spatiale: la localisation
rsulte des diffrences entre les signaux chaque oreille, des variations de ces signaux
lors des mouvements de la tte et des schmas cognitifs. Les diffrences fondamentales
entre les signaux dichotiques sont celles lies la phase interaurale dans les basses frquences (jusqu environ 700Hz), lcart damplitude et aux carts temporels entre
enveloppes des signaux (dlai de groupe) au-dessus de ces frquences.
7.2 Principes
317
Modle
psychoacoustique
- Seuils daudibilit.
- Limite dans les hautes frquences.
- Masquage temporel.
- Masquage simultan et frquentiel.
Appareil auditif
Organes
Traitement du signal
Oreille externe
Oreille moyenne
rduction de la dynamique
Oreille interne
transforme
temps-frquence, filtrage en
bandes critiques
Systme nerveux
318
Chapitre 7 Le
codage et la diffusion
Codage entropique
Les informations dun signal numris noccupent jamais la totalit du canal de transmission, une partie est inutile ou redondante. Le codage entropique propose de rduire
le dbit de codage sans perdre dinformation, le dcodage retrouvant totalement les
informations dorigine.
Une technique utilise en codage entropique est celle des codes de Huffmann o les
caractres les plus frquents sont cods avec moins de signes. Appliqu la langue
franaise, cela revient coder la lettre e avec le code le plus court et la lettre w avec
un codage long. Lapparition du e tant plus frquente que celle du w, la taille du
texte cod est rduite.
Le codage LZW (Lempel-Ziv-Welch) est comparable celui de Huffmann mais avec un
dictionnaire adaptatif redfini au fur et mesure selon la frquence dapparition des
caractres.
Prdiction linaire
Un signal audio nest pas alatoire et il peut tre partiellement prdit en se rfrant aux
chantillons prcdents. La prdiction linaire est un codage diffrentiel par quantification vectorielle et seule lerreur rsiduelle reste coder.
Cette technologie est efficace sur les signaux musicaux et particulirement sur la
voix, signal constitu de formants (base des voyelles qui sont des signaux sinusodaux
moduls en frquence et en niveau), et des consonnes produites par obstruction du
passage de lair, donc des signaux dune nature plus bruite et plus alatoire. On code
7.2 Principes
319
ainsi conomiquement en termes de dbit les formants auxquels on rajoute les bruits
des consonnes.
Banques de filtres, codage par sous-bandes
Dans ce type de codage, le signal est filtr par bandes de frquences puis cod indpendamment dans chaque bande. Compte tenu du masquage frquentiel, un signal fort va
masquer les signaux plus faibles de la mme bande. Ceci permet de rduire considrablement la quantification par bande: au lieu de 16 ou 24 bits, il est possible de rduire
la quantification 4 ou 6 bits.
Souvent utiliss pour ces applications de filtrage par sous-bandes, les filtres miroirs en
quadrature (PQMF) sont implments en traitement du signal numrique pour sparer
la bande passante par filtre passe-bas et filtre passe-haut complmentaires. En mp3,
ATRAC et MPEG4-AAC-SSR, ces filtres PQMF sont suivis dune transforme MDCT,
on parle alors de filtrage hybride.
Reconstruction de Bande Spectrale (SBR)
nergie
Transposition
Frquence
nergie
Cette technologie supprime une partie du spectre des hautes frquences, procurant
une nette rduction de dbit. Au dcodage, un spectre reconstitu complte les
harmoniques manquantes.
Reconstruction par
rplication de bande
spectrale SBR
Frquence
Rservoir (buffer)
Le signal audio tant peu prvisible, il est difficile de connatre par avance le dbit
instantan ncessaire. Un rservoir tampon est permet dabsorber les pics de dbit et
se libre rythme constant. Ainsi le nombre de bits par trame du signal est variable
mais la moyenne reste constante.
Common bit pool
Dans le cas de signaux multicanal, des algorithmes permettent de rpartir les donnes
selon le besoin de chaque canal.
320
Chapitre 7 Le
codage et la diffusion
Codages paramtriques
Pour rduire le dbit, les techniques de codage paramtrique dcomposent le signal
en lments dcrits par des modles et des paramtres. Les lments perceptifs sont
modliss plutt que les seuls paramtres physiques: un signal de base simple est cod
en associant des paramtres complmentaires dcrivant les lments psychoacoustiques plus complexes.
Codage sinusodal
Le modle le plus usit est le codage sinusodal o le signal est reprsent par des
composantes sinusodales, dont on dfinit les frquences et amplitudes instantans.
Un modle hybride rajoute des transitoires et du bruit. Par exemple, le modle MPEG4paramtrique (HILN) dfinit les composantes sinusodales et les composantes harmoniques par leurs frquences et amplitudes, par lenveloppe spectrale des harmoniques
et le bruit par son amplitude et son enveloppe spectrale.
Autre exemple, les mthodes de la stro paramtrique permettent dencoder plusieurs
canaux en un seul flux monophonique associ des informations lies la localisation
spatiale:
7.3 Qualit
321
subjective
Dbit variable
Constant Bit Rate et Variable Bit Rate
Le dbit dun flux encod peut tre soit constant (CBR) soit variable (VBR). Un dbit
constant ne sadapte pas la complexit du message et le canal dinformation nest pas
utilis de faon optimale. Un dbit variable suit la difficult de codage du message en
conservant comme cible une valeur moyenne de dbit. Gnralement, un rservoir
assure une constance dans le flux des donnes, en adaptant le dbit instantan. En
dbit variable, la valeur nominale est fixe mais certains codages permettent de dfinir
les dbits minimal et maximal et la taille du rservoir.
7.3
Qualit subjective
Tout codage est un compromis entre diffrents paramtres mais surtout entre dbit et
qualit sonore. Lvaluation de la qualit est dlicate, les tests dcoute tant subjectifs
et donc complexes, longs et couteux. La mesure objective de la qualit subjective
propose de remplacer les coutes par des mesures objectives dont il faut vrifier la
pertinence et les limites.
322
Chapitre 7 Le
codage et la diffusion
BS.1284-1
BS.1285
BS.1534
BS.1679
Mthodes dvaluation
subjective des faibles
dgradations dans
les systmes audio, y
compris les systmes
sonores multivoies
Mthodes de prslection
pour lvaluation
subjective des faibles
dgradations dans les
systmes audio
Mthode dvaluation
subjective du
niveau de qualit
intermdiaire des
systmes de codage
valuation subjective de
la qualit audio dans les
applications dimagerie
numrique sur grand
cran destines la
prsentation en salle.
Modle objectif
BS.1387-1
Mthode de mesure objective da la qualit du son peru
Audio-visuel
BT.500-13
BS.775-1
BS.1286
Mthodologie dvaluation
subjective de la qualit des
images de tlvision
Complment
Web 7.4
Quelles normes pour quel besoin?
7.3 Qualit
323
subjective
MUSHRA
La signification est: MUltiple Stimuli with Hidden Reference and Anchor, qui est une
mthode dvaluation subjective avec comparaison entre stimulis, base sur la norme
ITU-R BS.1534.
Les diffrents lments sont nots subjectivement sur une chelle de 0 100. Au moins
deux lments de rfrence sont prsents parmi les lments compars: un original
non compress et un codage avec dfauts importants (appel ancre, souvent un
codage avec filtrage passe-bas 3,5kHz). Ce qui permet de forcer ltalement des notes
et dobtenir une chelle quasi absolue.
324
Chapitre 7 Le
codage et la diffusion
Une autre mthode utilise quand il sagit de dterminer si la dgradation est perceptible, est la mthode ABX en double-aveugle. Deux sources, A tant le stimulus dorigine non cod et B le codage sont compares.
Principe du test: X est choisi au hasard, tant A ou B. Lauditeur coute et bascule
entre A, B et X. Ensuite lauditeur dcide si X est A ou X est B. Puis une nouvelle squence est dmarre avec X choisi au hasard. Un score suffisant est ncessaire
pour obtenir un rsultat statistiquement valide: par exemple 15 russites sur 16 essais
correspond une probabilit de russite par hasard infrieure 1/1000. Dans cette
mthode, certains critres objectifs sont respecter: niveaux aligns moins de 0,2dB,
commutations imperceptibles et identiques.
Complment
Web 7.5
Interface dun logiciel de test ABX.
7.3 Qualit
subjective
325
326
Chapitre 7 Le
codage et la diffusion
Causes possibles
Filtrage passe-bas
Clavecin, cornemuse
Pr-cho
Coloration de timbre
phasing
Bruit de pluie
Distortions spatiales
(resserrement)
Traitement M/S
Orchestre classique
Pompage
Bruit
Piano
Erreurs par dmasquage
binaural
Source quasi-mono
7.4 Codage
327
sans pertes
7.4
7.4.1 PCM
Nous avons vu prcdemment le format PCM dfini par la frquence dchantillonnage
et la quantification utilise. La quantification est gnralement linaire, on peut alors
parler de LPCM, Linear Pulse Code Modulation.
Complment
Web 7.6
7.4.2 Lossless
En appliquant les mthodes de compressions bases sur un codage entropique, diffrents formats sont apparus pour remplacer le PCM en ajoutant des lments complmentaires (tags). Ces formats qualifis de PPCM Packed Pulse Coded Modulation,
proposent les avantages suivants par rapport au LPCM:
Parmi ces formats, on peut citer FLAC, Apple Lossless, Wavpack, Dolby True HD
(MLP), DTS HD-Master Audio, Merging LRC.
328
Chapitre 7 Le
codage et la diffusion
Si les technologies Lossless sont plus frquentes en mode fichier, les codages de flux
doivent eux satisfaire la contrainte dencodage en temps rel tout en assurant une
constance de dbit.
7.4.3 DSD
Le Super Audio CD propos par Sony sappuie sur une technologie dchantillonnage
en format DSD (Direct Stream Digital) de type One-Bit 64Fs soit 2,88MHz (64 x
44,1kHz), appel aussi DSD64. Ce qui permet une bande passante extrme et lavantage dun filtrage simple lors de la conversion numrique-analogique, au dtriment des
performances en bruit et dynamique.
La production de SA-CD impose des convertisseurs et des stations de montage audionumrique particulires travaillant en DSD et non en PCM. Pour pallier cette limitation, la socit Merging propose le format DXD Digital eXtreme Definition, en 24 bits,
chantillonn 8Fs soit 353kHz et permettant un travail ddition pour DSD, sans
perte en rsolution.
7.5
Codages perceptifs
7.5 Codages
perceptifs
329
Couches et profils
Les formats MPEG sont des botes outils permettant de choisir un format avec de
nombreuses options de codage selon lusage. Les profils et les niveaux prsentent un
catalogue homogne et dterminent des configurations du format ce qui permet de
simplifier les dcodeurs qui nont pas supporter toute les variantes.
Les profils
Avec des appellations comme Simple Profile, Main Profile, High Profile, ils dfinissent un degr de complexit du codeur et du dcodeur donc les algorithmes et
options de codage possibles;
Les profils visent des applications spcifiques: HD, applications mobiles, etc.
Les niveaux (levels)
Les niveaux dfinissent un ensemble de paramtres de codage: ainsi pour laudio, le
type de dbit, les valeurs de dbit maximal, les frquences dchantillonnage
Les appellations des niveaux suivent aussi une terminologie dfinie, comme: Low
Level, Main level et High Level.
La notation gnralement utilise pour prsenter une combinaison de profil et de
niveau est par exemple pour le DVD, MP@ML signifiant Main Profile at Main Level.
MPEG 1
MPEG1 Layer 1 est une variante LC Low Complexity du codec MUSICAM faible
latence et optimis pour un dbit de lordre de 192kbit/s, utilis pour la diffusion
satellite.
MPEG2
A partir du MPEG1 layer 2, le format MPEG2, normalis en 1995 par lISO/IEC 13818part3, a ajout une extension multicanal avec matriage pour conserver une compatibilit de lecture avec les dcodeurs MPEG1. Le codage de 6 canaux est possible avec la
330
Chapitre 7 Le
codage et la diffusion
voie LFE qui est chantillonne Fs/96 soit 500Hz au lieu de 48kHz pour les autres
canaux.
Ce format fait partie de la norme DVD mais les codeurs MPEG2 multicanal nayant
jamais t disponibles pour les studios dauthoring, le format Dolby Digital a t gnralement utilis.
Un autre format normalis pour le MPEG2 en ISO/IEC 13818-part7 mais abandonnant
la compatibilit avec les dcodeurs MPEG1, est lAAC Advanced Audio Coding, aussi
appel MPEG2-NBC (non backward compatible). Cette non-compatibilit a permis une
amlioration importante: un codage AAC de 5canaux 320kbit/s est quivalent en
qualit un codage MPEG2 compatible MPEG1 layer3 640 kbit/s. Le but de lAAC, en
plus de lamlioration qualitative, est doffrir un ensemble de profils afin de rpondre
des applications diverses depuis 8kbit/s.
MPEG4-AAC
Dans la norme MPEG4, le format de codage audio est une volution de lAAC qui supporte un chantillonnage de 8 96kHz, des dbits de 16 576kbit/s et jusqu 48
canaux audio.
Lapport de lAAC repose sur les technologies suivantes:
filtrage MDCT;
deux possibilits de trames temporelles: courte de 128 et longue de 1024 chantillons;
temporal noise shaping;
backward adaptive linear prediction;
stro dintensit;
7.5 Codages
331
perceptifs
Version
profil
codage
Utilisation
AAC
AAC
AAC-LowComplexity
AAC+
HE-AAC
eAAC+
HE-AACv2
TV et radio numrique
HD-AAC
HD-AAC
Blu-Ray
Complment
Web 7.7
valuation comparative de versions AAC.
332
Chapitre 7 Le
codage et la diffusion
Ce codage eAAC +est compatible par un systme de transcodage, avec le DTS et Dolby
Digital, codecs que lon retrouve dans les amplificateurs AV, ce qui permet aux radios
de diffuser un format5.1 compatible avec le parc grand public existant.
7.5 Codages
333
perceptifs
Pour le cinma, ce signal est couch en analogique sur la pellicule, puis lu et dcod en
LCRS par un processeur cinma Dolby CP.
Lalgorithme est fig et ne modifie pas directement les canaux L et R mais ajoute le
canal du centre 3dB. Le canal arrire Surround, limit entre 100Hz et 7kHz et
dphas de 90 (surround phase shift), subit une rduction de bruit Dolby B puis est
somm dans les canaux de diffusion LtRt, en opposition de phase.
334
Chapitre 7 Le
codage et la diffusion
Lencodage est une matrice 6-5-2-5, le canal LFE peut tre intgr dans L et R, avant la
fabrication des canaux Lt Rt. Puis au dcodage, les cinq canaux L C R Ls Rs sont recrs
et le canal LFE est trait par Bass Management.
Dcodage adaptatif:
Il existe deux modes de dcodage: le mode movie garde les informations du canal
central dans le haut-parleur du centre et ne permet pas de rglage de postproduction
et le mode music qui propose des rglages pour la postproduction: divergence du
centre Center Width pour rpartir entre centre physique et centre fantme, quilibre frontal/arrire par le rglage Dimension et divergence vers les autres canaux
par le rglage Panorama.
Le dcodeur Dolby Surround Pro Logic2 offre une sparation infinie sur L, R et C,
S, et une meilleure sparation sur les canaux adjacents de 40dB contre 30dB pour le
Dolby Pro Logic1.
Les appareils professionnels DP570 et le DP564 et de nombreux amplificateurs AV et
tlviseurs intgrent les dcodeurs Pro Logic2.
7.5 Codages
335
perceptifs
Complment
Web 7.10
Dcodage adaptatif du Dolby Pro Logic 2, mode movie, mode music.
Steering
Les technologies de matriage reposant principalement sur les signaux communs et
diffrences, les performances de sparation entre canaux sont gnralement assez
faibles. Cet aspect est amlior par une technologie appele steering employe pour
le Dolby Surround et ProLogic: la diffrence de niveau entre canaux est amplifie dans
le canal le plus fort et attnue dans les autres canaux, ce qui accentue la sparation en
conservant une nergie globale quivalente.
Dolby Digital
Principe
Le Dolby Digital, de nom dorigine AC3, est un format de codage audio multicanal
discret (sans matriage), utilis pour la diffusion et devenu courant depuis larrive du
DVD. Cette technologie, apparue en 1992 avec la sortie du film Batman Returns, a
t prvue pour remplacer les matricages Dolby Stro/Dolby Surround. Utilis dans
la diffusion DVB, DVD, au cinma, dans les jeux vido (PS3, PS2, Xbox), la tlphonie
mobile, les tablettes numriques et la radio, le Dolby Digital permet la diffusion du son
multicanal5.1 et reste compatible mono, stro avec dcodeurs Pro Logic des amplificateurs AV. Il transporte la metadata de loudness qui permet duniformiser le niveau
de restitution des programmes, la metadata downmix qui optimise la compatibilit
stro et mono, et la metadata DRC (Dynamic Range Control) qui permet dadapter la
dynamique aux conditions dcoute.
Caractristiques
Le Dolby Digital comporte de 1 6 canaux et le channel mode prcise le nombre de
canaux transports avec le premier chiffre pour les canaux frontaux et le second pour
les canaux arrire et la lettre L dsigne la prsence du canal LFE: mode 3/2L pour le
5.1, mode 2/0 pour la stro et mode 1/0 en mono. Le canal LFE, filtr entre 3Hz et
120Hz, est chantillonn 240Hz. La rsolution est de 16, 20 ou 24 bits et les dbits
possibles vont de 32 kbit/s (mono) jusqu 640 kbit/s (5.1):
Cinma 320 kbit/s
DVB 384kbit/s
DVD 64 448kbit/s
Blu-ray 64 640kbit/s
336
Chapitre 7 Le
codage et la diffusion
Complment
Web 7.11
Tableau rsum des formats Dolby.
Dolby Digital
- Codec utilis pour le cinma, le DVB, les supports DVD et Blu-ray.
- Formats du 1.0 jusquau5.1.
- Intgre les metadata Dialnorm, DRC, Downmix.
7.5 Codages
337
perceptifs
en HDMI 1.3, il nest pas transportable dans une connexion numrique S/PDIF, sauf
transcodage pralable.
Dolby E
Principe et caractristiques
Le Dolby E est un flux professionnel de contribution, conu pour transporter jusqu
huit canaux audio 48kHz/20 bits, des mtadonnes et du time code dans une trame
PCM stro. Plusieurs rpartitions de programmes sont possibles: 8 1, 4 2,5.1 + 2.
La version la plus utilise, 5.1 + 2, transporte un mixage5.1 et une version stro LtRt
ou LoRo du programme.
Dolby annonce une intgrit de linformation jusqu 10 gnrations de codages. Les
interfaces audio numriques standards (AES/EBU, S/PDIF, SDI etc..) permettent de
transporter ces huit canaux, mais il est ncessaire de dcoder le signal pour tout traitement audio ou coute. Les magntoscopes numriques peuvent enregistrer du Dolby
E sur deux canaux en 20bits. Si lenregistrement est en format 16bits, seuls 6 canaux
peuvent tre cods.
Le Dolby E est synchrone limage, ce qui simplifie son traitement et permet le montage et la commutation: chaque trame du Dolby E correspond la trame vido en respectant un guard band qui garantit la protection contre la corruption des donnes
audio.
La commutation du signal doit se faire sur ces guard bands, pour assurer la validit
des donnes. De plus, le dcodeur Dolby E cre un crossfade dune dure de 5ms dans
la zone de recouvrement.
Afin dobtenir un bon alignement du Dolby E sur la trame vido, voici les valeurs des
numros de lignes du signal vido respecter:
338
Chapitre 7 Le
Guard
codage et la diffusion
Complment
Web 7.12
Structure de la trame Dolby E.
7.5 Codages
339
perceptifs
Chaque canal tant cod sparment, un canal peut tre remplac sans consquence
sur les autres canaux.
Temps de latence
Dolby E
- Flux professionnel de contribution intgrant jusqu 8 canaux sur des
infrastructures PCM stro.
- Plusieurs configurations de programmes, la configuration5.1 +2 la plus
usuelle intgre le programme multicanal et la version stro LtRt ou LoRo.
- Transport des metadata et du time code.
- Dbit 1920 kbps pour 8 canaux en 48kHz.
- Synchrone limage: la trame du Dolby correspond la trame vido.
- Temps de latence: lencodage ou le dcodage Dolby E prend une image.
Dolby Pulse
Suite au rachat en 2007 de la socit Audio Coding Technologies par Dolby, le format
Dolby Pulse a t propos pour des applications bas dbit. Ce codage compatible avec
les metadata Dolby fonctionne partir des codecs AAC, HeAAC et HeAACv2.
7.5.3 Famille DTS
Le Digital Theater System a dmarr en prsentant un systme de lecture optique sur
CD synchronis avec un projecteur cinma, utilisant un codec apt-X avec audio5.1 en
44,1kHz et 16 bits.
340
Chapitre 7 Le
codage et la diffusion
7.5 Codages
341
perceptifs
DTS Neural Surround: downmix et upmix pour transport jusquau7.1 dans un flux
stro.
Complment
Web 7.16
Autres exemples:
11.1 ou 13.1 Auro-3D et mixage5.1, transports par un fichier PCM5.1 cod en
Auro-3D pour le DCP ;
Mixage5.1 et 2.0 stro, transports par un fichier PCM stro cod en Auro-3D
pour le broadcast ;
Mixages7.1 et5.1, transports par un fichier PCM stro cod en Auro-3D pour le
Blu-ray et le DCP ;
9.1 Auro-3D et mixage5.1, transports par un fichier PCM stro cod en Auro-3D
pour le broadcast ;
Le dcodage Auro-3D implique une latence de trois chantillons, soit 60 s pour un
signal 48kHz. Les principales mtadonnes sont:
information des flux audio multiplexs ;
342
Chapitre 7 Le
codage et la diffusion
Le premier Pure Audio Blu-ray compatible Auro-3D 9.1 en 96kHz est sorti lt 2012
chez 2L, cest un enregistrement de lorchestre de chambre norvgien TrondheimSolistene. Le disque comporte aussi les flux7.1 (96kHz/24 bits),5.1 (192kHz/24 bits) en
DTS Master Audio ainsi quune stro PCM (192kHz/24 bits), la source de lenregistrement tant au format DXD, soit 352,8kHz/24 bits.
7.5 Codages
perceptifs
343
Les quipements Blu-ray utilisent la norme HDCP qui tablit un change dinformations entre deux appareils connects et qui impose de nenvoyer la meilleure qualit de
flux audio ou vido qu un appareil sannonant aussi HDCP. Les sorties non protges sont limites un dbit rduit : une sortie audio numrique est dgrade par
exemple 48 Hz et 16 bits.
Le cinma numrique propose une norme de protection de contenu DCP qui dfinit les
formats des mdias, des descripteurs et aussi les clefs de protection KDM sur 128 bits,
qui sont ncessaires au dcodage des contenus MXF crypts.
Watermarking
La technologie du tatouage, Watermarking, a pour but de signer un contenu audio
afin de suivre sa diffusion, den authentifier son contenu ou didentifier les ayants
droit.
Ce marquage, sans altrer la nature du signal, doit tre suffisamment robuste pour
rsister des traitements du signal en cascade tels que les conversions numriques
analogiques, les traitements dynamiques ou frquentiels et, bien entendu, les codages.
Ces impratifs sont videmment contradictoires: un codage tant prvu pour enlever
la partie inaudible du signal, comment le marquage pourrait-il rsister?
Diffrentes technologies sont susceptibles dtre utilises et souvent talent les informations ajoutes soit dans le domaine temporel, soit dans le domaine frquentiel: les
effets de masquage sont alors mis profit pour cacher ces modifications. Parmi les
diverses possibilits, on trouve:
Codage des LSB: des bits de poids faible peuvent tre rservs au watermarking
indpendamment du signal audio. Cette technique manque de robustesse: elle est
dgrade par la plupart des traitements audio;
Codage par modulation de la phase: la perception auditive tant peu sensibles la
phase, le signal peut tre modul en phase soit temporellement soit par bande de
frquence;
Echo hiding: le signal dorigine est rajout lui-mme, attnu et dlay. Ces
chos sont auditivement masqus mais les dlais sont analysables par calcul
dauto-corrlation et reprsentent linformation de tatouage;
la technique de spread spectrum watermarking qui est laddition dun signal de
bruit faible niveau mais rparti sur une bande de frquence tendue. La rpartition
du tatouage est importante pour cacher ce marquage, rduire le risque daudibilit
et amliorer la robustesse aux traitements ultrieurs.
344
Chapitre 7 Le
codage et la diffusion
faon synchrone. Chaque type de donnes occupe alternativement une place dans le
train des donnes. Il est aussi possible, comme pour le DVD, le Blu-ray ou les transmissions satellites, de multiplexer plusieurs flux de type identique: plusieurs programmes
vidos par exemple associs aux flux audio correspondant.
Formats de multiplexage MPEG
Elementary stream: (.mpv, .mp2, .mpg), ce format ne contient quun type de donnes soit audio soit vido ;
le Program Stream (MPEG-PS) est un format de flux ou de fichier multiplex vido
+audio comprenant les informations de code temporel. Ce multiplexage qui peut
comprendre plusieurs flux audio-vido est utilis en tant que conteneur VOB dans
les DVD. Les fichiers sont gnralement pourvus des extensions .mpg, .mpeg ou .ps ;
le Transport Stream (MPEG-TS) est aussi un format multiplex vido +audio mais
plus robuste que le Program Stream vis vis des erreurs de transmission, donc
particulirement adapt la diffusion. Ce format est aussi prsent sur les disques
Blu-ray. Quand le Transport Stream est prsent en tant que fichier, les extensions
gnralement utilises sont .ts, .m2ts ou .m2t.
Structures logiques
Indpendamment du format physique dun support, les donnes sont organises selon
des structures logiques qui peuvent tre totalement diffrentes. Ainsi, la normalisation
du CD-Audio (Red Book) est antrieure lutilisation des ordinateurs personnels:
un ordinateur ne comprend pas cette structure et ne peut pas prsenter un CD audio
comme une arborescence de rpertoires et de fichiers. Le CD-ROM (Yellow Book),
cr plus tard, a la mme structure physique que le CD-Audio mais possde une structure logique compatible avec les systmes informatiques. Les supports ultrieurs DVD,
7.5 Codages
perceptifs
345
Blu-ray, ont t prvus selon des normes ISO-UDF assurant la compatibilit avec les
principaux systmes informatiques ou plateformes de jeux.
CD DTS
Le CD dorigine contient deux canaux audio en 16 bits 44,1kHz. La socit Digital
Theater System a propos un format presque conforme au standard Red Book, mais
avec le son cod en apt-X (dbit de 1234kbit/s pour un format5.1) pour encoder un
signal multicanal. Si le lecteur nintgre pas de dcodeur DTS, sa sortie analogique est
inutilisable et il faut envoyer le signal numrique par une sortie optique ou coaxiale
vers le dcodeur.
DVD
Le DVD, premier standard grand public avec format multicanal, a connu un succs
considrable amenant limage la qualit et la facilit demploi que le CD audio a
apport au son.
Deux propositions, le MMCD (Multimedia CD) de Sony et Philips et le SD (Super Density) dun consortium concurrent comprenant Toshiba, se sont opposes avant dopter
pour un format unique en 1995, le DVD (Digital Versatile Disc), versatile pour
signifier que ds la dfinition du format, diffrentes dclinaisons taient prvues.
Un ensemble dvolutions marquantes a permis ce format:
lamlioration technologique des supports optiques, la densit dinformation est
multiplie par 5 par rapport au CD;
346
Chapitre 7 Le
codage et la diffusion
le format vido MPEG2 conserve une trs bonne qualit dimage en divisant le dbit
par 50 par compression spatiale intra-image et compression temporelle supprimant
les redondances entre images;
les codages audio MPEG, Dolby Digital ou DTS autorisent une rduction de dbit
jusqu un facteur 10;
la norme DVD arrivant alors que le parc informatique est dj trs large, sa structure
a t choisie pour tre compatible avec la plupart des systmes dexploitation.
Possibilits du format
Les caractristiques du DVD permettent jusqu 2heures de vido, une possibilit de
vido multi angles (jusqu 9 angles), et 8flux audio. Un flux se dfinit par son format
(LPCM, MPEG, Dolby Digital, DTS...) et par le nombre de canaux (de 1 8).
Codes et protections
Les protections sont optionnelles: il sagit dun choix dditeur et non dun choix
technique.
Code rgional: Cette notion de zone permet une mise sur le march des titres respectant la chronologie des mdias propre chaque pays, 8zones gographiques sont
dfinies, indpendamment du format vido PAL ou NTSC.
Protections contre la copie: la protection contre la copie est prsente dans la norme
par trois systmes dont le principal est le CSS Content Scrambling. Les donnes audio/
vido sont cryptes et une clef en 40bits prsente dans le lecteur permet le dcryptage.
Laudio du DVD Vido
Un flux5.1 en PCM 48kHz et 20bits occupe 5.76Mbps soit autant quun flux vido de
dbit moyen. Pour rduire le dbit audio et ne pas trop perdre en dure de programme
sur le DVD, diffrentes solutions ont t prvues:
codage MPEG1 layer 2 ou MPEG2 : de la monophonie jusquau format 7.1, trs
peu utilis parce que les encodeurs nont jamais t disponibles pour les studios
dauthoring;
Dolby Digital avec des possibilits allant du 1/0 (mono) jusquau 3/2 + 1 (5.1 surround) et un dbit entre 92kbit/s et 448kbit/s en 48kHz avec mtadonnes renseignes lencodage et permettant la gestion de la dynamique;
DTS: format en 48kHz ou 96kHz, 24bits avec dbit 754 ou 1509 kbps, incluant
aussi la gestion de mtadonnes. Le DTS tant optionnel, un autre format doit, en
principe, tre prsent (MPEG ou PCM avec une vido PAL, Dolby ou PCM avec une
vido NTSC);
Le format PCM est possible jusqu 8 canaux en 48 ou 96kHz, 16, 20 ou 24 bits. Mais
le dbit maximal pour laudio tant dfini par la norme DVD 6.144 Mbs, la limite
est de 8 canaux 48kHz, 20 bits ou 2 canaux 96kHz, 24 bits.
7.5 Codages
perceptifs
347
Remarque: lchantillonnage 96kHz fait partie de la norme et donc tous les lecteurs
DVD lisent ce format mais sans obligation ce que la sortie numrique dlivre effectivement du 96kHz.
DVD-Audio
Le DVD-Vido favorisant plutt limage, un format plus orient vers le son a t
dfini: le DVD-Audio. Le DVD Vido limitant le dbit audio 6.144 Mbps, le DVDAudio permet un dbit de 9.6 Mbps. Les frquences dchantillonnages possibles sont
44.1/48/88.2/96/176.4/192kHz en 16/20/24 bits. Une rduction de dbit sans pertes
Packet PCM de type MLP (Meridian Lossless Packing) est possible pour 8 canaux MLP
en 96kHz, 24 bits par exemple. Les canaux peuvent tre spars en deux groupes et
utiliser des frquences et quantification diffrentes pour chaque groupe: par exemple,
gauche, droite et centre 192kHz, 24bits et le second groupe (surround et subwoofer)
en 48kHz, 24 bits.
Une fonction SMART permet de prdfinir lauthoring une table des coefficients de
rduction en stro (downmix). Autre diffrence par rapport au DVD-Vido, la possibilit de diaporama (nomm ASV pour Audio Still Video): en lisant continuellement
le flux audio, on peut naviguer entre des images fixes (textes, biographie...) de faon
squentielle ou alatoire.
Malgr sa compatibilit technique avec les systmes DVD-vido existants de stations de
montage, lignes de mastering et pressage, ce format na pas eu de succs commercial.
Super Audio CD
Les disques SA-CD utilisent un format One-bit sigma-delta 2,8224MHz dnomm
DSD (Direct Stream Digital). Ce procd permet une bande passante trs leve et
la possibilit dutiliser un filtre passe-bas minimal en lecture. Par contre, le rapport
signal/bruit est moins bon quen PCM mais par lutilisation de noise-shaping rejetant le
bruit de quantification dans les hautes frquences, une dynamique de lordre de 120dB
peut tre obtenue. Cette technologie impose lutilisation de matriels spcifiques dans
lensemble de la chane depuis la prise de son jusquau pressage. En pratique, un passage en PCM est frquent en mixage ou montage.
Jusqu six canaux (format5.1) en format DSD sont permis sur ce support. Comme il
ny a pas de matrice de downmix, les pistes stro sont prsentes indpendamment des
pistes multicanal.
La protection anti-copie est prsente sous plusieurs aspects:
ces disques ne sont pas lisibles par un ordinateur;
il nexiste pas de graveur pour flux DSD;
un encryptage des donnes avec la clef inscrite sur le disque et lisible seulement par
un lecteur agr;
348
Chapitre 7 Le
codage et la diffusion
par construction, un lecteur Super Audio CD noffre pas de sortie numrique pleine
rsolution.
La fabrication est gnralement en double couche hybride collant une couche SA-CD
et une couche CD. La couche CD est lue travers la couche SA-CD semi-transparente.
Blu-ray Disc
Comme souvent, une bataille de format a prcd ladoption du format: Blu-ray (Sony)
contre HD-DVD (Toshiba et Microsoft).
Grce un laser bleu-violet et une gravure bien plus fine que pour le DVD, la densit
dinformation est 10fois plus importante et le dbit maximal 5fois suprieur (54Mbps
au lieu de 10Mbps).
Rsumons lapport de cette technologie par rapport au DVD:
Vido HD en dfinition 1920x1080 aux formats MPEG2, MPEG4-AVC ou VC1;
augmentation de la capacit de stockage jusqu 50Go;
nouvelles fonctionnalits dinteractivit (diaporama, animation des menus, programmation BD-java, liens vers internet avec BD-live);
Protection anti-copie Advanced Access Content System (AACS) et BD +, cryptographie dynamique (physique);
watermarking ROM-Mark vitant la copie vers un disque BD enregistrable;
Protection HDCP;
Un choix important de formats audio multicanal: LPCM, Packed PCM (lossless)
et codages avec pertes.
Dolby et DTS ayant propos diffrents formats de codage avec/sans pertes afin de satisfaire les besoins de qualit ou de dure, voici les formats autoriss pour le maximum
de canaux:
Format
Version Dolby
Version DTS
PPCM 8 canaux
Dolby True HD
Dolby Digital
Dolby Digital +
LPCM 8 canaux
Des versions enregistrables sont disponibles en BD-R (enregistrable une seule fois) et
BD-RE (r-enregistrable). Si la finalit est larchivage, il faut rester prudent quand aux
dures de vie, en particulier pour les versions r-enregistrables.
7.5 Codages
perceptifs
349
Supports bandes
Les bandes ne sont plus prsentes ni en grand public ni en professionnel: les formats
multicanal ADAT et TDIF (8 pistes Tascam) ne sont plus utiliss. En vido, les cassettes
Digital Betacam, 4 canaux audionumriques en 48kHz et 20 bits, compatibles avec le
format multicanal Dolby E sont remplaces par des fichiers.
Connexions
Vous trouverez ci-aprs une liste non exhaustive de standards grand public et professionnels utiliss en multicanal.
S/PDIF et TOSlink
350
Chapitre 7 Le
codage et la diffusion
Les formats Dolby Digital et DTS, transportables dans un format PCM stro, sont
compatibles avec les liaisons S/PDIF ou TOSlink condition que le rcepteur sache
dcoder le flux.
AES
Le format professionnel AES3, dfini aussi par la norme IEC60958, est similaire au S/
PDIF mais avec tension nominale de 5V par liaison symtrique 110 Ohms ou par liaison asymtrique sur connecteur BNC en 75 Ohms.
ADAT
Le format Alesis Digital Audio Tape a t utilis pour des enregistreurs et permet de
vhiculer 8 canaux en 48kHz/24 bits sur liaison optique ADAT Lightpipe identique
physiquement celle utilise pour le TOSlink.
DTRS
Laudio multicanal est souvent transmis comme un signal AES dans les VANC (Vertical
Ancillaries Data) dun signal vido SDISerial Digital Interface, SD, HD ou 3G.On
parle de signal audio embedd qui signifie intgr qui peut transmettre jusqu
16 canaux audio 48kHz, 24 bits. Ces signaux sont prsents par 4 groupes de 2 AES
7.5 Codages
351
perceptifs
chacun (4 canaux). Dans un signal HD, les groupes peuvent tre diffrents en frquence
et en quantification.
Les signaux Dolby E, tant compatibles avec les trames AES, peuvent tre contenus
dans un ou plusieurs groupes, chaque groupe pouvant contenir la fois des flux AES
comme des flux Dolby E.
HDMI High Definition Multimedia Interface
Cette norme dinterfaage entre appareils grand public permet de transporter vido
et audio numriques multiplexs et crypts ainsi que des informations de commande.
La protection HDCP (High-bandwidth Digital Content Protection) agit en empchant
lmetteur de transmettre en pleine dfinition si le rcepteur nest pas conforme cette
norme. Nombreux sont les formats audio pouvant tre transmis en HDMI.
Complment
Web 7.17
Dunod Toute reproduction non autorise est un dlit.
7.5.11 Diffusion
Fichiers audio
Sur support informatique, les donnes audio, dans les diffrents formats physiques et
logiques, sans ou avec codage perceptif. sont prsent en tant que fichiers.
Un fichier LPCM peut tre sous format brut, .pcm ou .raw mais plus souvent en .wav ou
.aif, formats qui ont lavantage de contenir aussi les informations de frquence dchantillonnage, quantification, nombre de canaux, paramtres qui facilitent la lecture. Plus
prcisment, le format WAV est un conteneur (voir ci-dessous) de type RIFF.
352
Chapitre 7 Le
codage et la diffusion
LEBU a normalis le standard BWF par le document Tech-3285, qui constitue une
extension du format WAV avec ajout des mtadonnes et dun code temporel pour
faciliter la liaison avec la vido dans les stations de montage. La version RF64 permet
de surmonter la limitation 4 Go du format BWF de base. noter quun fichier BWF
peut aussi contenir de laudio cod en MPEG.
Formats Conteneurs
Un format conteneur (wrapper ou container en anglais) dcrit et contient un
ensemble de donnes organises. Les conteneurs sont utiliss pour des donnes multimdias laide de codecs normaliss accompagns de mtadonnes auxiliaires comme
le sous-titrage, le chaptrage, le time code, etc. Les principaux formats conteneurs
actuels sont wav, avi, Quicktime, MXF, Ogg, VOB, MKV. Il faut bien comprendre que
le conteneur nest pas un codec et ne contient pas le codec mais donne linformation
sur le codec utiliser pour la lecture.
En postproduction ainsi que dans les normes du cinma numrique, le conteneur MXF
(Material eXchange Format) est gnralement utilis. Les flux contenus sont appels
essences. Ce conteneur inclut les informations de code temporel ainsi que des mtadonnes. Le format MXF est complexe et a connu des problmes de compatibilit et dchange
qui, depuis la redfinition de la norme en 2009, ont t majoritairement rsolus.
En couche 1 OSI: A-Net, SuperMac, Rocknet, laudio utilise le cblage Ethernet mais
pas son routage ;
En couche 2 OSI: Cobranet, Ethersound, AES51, AVB laudio est encapsule dans
des trames Ethernet ce qui permet souvent dutiliser une partie de linfrastructure
rseau (commutateurs par exemple).
7.5 Codages
perceptifs
353
En couche 3 OSI: Dante, Ravenna, Q-LAN, Livewire,laudio est prsente dans des
paquets IP, gnralement en UDP, ce qui assure une bonne compatibilit avec une
structure locale mais empche un routage internet.
On peut donc globalement distinguer laudio sur Ethernet (AoE) et laudio sur IP (AoIP)
qui occupent deux couches OSI diffrentes.
Les protocoles se diffrencient par de nombreux paramtres:
Tlchargement et streaming
Les rseaux informatiques privs ou publics (LAN, internet) permettent deux types
dchanges de donnes audio: le tlchargement et le streaming.
Le tlchargement est une transmission asynchrone de donnes qui nest pas soumise
aux contraintes de lcoute en temps rel et permet dchanger, plus ou moins rapidement nimporte quel format compress ou non.
Par contre, le streaming, une diffusion en flux, est limite par la bande passante disponible, do des contraintes sur le dbit et donc sur le format des donnes.
354
Chapitre 7 Le
codage et la diffusion
7.5 Codages
355
perceptifs
Objets sonores: le signal dune piste peut tre rpartie dynamiquement par le
processeur audio dans les canaux de diffusion selon des mtadonnes inscrites dans
le flux et selon la configuration, nombre et emplacements des haut-parleurs;
Scnes : le concept High Order Ambisonics HOA simule prcisment le champ
acoustique par un ensemble rduit de vecteurs de pression.
Les propositions en partie bases sur ces concepts, sont:
Barco Auro-3D: du 9.1 au 13.1, ce codage propose une dimension verticale en rajoutant en hauteur des canaux frontaux et surround ainsi que des canaux de plafond,
avec empaquetage et compatibilit dans un flux LPCM de 6 canaux et solution dupmix;
Dolby Atmos avec comme canaux supplmentaires: Lc et Rc en canaux dcran
centraux, des canaux Side surround, deux ranges de canaux au plafond et un bassmanagement des surrounds avec 2 SUB arrire. Le format est variable selon la taille
de la salle, avec un rendu sur 64 enceintes maximum. Dolby a rachet le procd
Imm Sound qui permettait un dploiement de formats 14.1 23.1 avec au moins 3
canaux de plafond, les canaux supplmentaires permettant un placement plus fin
des sources sonores;
Iosono 3D : bas sur la technologie WFS Wave Field Synthesis, avec rendu de
64 sources sur 128 canaux au maximum;
DTS MDA: un format ouvert avec audio lossless et la possibilit dintgrer pistes,
objets et scnes.
Complment
Web 7.18
Processeurs de cinma
La chane de traitement comprend un serveur de lecture comme le Doremi DCP-2K4
ou le Dolby DSS200, qui dcryptent et dcodent les fichiers vido, audio, sous-titrage
pour les envoyer vers le projecteur d-cinma et le processeur audio.
Les fonctions du processeur audio sont les suivantes:
356
Chapitre 7 Le
codage et la diffusion
possibilit dinsrer un autre traitement de dcodage externe pour les formats non
pris en charge nativement;
gestion des niveaux;
commandes externes (pilotage, GPIO).
Quelques exemples de processeurs audio rpandus:
Dolby CP850, le successeur du CP750, propose un dcodage Atmos;
Datasat AP20: avec correction par processeur Dirac-Live, travaillant en convolution
base sur des mesures audio releves en plusieurs points de la salle;
le processeur Trinnov Ovation permet une galisation fine par convolution du signal
audio aprs mesures acoustiques mono ou multipoints.
Jeux vido
Depuis les flippers, les machines sous puis les premiers jeux lectroniques, le son a
toujours eu une place importante dans les sensations du jeu. En ralit virtuelle, laudio
est un lment fondamental de limmersion et du ralisme. De plus, la musique et
les effets dans les jeux vido sont dynamiques: le rythme, les timbres, la localisation
sont lis lvolution de la partie et appuient linteractivit. Les sources virtuelles et
lenvironnement sonore participent incontestablement la qualit perue et une bande
multicanal reprsente un atout incontestable pour la russite dun jeu.
Certaines consoles de jeu sont conues pour supporter nativement des formats multicanal. Par exemple, la console Wii admet le Dolby Pro Logic II, la Xbox 360 supporte
le Dolby Digital et la PlayStation 3 est prvue pour le Dolby TrueHD et le DTS-HD,
jusquau7.1 et 192kHz. La console portable PSP dispose dun traitement audio 3D.
Certains tlphones portables sont suffisamment puissants en traitement DSP pour
intgrer la lecture de flux multicanal et les diffuser sur casque ou haut-parleurs intgrs, avec ventuellement un traitement transaural.
La plupart des jeux rcents sur ordinateur sont crs en multicanal, mais les qualit
dimmersion et de ralisme dpendent des possibilits des cartes son et du nombre
denceintes acoustiques. Dans ce domaine, les traitements de rematriage peuvent
savrer intressants et le joueur tant une place fixe devant lcran, les technologies
de spatialisation transaurale proposent une excellente immersion auditive avec seulement deux haut-parleurs.
7.5 Codages
357
perceptifs
Pistes
Affectation
standard
en 7 canaux
max.
48kHz, 24bits
1130kbps
L R C LFE Ls Rs
LCR
Ls Rs LFE
48kHz, 24bits
1152kbps
C L R Ls Rs LFE
LCR
Ls Rs LFE
4.0
Lt Rt
LCR
S
Matric
5.0
Lt Rt
LCR
Ls Rs
Dolby Digital
Perceptif
5.1
48kHz, 24bits
640kbps
L C R Ls Rs LFE
LCR
Ls Rs LFE
Dolby EX
Perceptif,
matric
7.1
48kHz, 24bits
640kbps
L C R Ls Rs LFE
LCR
Ls Cs Rs LFE
Perceptif
7.1
(13.1)
48kHz, 24bits
6Mbps
L C R Ls Rs LFE
LCR
Ls Cs Rs LFE
Dolby True HD
Sans
pertes
7.1
(14.0)
192kHz, 24bits
18Mbps
L R C LFE Ls Rs
LCR
Ls Cs Rs LFE
DTS
Perceptif
5.1
48kHz, 24bits
1509kbps
C L R Ls Rs LFE
LCR
Ls Rs LFE
DTS2496
Perceptif
5.1
96kHz, 24bits
1509kbps
L R C LFE Ls Rs
LCR
Ls Rs LFE
DTS-ES
Perceptif
6.1
48kHz, 24bits
1509kbps
L R C LFE Ls Rs Cs
LCR
Ls Cs Rs LFE
DTS Express
Perceptif
7.1
48kHz, 24bits
512kbps
L R C LFE Ls Rs
Lb Rb
LCR
Ls Rb Lb Rs
LFE
DTS-HD High
Resolution
Perceptif
7.1
192kHz, 24bits
6Mbps
L R C LFE Ls Rs
Lb Rb
LCR
Ls Rb Lb Rs
LFE
DTS-HD Master
Audio
Sans
pertes
7.1
192kHz, 24bits
24.5Mbps
L R C LFE Ls Rs
Lb Rb
LCR
Ls Rb Lb Rs
LFE
Sony SDDS
Perceptif
7.1
44.1kHz, 20bits
2.2Mbps
L Lc C Rc R LFE
Ls Rs
L Lc C Rc R
LFE Ls Rs
Codage multicanal
Codage
Format
MPEG Multichannel
(MPEG1 layer 2
extended)
Perceptif
5.1
MPEG2 AAC-LC
MPEG4 HE-AAC
Perceptif
7.1
Dolby Surround
ProLogic
Matric
Dolby ProLogic II
Echantillonnage
et dbit max.
Chapitre 8
Exploitation Son
Broadcast, supports,
nouveaux mdias
Points
essentiels
- Normes PAD TVHD, mesure des niveaux, recommandations CST, EBU, R128.
- Exploitation des outils de mesure et de traitement broadcast 5.1 :
traitement loudness, gestion des metadata, upmix de diffusion.
- Les formats DTS pour le support, DTS Neural.
- Diffusion 5.1 et binaurale pour les nouveaux mdias.
La phase de mixage multicanal saccompagne de mtadonnes (metadata) qui facilitent la diffusion et permet une meilleure matrise de celle-ci chez le particulier.
Ces metadata, associes principalement au flux Dolby Digital, se retrouvent sur le
support home-cinma DVD, Blu-ray et sont notamment prsentes dans la diffusion
360
broadcast mais ne touchent pas le secteur du cinma. Ces mtadonnes transportent la mesure loudness du programme afin dharmoniser les niveaux entre
diffrents programmes ou diffrentes chanes. Elles permettent ladaptation au lieu
dcoute domestique travers des profils dynamiques que lon peut attribuer au
programme ainsi quelles traitent de la compatibilit stro et mono par des coefficients de downmix.
8.1
8.1 La
chane dexploitation
Broadcast
361
362
dcoute. Les metadata sont transportes dans chacune des trames, travers les interfaces AES ou SPDIFF. Elles jouent un rle de description du contenu audio et servent
aussi contrler le signal audio lors du dcodage. Ces metadata sont renseignes par
le mixeur du programme et sont utilises au dcodage, combines avec le rglage de
lcoute de lutilisateur sur lamplificateur AV home-cinma (Bass management, ajustement optionnel des metadata loudness et DRC). La premire metadata, le Dialnorm,
porte la valeur de loudness du programme, la deuxime, les DRC (Dynamic Range
Control), intgre des profils de compression dynamique et la troisime, le Downmix,
permet la compatibilit stro et mono du signal.
Dialnorm
Le Dialnorm est la metadata qui porte la valeur de loudness du programme, cest--dire
le niveau moyen mesur sur toute la dure du programme (voir mesure du Loudness).
Le plus souvent, cest le niveau de la parole qui sert de rfrence, do le nom de Dialog
level. On distingue donc, le Dialog level qui mesure le niveau moyen des dialogues dun
programme de type film, du loudness, qui mesure le niveau moyen dun programme
sans dialogue sur toute sa dure. La metadata Dialnorm sera un Dialog level pour la
mesure dun film, dun documentaire, elle sera un loudness pour la mesure dun programme musical ou une publicit.
Nous aborderons les metadata Dolby par la mesure loudness telle quelle a t pense
par Dolby lorigine, cest--dire le Dialog level. Nous verrons ultrieurement que la
metadata Dialnorm en Europe se mesure depuis 2011-2012 suivant la norme de loudness EBU R128.
Voici ci-dessous la reprsentation de niveaux de loudness (mesure du Dialog level
Dolby) de programmes courants:
8.1 La
chane dexploitation
Broadcast
363
- 18 dBFS, le niveau crte max est +13 dBu ou - 9 dBFS ou 0 crte, lcart rfrence/
crte est donc de +9dB, cest une valeur trs rduite.
De lanalyse des films les plus dlicats, Dolby prconise une valeur moyenne de loudness de - 31 dBFS (31dB au-dessous du niveau de loudness maximal 0 dBFS) mesur
avec la pondration K soit -31 LKFS (voir paragraphe mesure du loudness). Cette
valeur permet dexprimer pleinement toute la dynamique du programme, notamment
sur les passages daction (forts transitoires, explosions).
Lorsquon mesure le Dialnorm dun programme, prenons - 24 LKFS par exemple, le
dcodeur Dolby Digital appliquera alors la diffusion une attnuation de 7dB pour
restituer le programme la valeur moyenne de - 31 LKFS. Pour un programme de - 21
LKFS, le dcodeur appliquera une attnuation de 10dB, ainsi de suite. Les programmes
- 31 LKFS ne seront pas attnus et seront diffuss tels quels.
On dfinit donc le Dialnorm comme suit.
31 +Dialnorm =attnuation applique
La diffusion Dolby Digital des programmes courants sera la suivante, tous les programmes sont ramens - 31 LKFS avec leur dynamique originale prserve:
364
5.1. Le dcodeur alimente une sortie remodule RF analogique en mono, une sortie
analogique stro ou LtRt compatible Dolby Surround sur Pritel, une sortie numrique stro PCM sur coaxial, optique ou HDMI (stro et5.1) et enfin une sortie5.1
numrique Dolby Digital sur coaxial ou optique ou HDMI.
DRC
Les divers environnements dcoute domestiques introduisent de nombreuses
contraintes pour la dynamique de reproduction. La dynamique acceptable dans un
salon est limite par sa taille, son isolation, les bruits environnants. Dautre part, suivant la nature du programme, lheure, les conditions dcoute ou simplement ses gots
personnels, un auditeur ne dsirera pas bnficier de la mme dynamique. Au lieu de
compresser le signal audio pour quil se comporte au mieux sur les plus mauvais systmes dcoute, une metadata appele DRC est vhicule dans le Dolby Digital jusquau
dcodeur, ce dernier applique alors le profile de compression renseign par le mixeur
afin de rduire la dynamique du signal.
Les profils de traitement dynamique associs la metadata DRC, compressent des
taux variables les hauts niveaux et relvent les bas niveaux. Le seuil de compression est
la valeur renseigne dans le Dialnorm, do limportance de bien lindiquer pour viter
une dtrioration du signal.
La plupart des dcodeurs Dolby Digital offrent la possibilit dactiver ou de dsactiver les DRC, mais certains ne le permettent pas. Tous les dcodeurs avec sorties5.1
discrtes le proposent gnralement. Les dcodeurs avec sorties stro, mono, ou RF
remodule sur les lecteurs DVD ou set-top boxes activent automatiquement la metadata
DRC en sortie analogique. On peut cependant rcuprer le flux Dolby Digital numrique et le dcoder sur un ampli home-cinma plus complet.
Le flux Dolby Digital transporte deux profils de compression suivant les deux modes
Line mode et RF mode. Ces modes sont identifis par le type de sortie que le dcodeur
alimente. Gnralement, le Line Mode gre les sorties de niveaux lignes sur les dcodeurs en5.1 ou stro, le RF mode est associ aux dcodeurs qui alimentent une entre
mono RF/antenne dun tlviseur.
Les dcodeurs avancs proposent dactiver ou dsactiver les DRC et de slectionner
le Line mode ou le RF mode. Gnralement, les options proposes sont off, light
compression et heavy compression pour dsigner pas de compression (DRC dsactivs), Line mode, et RF mode. Sur les dcodeurs complets lutilisateur pourra mme
rgler par lui-mme le taux de compression des hauts et bas niveaux (mode Custom
DRC). Le RF mode est gnralement associ un profil de compression importante
pour alimenter les coutes avec des enceintes de petite dimension, pour les ordinateurs
portables, ou les tlphones portables.
Les sorties lignes analogiques sur connecteurs RCA des lecteurs DVD, des set-top
boxes, des tlvisions, des amplificateurs AV sont associes au Line mode.
8.1 La
chane dexploitation
Broadcast
365
Lors du dcodage du flux Dolby Digital et quel que soit le mode choisi, la normalisation
du dialogue se fait chaque fois et en premier. Lorsque le programme est ajust au bon
niveau la compression sapplique. Normalement (sauf si erreur dans le renseignement
des mtadonnes) la Null Band du profil DRC doit tre centre sur la valeur de
Dialogue Level (- 31 LKFS dans tous les dcodeurs Dolby Digital).
DRC:
dynrng et compr
La compression DRC fonctionne par blocs audio, dont le niveau est contrl
par des variables dynrng et compr. La variable dynrng correspond un
fonctionnement du dcodeur en Line Mode. Ainsi, chaque bloc audio
(5,3ms) une valeur de dynrng indique le gain appliquer au bloc concern.
Ce gain peut varier entre +/- 24dB avec une rsolution de 0,25dB. La
variable compr correspond un fonctionnement du dcodeur en RF Mode.
Le mot compr est envoy non pas chaque bloc, mais chaque trame
(32ms). Il commande un gain de +/- 48dB avec une rsolution de 0,5dB.
En mode5.1, lutilisateur choisit de dsactiver les DRC et profite pleinement de la dynamique du programme, ou de les activer avec le Night mode (light ou heavy, soit Line
Mode ou RF Mode). En revanche, en sortie stro downmix, les DRC sont automatiquement activs, avec le profil RF mode.
Le RF mode associe une compression permanente des hauts et bas niveaux, il limite
les crtes, avec un gain de +11dB pour tre conforme aux niveaux transports en
tlvision analogique RF. Le dialogue, rgl suivant la valeur de Dialnorm - 31 LKFS
et combin avec le changement de gain de +11dB, est reproduit au niveau constant
de - 20 LKFS.
366
Profils DRC
Il existe six profils DRC: film standard, film light, music standard, music light, speech
et none.
8.1 La
chane dexploitation
Broadcast
367
Comme indiqu sur la figure8.7, les profils comportent tous une zone linaire appele
la Null Band o le gain est unitaire, il ny a pas de compression. Cette zone, centre
sur la valeur du Dialog level, est plus ou moins large suivant le rglage choisi. Ainsi, si
la valeur du Dialog level est correctement renseigne par loprateur, la compression
du signal sera cohrente. De part et dautre de la Null Band, une compression est
applique afin de rduire les forts niveaux et de remonter les bas niveaux. Les paramtres pour ces deux oprations dpendent du profil choisi mais sont dfinis sur le
mme modle: un rglage pour lamplification des bas niveaux (Boost Range) et
deux rglages pour lattnuation des forts niveaux (Early Cut Range avec un rapport
2: 1 et Cut Range avec un rapport 20 : 1). Le sixime choix est None, soit aucun
profil DRC slectionn. Cependant cela nempche pas de rduire la dynamique pour
viter les saturations lors des downmix.
Downmix
La metadata Downmix permet la diffusion travers le flux Dolby Digital vers tous
les formats dcoute: stro, mono et LtRt compatible Dolby Surround. Le flux Dolby
Digital est transmis en5.1, il assure une compatibilit stro par une opration de
Downmix qui consiste sommer les canaux arrire en phase dans le mode LoRo ou
hors phase dans le mode LtRt. Le LtRt peut tre alors cout tel quel, en stro, ou redirig vers un dcodeur Dolby Prologic pour une coute multicanal matrice. Le choix
du mode de Downmix est fait par le mixeur, en conformit avec le cahier des charges
du diffuseur. Le mixeur active ou non le mode Phase shift, qui dcale la phase des
canaux arrire de 90 ds lencodage. la diffusion, linformation hors phase entre les
canaux Lt et Rt est analyse et redistribue vers les canaux arrire Ls et Rs.
la diffusion chez le particulier, le flux Dolby Digital est dcod en5.1 ou sadapte au
mode de diffusion grce la metadata Downmix:
les modes LoRo ou LtRt pour les formats stro;
la sommation Lo +Ro ou Lt +Rt pour le format mono;
le dcodage Dolby Pro Logic du LtRt pour le mode Dolby Surround.
368
de
Downmix Dolby
- Lo =L +(Cmix)C +(Smix)Ls.
- Ro =R +(Cmix)C +(Smix)Rs.
- Lt =L +(Cmix)C - (Smix) (Ls +Rs).
- Rt =R +(Cmix)C +(Smix) (Ls +Rs).
8.1 La
chane dexploitation
Broadcast
369
370
(HE)-AAC
Loudness Normalization
Dialnorm
Line Mode
RF Mode
compression value
Downmix
Downmix
matrix-mixdown
Downmixing levels
(HE)-AAC
Loudness Normalization
Dialnorm
dialnorm
prog_ref_level
-1 -31dB
0 -31,75dB
Granularity
1dB
0,25dB
5 bits
7 bits
Repetition rate
(1536 samples)
(1024/2048 samples)
0 -31,75dB
Range
-20dB RF Mode
AC3
(HE)-AAC
Line Mode
dynrng
dyn_rng_ctl, dyn_rng_sgn
-24 +24dB
-31,75 +31,75dB
0,25dB
0,25dB
(1536 samples)
(1024/2048 samples)
+interpolation scheme
8.1 La
chane dexploitation
Broadcast
371
Heavy Compression
Bitstream field name
Range
Granularity
Repetition rate
AC3
(HE)-AAC
RF Mode
DVB compression_value
compr
compression_value
-48 +48dB
-48 +48dB
0,5dB
0,5dB
(1536 samples)
(1024/2048 samples)
(HE)-AAC
matrix-mixdown
Coefficients
Center
-3dB
Surround
(- -6 -4,5 -3 -1,5) dB
matrix-mixdown
(- -6 -3 0) dB
Center
Ancillary Data
(- -9 -7,5 -6 -4,5 -3 -1,5 0) dB
Surround
Ancillary Data
(- -9 -7,5 -6 -4,5 -3 -1,5 0) dB
Le flux HeAAC peut tre utilis pour transporter le son sur une chane TVHD, le CSA
a communiqu sur cette option en 2009. Il est prconis de pouvoir alors le transcoder
en Dolby Digital ou en DTS avec conversion des metadata. Aujourdhui, peu damplificateurs AV semblent intgrer des DSP de dcodage compatibles AAC.
372
dans le flux secondaire lors de lencodage DTS, dans la suite DTS HD Master Audio
Suite (voir exploitation des formats DTS).
4+2
5.1+21
4+21
4+4
32
4+22
22+21
4+2+21
2+41
4+41
61
42
32+21
2+2
22+41
2+21
2+61
41
81
7.1
5.1
7.1Scrn
8.1 La
chane dexploitation
Broadcast
373
Les botiers Dolby se raccordent en BNC 75 ohms, et se synchronisent sur une rfrence
vido, il convient donc dutiliser des botiers transformateurs dimpdance 110 ohms75 ohms. Le DP570 comporte une section router qui permet de redistribuer les
canaux de mixage5.1 qui alimentent les entres, comme le proposent tous les botiers.
La redistribution peut alimenter lencodeur Dolby Surround DP563 qui distribue le
mixage5.1 vers lencodeur Dolby E DP571. Dans le mode o le signal LtRt est intgr
au flux Dolby E, la sortie principale Main Out LtRt du DP563 est redistribu lentre
7/8 du DP570, elle alimente alors le programme 2 du flux Dolby E et on utilise la sortie
router 7/8 du DP570 pour alimenter lentre 7/8 de lencodeur Dolby E DP571. Enfin,
la sortie metadata du DP570 permet de vhiculer les metadata lencodeur DP571, sur
une interface srie RS485.
Lautre mode qui nassocie pas le signal LtRt au flux Dolby E, permet de sortir deux
signaux, le Dolby E et la sortie LtRt synchroniss pour un report sur bande. La sortie
Main Out du DP563 est cble sur lentre LtRt in du DP570 pour tre monitore et alimente lentre PCM delay du DP571, via la sortie LtRt thru. Lentre PCM delay permet
de garder la synchronisation des deux signaux, compte tenu du retard dune image
induit par lencodage Dolby E. Le DP572 alimente le PCM delay, le signal stro LtRt,
vers lentre 1/2 du VTR, et la sortie principale Main Out, le Dolby E5.1, vers lentre
3/4 du VTR.
374
8.1 La
chane dexploitation
Broadcast
375
Le DP570 permet le rglage du Bass Management avec diffrentes possibilits de renvois vers les Sub ainsi que trois frquences de coupure 80, 100 ou 120Hz.
Lutilisateur doit renseigner dans la page principale en haut gauche le type de programme du signal Dolby E (5.1 + 2 par exemple) puis, juste au-dessous, il accde la
slection du programme (program select), ici 1 et 2.
Lorsquon renseigne les metadata, le mode interne est activ, cela signifie que les metadata sont librement renseignes par lutilisateur, les autres modes Ext1 et Ext2 permettent de lire les metadata dun flux externe cbl en RS-485 Ext1 ou Ext2, et de
les verrouiller sur ces entres. Il est possible dactiver ces modes pour chacune des
metadata et de rectifier une metadata spcifique, que lon passerait alors en interne.
376
Loudness
Comme reprsent sur la figure8.16, la page principale du DP570 gre la mesure du
loudness: on y trouve les deux modes de mesure short term ou infinite ainsi que
le mode de slection des canaux qui alimentent la mesure (tous les canaux, ou simplement le centre, le canal LFE tant abandonn). La fonction accept permet dassocier
la valeur de Loudness mesure la metadata Dialnorm, lutilisateur peut aussi rgler
manuellement la valeur. Comme dans tout outil de mesure de loudness, on trouve les
fonctions start, pause et reset.
Audio Processing
Sur le mme schma 8.16, la page de droite gre les autres metadata, tout dabord le
nom du programme que lon retrouvera lors du dcodage du signal Dolby E, puis un
premier groupe de metadata appeles les metadata Audio Processing.Dans ce premier
groupe, on renseigne le channel mode, le mode du format multicanal (3/2 ou 2/0
gnralement), lactivation du canal LFE ou non, le mode de fabrication du downmix
LoRo ou LtRt intgrant la fonction surround phase shift, lattnuation -3dB des
canaux arrire (valable pour lencodage dun mixage film afin dassurer la compatibilit
avec lcoute ITU TVHD). Attention, au lancement de lapplication Dolby Remote, lattnuation de 3dB des canaux arrire est valide. Le mode LtRt preferred stereo Downmix (mode surround phase shift) garantit la compatibilit LtRt du Dolby Digital.
Les autres metadata sont gnralement actives: le filtre passe haut DC High pass
filter bloque la composante continue dun signal audio 3Hz sur les entres, le filtre
passe bas Lowpass filter coupe en entre les hautes frquences 20kHz vitant
laliasing au dcodage, le filtre passe bas Lfe filter coupe 120Hz le canal LFE, cest
un filtre avec une pente trs raide.
DRC
La page DRC du DP570 permet daffecter le profil de compression pour chacun des
modes Line mode et RF mode, elle intgre des indicateurs de niveau qui reprsentent
8.1 La
chane dexploitation
Broadcast
377
lactivit des profils, lors de la compression ou de lexpansion. Le paramtre RF overmodulation protection dclenche une protection contre la saturation si le flux Dolby
Digital dcod est raccord un appareil RF/antenne. Ce paramtre doit toujours tre
dsactiv.
Bitstream info
Le bitstream mode dcrit le type de service transport par le flux Dolby Digital. Un
programme audio complet peut comprendre un service audio principal (un mixage
complet du programme audio) et un service associ ou un service principal avec un
service associ. Gnralement, la plupart des programmes utilisent le rglage par
dfaut, complete main, qui correspond au programme audio complet (de la mono
au5.1). Le programme constitu dun service audio principal et dun service associ
peut tre utilis pour transporter plusieurs langues, un voice over, des commentaires,
une description sonore de limage, une version karaok, sur un dbit total maximal de
512kbps.
Sur cette page bitstream info figureaussi le Dolby Surround mode, il convient de
prciser ici si le signal est un LtRt Dolby Surround ou non. Dans le programme5.1,
on valide not indicated et sur le programme stro LtRt, on prcise bien le mode
Dolby Surround encoded. Ce mode force le dcodage Dolby Pro Logic, aprs dcodage Dolby Digital dun signal Dolby 2.0 la rception sur un ampli home-cinma par
exemple.
Ensuite figurent des metadata de description, lecopyright bit indique si le flux
Dolby Digital est protg par un copyright, loriginal bitstream indique si le flux
Dolby Digital est une version master ou copie. LAudio Production Information
prcise le niveau maximal SPL atteint dans la rgie de mixage afin de contrler le
niveau dcoute sur les quipements haut de gamme ainsi que le type dacoustique de
lauditorium, le rglage small tant une courbe de rponse plate, le rglage large
correspondant une correction ISO-X type cinma.
378
Extended BSI
Lesextended BSI sont des metadata supplmentaires intgres au flux Dolby Digital, elles agissent essentiellement sur le paramtrage des downmix. Lepreferred stereo downmix indique si le flux Dolby Digital est downmix en LtRt ou LoRo, la sortie
stro du dcodeur sera donc pilote par cette metadata sans que lauditeur ait le
rgler. Les coefficients de downmix du LtRt sont renseigns dans les metadata Lt/Rt
Center Mix level pour le canal central et Lt/Rt Surround Mix level pour les canaux
surround. Les coefficients de downmix LoRo sont renseigns dans les metadata Lo/
Ro Center Mix Level et Lo/Ro Surround Mix Level. Comme indiqu prcdemment, les coefficients possibles sont: -6dB, -4,5dB, -3dB, -1,5dB, 0dB, +1,5dB,
+3dB pour le centre et les canaux arrire.
Le Dolby Digital est compatible Dolby Surround EX, il existe une metadata appele
Dolby Surround EX, qui indique si le flux est encod dans ce format. Le Dolby
Surround EX est un format 6.1 qui encode un canal arrire central supplmentaire BS,
matric dans les canaux Ls et Rs, identique au Dolby Surround
8.1 La
chane dexploitation
Broadcast
379
Dans les extended BSI figureaussi la metadata AD converter type qui indique si
le signal transport a t converti par la technologie HDCD, cette technologie tant
pratique sur certains master CD.
Ensemble des Metadata Dolby, cf. Dolby.
Paramtres Metadata
Production
Program Configuration
Diffusion
Dialog Level
Channel Mode
Lfe Channel
Bitstream Mode
RF Mode Compression
RF Overmodulation Protection
Mix Level
Room Type
Copyright Bit
Original Bitstream
/D Converter Type
DC Filter
Lowpass Filter
380
8.2
Mesure du loudness
8.2 M esure
du loudness
381
quivalent Leq, moyenn sur des temps variables. Cette mesure permet tout simplement denchaner des programmes lors de la diffusion, la mme valeur, de
telle sorte quil ny ait plus de sauts de niveaux. En effet, dans la chane de fabrication audiovisuelle, les produits ont tous des niveaux de loudness diffrents. Par
exemple, le film a son niveau de loudness assez bas, avec une grande dynamique,
cest le cas aussi de la musique classique. En revanche, la publicit a des niveaux
plus forts, quant au CD de musique actuelle, il a considrablement repouss les
niveaux vers le haut et rduit la dynamique. Le particulier est dailleurs contraint
de baisser le niveau sonore pendant la page de publicit et de remonter le niveau
la reprise du programme. A partir de 2013 en France, la norme loudness permet
un enchanement fluide en niveau des diffrents programmes et des diffrentes
chanes de tlvision.
Le loudness sexprime par un Leq, moyenn au dpart sur une fentre glissante de 10
secondes et dont lchelle sexprimait en dBA (courbe de pondration A). La fentre
glissante de 10 secondes dfinit le mode de mesure du loudness short term chez
Dolby. Cest une valeur qui volue sur toute la dure du programme. Si lon souhaite
mesurer un programme entier, il faut procder la mesure long term, cest la
moyenne du loudness sur toute la dure.
382
La mthode de mesure fait lobjet dune norme ITU-R BS1770-1 dont la figure8.24
dcrit lalgorithme.
Cette norme intgre la courbe de pondration K sur lanalyse des niveaux des cinq
canaux du multicanal, le canal LFE ntant pas pris en compte. Les canaux arrire ont
un coefficient plus lev, +1,5dB, car ils ont un pouvoir attentionnel plus important.
En effet, comme prcdemment voqu, tout son provenant de la zone arrire est
synonyme de danger et attire lattention.
8.2 M esure
383
du loudness
Dialog Range
Le Dialog Range permet simplement de suivre lexcursion du Dialog level, il donne les
valeurs minimum et maximum du Dialog level sur la dure du programme mesur.
On le trouve sur les outils Dolby, il est corrl au Dialog Intelligence. Ces valeurs permettent de vrifier si le niveau des dialogues reste constant ou bien sil volue beaucoup.
Mesure Loudness Dolby
- Mesure short term: Leq sur 10secondes.
- Mesure long term ou infinite all: moyenne du Leq sur toute la dure du
programme.
- Short term Dialog: Leq sur 10secondes avec Dialog Intelligence.
- Infinite Dialog: moyenne du short term Dialog sur tous les passages de
dialogues.
384
Une nouvelle chelle exprime en LUFS (Loudness Unit referenced to Full Scale) remplace lancienne, exprime en LKFS. Lchelle LUFS est donne pour les valeurs absolues, le LU est utilis pour les valeurs relatives.
Nous pouvons exprimer les valeurs en LUFS ou bien en LU, avec la correspondance
suivante, conformment la recommandation ITU-R BS 1771:
0 LU =-23.0 LUFS
Deux chelles sont possibles, suivant les valeurs mesures: lchelle +18 LUFS utilise
pour les programmes grande dynamique, et lchelle +9 LUFS pour les programmes
dynamique plus rduite.
8.3 Normes
franaises
PAD TVHD
385
- 0 LU =- 23 LUFS.
8.3
386
8.3 Normes
franaises
PAD TVHD
387
Les valeurs sont donnes en dBTP et lchelle du crte mtre True Peak stend alors
de - 60 dBTP +3 dBTP.
8.3.2 Anciennes normes franaises PAD CST RT16, CST RT17 v2, CST RT19
Complment
Web 8.2
Anciennes normes franaises PAD CST RT16, RT17, RT19.
388
Loudness, LRA
La mesure du loudness aborde dans le paragraphe Loudness met en vidence les
points suivants:
la mesure est faite sur toute la dure du programme, elle nintgre quun seul mode
de mesure, compatible avec tout programme comportant des dialogues ou non;
elle est compatible avec les programmes de grande dynamique;
elle repose sur 3 valeurs de loudness:
Momentary (M): la mesure instantane 400ms, la mesure se fait sans gate
Short term (S): la mesure courte dure, moyenne sur 3secondes, la mesure se fait
sans gate
Integrated ou Program Loudness (I): la mesure du programme avec gate - 10 LU,
conformment la norme ITU-R BS 1770-2, utilisation du start et du stop pour dmarrer et stopper la mesure. La valeur cible du Program Loudness est- 23.0 LUFS et 23.0
LUFS 1 LU pour les programmes Live. Lchelle LU sexprime avec la correspondance
suivante, conformment la norme ITU-R BS 1771: 0 LU =- 23 LUFS
Cette norme utilise donc une mthode de mesure de loudness intgrant deux gate en
cascade, la gate absolue de - 70 LUFS et la gate relative - 10 LU relatif au niveau de
loudness utilisant le gate absolu.
8.3 Normes
franaises
PAD TVHD
389
Principe
- Dans la figuresuivante, les zones bleues sont celles qui ne seront pas prise
en compte, aprs application du seuil de mesure.
Cette mthode de mesure intgre dans la norme ITU-R BS 1770-2 permet dcarter
les moments de silence, les passages de bas niveau qui sont perus en second plan par
rapport un premier plan constitu des dialogues par exemple. La distribution des
niveaux de loudness mesurs avec lutilisation des deux gate est alors quantifie suivant
une chelle statistique exprime en pourcentage. Le Loudness Range (LRA) est alors
dfini par lcart de Loudness exprim en LU sur la distribution entre 10% et 95%,
390
les valeurs de loudness extrmes tant cartes. La valeur 10% permet par exemple
dcarter les fades out de fin dune musique et la valeur 95% permet de ne pas tenir
compte des coups de pistolets dans un film. Le LRA traduit lexcursion du loudness sur
toute la dure du programme, les valeurs de loudness les plus basses reprsentent alors
les niveaux les plus faibles du contenu pertinent du programme, les passages de silence
et les ambiances de faible niveau tant carts.
Le Loudness Range permet de mesurer la dynamique dun programme et de sassurer
quelle est conforme la dynamique maximale accepte suivant le lieu de diffusion. La
figure8.30 reprsente les diffrentes valeurs de LRA retenues pour ces diffrents lieux,
le cinma, le home-cinma, la voiture etc. La norme R128 nimpose pas une valeur de
LRA maximale, elle encourage lutilisation du LRA pour suivre lvolution du loudness
du programme, les valeurs types tant laisses la discrtion des diffuseurs, en tenant
compte du genre de programme, du type daudience et du mode de distribution.
Niveaux crte
Les niveaux crtes sont mesurs suivant un crte-mtre True Peak, et un maximum
de - 1 dBTP ne doit pas tre dpass, ceci est valable pour les niveaux de mixage en
production. La mthode de mesure True Peak est dfinie par la norme ITU-R BS 1770-3.
En France les niveaux crte maximums pour des signaux encods sont plus bas, environ - 3 dBTP (cf. EBU guide de distribution 3344).
Programmes courts
Sont considrs comme programmes courts, les publicits ou bandes annonces dune
dure infrieure 30secondes. La valeur du Program Loudness doit tre normalise -23.0LUFS0.5 LU. Pour ce type de programmes, on introduit les valeurs
maximales de loudness Momentary et loudness Short Term, qui permettent dviter
davoir des publicits trop fortes. Il convient alors de ne pas dpasser les valeurs
suivantes:
8.3 Normes
franaises
PAD TVHD
391
Lune ou lautre des deux valeurs limites maximales doit tre respecte, pas les deux
en mme temps. Les valeurs loudness Max Short Term et loudness Max Momentary sont respectes gnralement par le travail des niveaux des diffrentes sources
sur les passages concerns. Dans les cas les plus difficiles, le traitement dynamique
simpose.
Synthse
r128
392
EBU R128
- 3 paramtres caractrisent le signal.
le Program Loudness.
le Loudness Range (LRA).
les niveaux crtes max True Peak.
- Le Program Loudness doit tre normalis - 23.0 LUFS 0,5 LU.
- Une tolrance de 1 LU pour les programmes pour lesquels il est difficile
dobtenir une normalisation exacte comme le Live.
- Loutil de mesure doit tre conforme la norme ITU-R BS 1770-3 et EBU
Tech Doc 3341.
- La mesure du LRA permet de savoir si une compression du signal est
ncessaire suivant le genre du programme, le type daudience et le mode
de distribution.
- Le niveau crte True Peak maximal est de 1 dBTP en production.
- La metadata loudness doit tre renseigne - 23.0 LUFS, si pour une
raison particulire il nest pas possible de normaliser - 23.0 LUFS, la
metadata loudness doit toujours indiquer la valeur mesure.
8.3 Normes
franaises
PAD TVHD
Niveau
393
EBU R128
Niveau dalignement
Le niveau dalignement lu sur un crte-mtre numrique Full Scale est de -18dBFS
pour un signal sinusodal la frquence de 1000Hz.
Un signal dalignement 1000Hz -18dBFS crte doit afficher un niveau de loudness
de -18LUFS sur un quipement de mesure EBU, si le signal est prsent sur les canaux
frontaux gauche et droite dun programme stro ou dun programme5.1.
Si le signal nest prsent que sur un seul canal frontal, le niveau affich sera de
-21 LUFS.
Niveaux crte
Le niveau des crtes du signal audio, mesur en True Peak, ne doit pas dpasser
-3 dBTP (compatible production PCM et diffusion Dolby).
Niveau de Loudness
La valeur cible du loudness intgr est:
Dynamique
Pour les programmes de dure suprieure 2 minutes, le LRA doit tre infrieur ou gal
20LU, et au minimum gal 5LU. Les dialogues doivent moduler autour de la valeur
cible de loudness sur une dynamique de 7LU, mesur en short term (3secondes), soit
entre - 30 et - 16LUFS.
Pour les programmes de dure infrieure 2minutes, le niveau maximal Short Term
ne doit pas dpasser +3LU, soit 20LUFS, pour lensemble du programme. On ne
mesure pas le LRA de ce type de programmes.
394
programmes dure
> 2minutes
- 3 dBTP
- 3dB TP
- 23.0 LUFS
- 23.0 LUFS 1 LU
LRA
non spcifi
entre 5 LU et 20 LU
- 20 LUFS
non spcifi
Dynamique loudness
des paroles
non spcifi
7 LU autour de - 23
LUFS
entre - 30 et - 16 LUFS
La synthse des metadata Dolby est donne par le schma ci-dessous, reprenant les
donnes de la CST RT17 V2 avec les mesures de loudness R128:
8.3 Normes
franaises
PAD TVHD
395
Autres donnes
Synchronisation vido et audio
Les signaux vido et audio sont synchrones entre eux dans la tolrance suivante:
Soit une avance maximale du son sur limage de 20ms;
Soit un retard maximum du son sur limage de 40ms.
Format audionumrique
Le format audionumrique est 48kHz 16bits pour le PCM, 48kHz 20bits obligatoire
pour le DolbyE. Le signal DolbyE doit tre imprativement exempte derreur CRC
(Cyclic Redundance Code).
Fiches de Mixage et dencodage
Chaque livraison dun mixage doit tre accompagne dune Fiche dinformation de
mixage standardise.
Chaque support PAD contenant une deux pistes Dolby E doit tre accompagn dune
Fiche dencodage Dolby E standardise.
Dolby Surround
tolrance
SD
Ligne 12
1 ligne
HD
Ligne 20
3 lignes
396
spcifications du contenu des pistes 7 et 8 du Dolby E sont laisses au choix des diffuseurs.
En multicanal, la configuration du programme est5.1 + 2, le programme 1 tant en
channel mode 3/2L, le programme 2 tant en 2/0, la rpartition des canaux se faisant comme indiqu dans la figuresuivante, gnralement la stro LtRt ou LoRo est
affecte aux canaux 7 et 8, on peut trouver pour certains diffuseurs laudio description:
Affectation des canaux pour les signaux Dolby E5.1 + 2.
Paire AES dorigine
Contenu
AES 1
Piste 1
Piste Gauche
Piste 2
Piste Droite
Piste 3
Piste Centre
Piste 4
Piste LFE
Piste 5
Piste 6
Piste 7
Voie optionnelle A
AES 2
AES 3
AES 4
Voie optionnelle B
contenu prciser par le
diffuseur
Metadata Dolby E
La recommandation distingue deux familles de programmes, les programmes musicaux qui sont susceptibles de poser problme pour leur downmix stro, on les encode
gnralement en LoRo, et les autres programmes. Elle prcise les points suivants pour
le renseignement du Dialnorm.
La mesure seffectuera selon la recommandation EBU R128
La valeur exacte mesure devra tre renseigne dans les mtadonnes
8.3 Normes
franaises
PAD TVHD
397
Dans le cas des programmes courts dont la valeur de Loudness est inferieure a
23LUFS, la valeur reelle mesuree sera affiche.
Organisation du contenu du programme HD
Lorganisation du contenu du programme HD se fait comme prsent dans la figure8.33.
Pour un programme multicanal et stro: les signaux audio didentification et dalignement multicanal et stro doivent correspondre la recommandation EBU Tech
3304 Multichannel Audio line-up Tone, en voici la reprsentation pour un signal
multicanal:
398
Lidentification des canaux se fait avec lordre L, C, R, Rs, Ls, pour un signal de
frquence pure 1kHz. Le canal LFE est identifi par un signal de frquence pure de
80Hz.
Les metadata du Dolby E, sur la dure des signaux de tests doivent tre paramtres
comme suit:
Dialog level =-31 LKFS
Line mode =none
RF mode =none
Surround 3dB attenuation =disable
De 09:59:52:00 (inclus) 09:59:59:24 (inclus)
Du TC de fin de programme utile, et pendant une dure de trente secondes (30) : noir
cod et muet.
Lors de la vrification dun PAD, lcoute se fait en stro et en multicanal (Dolby
Surround, Dolby-E), la compatibilit du Downmix Stro et Mono est vrifie et
doit tre valide en RF Mode Film Standard. Les valeurs des metadata Dolby sont
vrifies.
Voici des exemples de PAD sous forme de cassette HDCAM et HDCAM-SR indiquant
la rpartition des pistes audio, avec une ou plusieurs versions5.1 (VF et VO), dans
tous les cas, la premire paire AES de la casette sera obligatoirement utilise pour une
version stro PCM.
Exemple dun PAD HDCAM avec version stro et5.1
AES 1
AES 2
Pistes
1-2
3-4
Format
Stro
Dolby E5.1
Contenu
LR
5.1 +(LtRt)
8.3 Normes
franaises
PAD TVHD
399
AES 2
AES 3
AES 4
Pistes
1-2
3-4
5-6
7-8
Format
Stro
VF
Stro VO
Dolby E5.1 VF
Dolby E5.1 VO
Contenu
LR
LR
5.1 +(LtRt)
5.1 +(LtRt)
Le BLITS est un autre type de signal didentification du5.1 souvent utilis en broadcast, il est fourni dans la session Pro Tools test (chapitre2).
Signal didentification BLITS
- Le signal didentification BLITS permet didentifier les canaux surround
dans un signal5.1. Il permet aussi didentifier la prsence ou labsence
dun canal pour un downmix stro. Ce signal est souvent utilis en dbut
de programme pour identifier les canaux dans les cars HD.
- Les frquences utilises sont indiques sur le schma ci-dessous, elles
diffrent suivant les canaux, 880Hz pour L et R, 1320Hz pour C, 660Hz
pour Ls et Rs et 82,5Hz pour le LFE. Elles sont ordonnes dans lordre de
rotation sens horaire pour un meilleur suivi.
400
8.4 Exploitation
401
8.4
402
8.4.2 Upmixeurs
Il existe de nombreux processeurs dupmix pour la diffusion, lesquels permettent de
fabriquer un flux5.1 dune chane HD partir de programmes stro. Ces procds
sont utiliss de faon provisoire, avant la mise en place de nouvelles rgies de diffusion
8.4 Exploitation
403
compatibles5.1. Ces processeurs servent aussi spatialiser des programmes disponibles quen stro. On peut penser que ces processeurs serviront toujours en secours
ou dans le cas darchives.
Dans les rgies de diffusion TVHD ou dans les cars HD, on trouve ces traitements
dupmix. En France beaucoup de cars sont quips de processeurs TC DB8, France 2 et
NRJ12 utilisent des processeurs Isostem, Arte exploite un processeur Linear Acoustic
Aeromax. La chane anglaise SKY utilise par exemple des processeurs UPM1 Soundfield.
Certains des processeurs fabriquent un upmix compatible 100% avec le downmix
stro LoRo, cest dire que la version stro downmixe en LoRo du flux5.1 obtenue
est 100% identique la stro dorigine (voir procd Isostem). Dautres, fabriquent un
programme5.1 sans obtenir un downmix 100% compatible.
Comme voqu au chapitre6, ces procds reposent sur lanalyse de la phase entre les
canaux gauche et droite de la stro, tel un dcodeur Dolby Pro logic. Certains algorithmes rajoutent de la rverbration, dautres nen rajoutent pas et permettent de sparer le champ acoustique direct du champ rverbr et de les spatialiser comme souhait.
Il existe de nombreux processeurs dupmix, citons les principaux: Isostem, Soundfield
UPM1, TC Upcon/Unwrap (DB8, DB6, DB4), Junger TAP, Penteo, Aeromax (Linear
Acoustic).
LIsostem a la particularit innovante de sparer, dans un mixage stro, le champ
direct du champ rverbr. Il donne des rsultats intressants, compatibles 100% avec
la stro dorigine par downmix LoRo.
Isostem
404
Isostem est un processeur dupmix de diffusion qui repose sur un principe acoustique
avec un downmix ISO gal la strophonie. La technologie dupmix est fonde sur
lanalyse des changes dnergie acoustique au point dcoute. Le point de dpart du
rglage repose sur lanalyseur panoramique PA, qui analyse la largeur ou la dcorrlation en temps rel de la stro dorigine et qui permet disoler en quelque sorte la source
de son environnement.
8.4 Exploitation
405
4 entres stro ce qui permet doptimiser le rendu sonore de lupmix en fonction des
diffrentes versions dun programme ou des stems disponibles.
Upcon
LUpcon est un processeur automatique dupmix dans le DB8 qui gre les transitions de programmes5.1 aux programmes stro upmixs. Le processeur repose
sur lalgorithme Unwrap que lon trouve aussi dans la M6000 (voir chapitre6). Le
programme analyse en temps rel le format audio en entre et, si le signal dentre
passe en stro, il enchane avec crossfade sans interruption ou artefact sur un
programme stro upmix. Le processeur assure ainsi la diffusion dun signal5.1
ininterrompue.
406
8.5
8.6
8.6 Diffusion5.1
407
408
Radio Classique HD, compatible mp3surround. Le mp3D est un codec compatible mp3
et mp3surround qui permet la restitution du son en binaural. Il comporte un algorithme dupmix pour les flux stro et propose diffrents rglages HRTF.
Dolby Surround
Le Dolby Surround est une solution trs peu exploite sur Internet, car peu dapplications sont compatibles ce jour, VLC Player affiche ltre.
Dolby Digital, Dolby Digital +, Dolby Headphone
Les codecs Dolby Digital et Dolby Digital Plus permettent de diffuser un son5.1
de qualit comparable au DVD, un dbit de 384kbps ou 256kbps pour le Dolby
Digital Plus. Les fichiers Dolby Digital sont des .ac3, compatibles5.1 et les fichiers
Dolby Digital Plus sont des .ec3 compatibles5.1 et7.1. Ces codecs sont compatibles
avec VLC player. Lencodage peut se faire avec des applications ou plug-ins tels que
Dolby Media Encoder, Neyrinck Soundcode et Minnetonka Surcode. Les metadata
Dolby ne sont en revanche pas exploites par VLC Player ce jour, VLC Player cre
par exemple son propre downmix LoRo lorsque lapplication voit en sortie une
configuration stro. On trouve aussi ces codecs dans certains mobiles et tablettes
numriques. Le mode binaural peut tre activ dans un flux Dolby Digital avec le
procd Dolby Headphone, certains mobiles lintgrent (Dolby mobile utilisant le
Dolby Digital Plus).
DTS Neural, DTS express, DTS Surround sensation headphones
Le DTS Neural est un format PCM matric de type LtRt compatible5.1 et7.1, il existe
des encodeurs logiciels dvelopps par DTS mais aucun lecteur nest vraiment compatible ce jour, seul lamplificateur compatible DTS Neural complte la chane. Quelques
radios HD diffusent aux tats-Unis un son DTS Neural, encod en mp3 sur Internet.
dfaut de dcodeur DTS Neural, un dcodeur Dolby Pro logic 1 ou 2 dcodera le signal
compatible LtRt. Dautre part DTS communique depuis 2012 sur le DTS Express adapt
aux applications bas dbit, mais peu dexprimentations ont pu tre menes ce jour.
DTS propose aussi une solution de diffusion binaurale apparue en 2012 appele le DTS
Surround sensation headphones qui malheureusement nest pas encore trs accessible
ce jour.
AAC (AAC LC), HeAAC, HeAACv2, HD AAC
Le codec AAC LC, fichier .aac, est un format assez rpandu sur Internet, il est exploit
par Apple pour le son des bandes annonces de certains Films HD5.1. Ce codec est directement compatible avec les lecteurs QuickTime Player, VLC Player et iTunes. Les applications QuickTime Pro, Adobe Media Encoder ou les plug-ins Sonnox Pro Codec/Codec
Toolbox permettent dencoder en AAC LC. Il nexiste pas encore de solution accessible
pour intgrer des metadata dans le flux. Le downmix stro est directement fabriqu
8.6 Diffusion5.1
409
par le lecteur, gnralement avec les coefficients par dfaut pour le centre et les arrires
(-3dB, -3dB).
Le codec HeAACv2 est aujourdhui un des codecs les plus performants, prsentant une grande efficacit. La qualit est tonnante pour un taux de compression
de rapport 40 correspondant un dbit de 192kbps. Les fichiers sont des .mp4 et
.m4a. Il nexiste pas encore de solution accessible pour intgrer des metadata dans
le flux. Il existe aujourdhui quelques applications accessibles capables dencoder en
HeAACv2, parmi elles on citera QuickTime Pro, Adobe Media Encoder, VLC Player,
Orban, les applications Sonnox Pro Codec/Codec Toolbox. Les fichiers encods sont
compatibles avec VLC Player, QuickTime Player et iTunes. Il existe aussi un codec
AAC sans perte, le HD AAC qui utilise les applications Sonnox Pro Codec/Codec
Toolbox.
MPEG Surround
Le MPEG Surround, dvelopp par Fraunhofer en collaboration avec LSI Corp., Dolby
Laboratories et Philips Applied Technologies, fonctionne partir de nimporte quel
codec, gnralement lAAC, le HeAAC et le Mpeg layer2, des dbits comparables
ceux de la stro. Linformation de lespace est gnralement code par un flux de
32kbps. Les applications Sonnox Pro codec/Codec Toolbox permettent dencoder en
MPEG Surround utilisant lAAC-LC et lHeAAC. Aujourdhui peu dapplications sont
compatibles MPEG Surround, seul Winamp Media Player supporte le MPEG Surround
en lecture, ce nest pas encore le cas des lecteurs Apple (iTunes, QuickTime). Dautre part,
Fraunhofer met disposition une license pour des applications sur mobile ou tablette
numrique.
MPEG-H 3D
Le MPEG-H 3D en cours de dveloppement apportera sans doute une solution de diffusion complte, compatible 3D, binaural des dbits variables.
Dolby Pulse
Le Dolby Pulse utilise les codec HeAACv1 et HeAACv2 et intgre les metadata Dolby.
Lencodage se fait avec le DP600 ou lapplication AudioTools Server Minnetonka. Il est
compatible avec les lecteurs QuickTime Player et iTunes.
WMA
Le WMA (Windows Media Audio, fichier .wma) est un codec Microsoft compatible
jusquau7.1. Lencodage se fait avec lapplication Windows Media Encoder. Ce codec
intgre une metadata downmix qui permet de contrler la version stro downmixe
LoRo si le fichier est lu avec Windows Media Player. Le WMA supporte aussi la metadata DRC. Le fichier .wma peut tre lu avec VLC Player.
410
DTS express
DTS HD
DTS Master
DTS Neural
DTS Suround
sensation
headphones
AAC LC
HeAAC
DEBIT
EXTENSION
approximatif
habituelles
utilis
TYPE
FORMAT
perte
matric
matric
2.0, 5.1
perte
matric
matric
2.0, 7.1
amplis AV
Dolby PL1,
Dolby PL2
amplis AV
Dolby PL2X
perte
matric
matric
2.0, 9.1
amplis AV
Dolby PL2Z
perte
discret
VLC
384 kbps
640 kbps max
.ac3
perte
discret
1.0 5.1,
Dolby EX
6.1
1.0 13.1
VLC
256 kbps
3Mbps max
.ec3
sans perte
discret
jusqu
16 canaux
VLC
jusqu
18 Mbps
perte
binaural
amplis AV,
PC, mobiles
perte
binaural
associ
au Dolby
Surround,
Dolby
Digital,
DD+
discret
5.1
VLC
perte
discret
jusquau 5.1
perte
discret
jusquau 7.1
VLC
sans perte
discret
jusquau 7.1
VLC
perte
matric
matric 2.0
Dolby PL2 ou
DTS Neural
ampls AV
amplis AV,
PC, mobiles
Dolby
Headphone
DTS
DECODAGE
possible
COMPRESSION
perte
perte
perte
binaural
binaural
associ au
DTS (5.1 ou
upmix)
discret
jusquau 7.1
discret
jusquau 5.1
.wav
.wav
.wav
1509 kbps
Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC
.cpt
Loudness/
Downmix
2 6 Mbps
.dtshd
jusqu
24 Mbps
.dtshd
.wav
Loudness/
Downmix
Loudness/
Downmix
non
32 800 bbps
.mp4a
non
192 kbps
640 kbps max
.mp4
metadata
Fraunhofer
64 768 kbps
QT, iTunes,
VLC
QT, iTunes,
VLC
METADATA
8.6 Diffusion5.1
CODAGE
FICHIER
HEAAC V2
Dolby Pulse
HDAAC
Windows
Media Audio
mp3D
MPEG
Surround
(AAC LC ou
HeAAC)
DECODAGE
possible
COMPRESSION
TYPE
FORMAT
perte
discret
jusquau 7.1
perte
discret
sans perte
discret
perte
discret
jusquau 7.1
WMP, VLC
perte
discret,
binaural
associ
5.1
sans perte
discret
jusquau 7.1
Mplayer,
Winamp,
plug-in
Fraunhofer
VLC
perte
binaural
(5.1 ou
upmix)
discret,
binaural
associ
binaural
Mplayer
mp3surround
FLAC
411
perte
QT, iTunes,
VLC
QT, iTunes
DEBIT
EXTENSION
approximatif
habituelles
utilis
192 kbps
640 kbps max
192 kbps
640 kbps max
.mp4
la moiti du
dbit PCM
192 kbps
768 kbps max
192 kbps
320 kbps max
.mp4
.mp4
.wma
METADATA
metadata
Fraunhofer
Loudness/
Downmix/
DRC
non
.mp3
Downmix/
DRC
non
la moiti du
dbit PCM
.flac
non
128 kbps
320 kbps max
.m4a
non
compatible
stro
coute stro
encodeur
AAC
dcodeur
AAC
downmix
stro
enregistrement
multicanal
downmix
stro
coute multicanal
encodeur
Mpeg
Surround
dcodeur
Mpeg
Surround
coute binaurale
412
Le schma ci-dessous reprsente les diffrents modes dexploitation dun mme fichier
MPEG Surround en5.1 diffus depuis un mobile/iPod dans une voiture, sur un homecinma depuis le mme lecteur mobile ou depuis un pc, et spatialis en binaural.
La diffusion sur Nouvoson utilise la mme approche, les fichiers sont encods en
HeAACv2, lauditeur peut alors choisir entre les 3 formats5.1, stro ou binaural. La
synthse binaurale est opre par la web API qui gre aussi la norme de diffusion R128.
Une application comme Orange Radio complte le procd pour lcoute binaurale sur
mobile ou tablette numrique, il suffit de pointer vers les flux de diffusion des sites
concerns. Une diffusion5.1 via HDMI est aussi envisage pour une coute sur home
cinma.
terme, le codec MPEG-H 3D aura des possibilits largies pour une diffusion 3D
channel ou objets, avec compatibilit HOA et downmix binaural possible.
Conclusion
La spatialisation du son met en scne des nouveaux concepts de fabrication par la
prise de son, le mixage et la diffusion. Ces notions en constante volution sont au cur
des technologies numriques que laudiovisuel connat aujourdhui. Le multicanal est
depuis une vingtaine dannes abord dans les sminaires de recherche sur laudio, il
senrichit chaque anne de nouvelles publications. Nous avons derrire nous vingt ans
dexprimentations sur la strophonie et sommes laube du dveloppement du son
3D pour le cinma, accompagn de reprsentations par objets sonores qui simplifient la
diffusion. Dautres procds reposant sur lanalyse complexe du champ sonore entrent
en scne et sont appliqus dans la diffusion WFS par exemple, ou dans des systmes
de captation haute rsolution spatiale tels que le HOA. Les rcents dveloppements
du binaural convergent vers cette prise en compte de lespace et modifient, du fait de
leur accessibilit pour tous, les modes dcoute au casque. Ces technologies sur le son
spatialis constituent trs certainement les modes de diffusion de demain.
414
Le
son multicanal
Si nous regardons derrire nous, sur quoi repose lchec de la quadriphonie dans les
annes 1970? Une technologie pas encore mre, non compatible avec le film, trs
coteuse et surtout le manque daccessibilit aux contenus (supports, diffusion).
Aujourdhui, la norme 5.1ITU existe et le numrique simplifie la diffusion grce
la rduction de dbit. Dautre part, la diffusion sur Internet semble progresser avec
lapparition de webradios et de webtv.
Le son5.1 est souvent accompagn dune image. La convergence de limage et du son est
de plus en plus forte, notamment grce lvolution des lecteurs audiovisuels mobiles
comme la tablette numrique et le tlphone portable. La prsentation dinformations
sur lcran, dimages fixes ou en mouvement est une demande croissante, cest aussi
ce que lon voit sur les plates-formes comme YouTube ou Dailymotion. La radio numrique sadapte cette volution vers les nouveaux mdias en proposant de limage.
Le cheminement vers lcoute spatialise est port essentiellement par la reproduction la plus exacte possible dune scne sonore et par lcriture de nouvelles formes
immersives interactives. Les images diffuses sont aussi de plus en plus grandes et il
est cohrent de faire correspondre langle de vision avec langle auditif.
Finalement, cest lapport dmotions nouvelles, plus fortes qui motive.
Bien sr, la spatialisation rpond une coute attentive du spectateur, lui-mme en
attente de dcouvertes et de divertissement. Mais lorsque lcriture est pense pour
lespace, il est difficile de revenir vers une coute en stro, lauditeur perd alors
beaucoup dinformations et le rendu sonore est bien pauvre. La comparaison dune
ambiance multicanal et de son format en stro nous laisse toujours rveur! Lespace
est confortable et la nature a bien fait les choses, nous lentendons!
Bibliographie
Le lecteur est invit consulter la bibliographie complte disponible gratuitement sur
le site www.dunod.com.
BECH S., ZACHAROV N., Perceptual Audio Evaluation: Theory, Method and
Application, Wiley, 2006
BLAUERT Jens, Spatial Hearing, MIT Press, 1996
BOSI M., GOLDBERG R.E., Introduction to Digital Audio Coding and Standards,
Kluwer Academic Publishers, 2002
CAMERER F., Storytelling with Surround-Sound, Audio Design and Esthetics, ORF,
UDT, 2005
DANIEL J., High Order Ambisonics, une approche complte de la spatialisation
sonore, Orange Labs, 2009
FUCHS J. & THEVENOT P., De la monophonie la synthse de front donde WFS,
Prsentation lInstitut du Monde Arabe, 2012
416
Le
son multicanal
Index
5.1 cinma, 27
5.1 ITU, 26
6.1 cinma, 29
7.1 Blu-ray, 31, 32
7.1 cinma, 30
8.1, 35
10.2, 38
22.2 NHK, 39, 102
C20, 66
cadres sonores, 143
Carr Hamasaki, 224
cascade, 326
casque multicanal, 84
CBR, 321
channel mode, 335
channel oriented, 17
Cinma, 2, 354
codage, 309
codage entropique, 310, 318
Codage M/S, 320
codage paramtrique, 321
codage sinusodal, 320
Codage spatial, 320
Code rgional, 346
Coherent Acoustic, 340
compensation, 91
compresseur, 284
cne de confusion, 117
conteneur, 352
418
Correction, 91
Courbes ISO X, 82
cration sonore, 303
Critres, 48, 146
Croix IRT, 222
CSI, 138
CSS, 342
CST RT-17-TV version V3, 393
CST RT17 v2, 387
CST RT19, 387
DAB, 354
Dante, 353
DBAP, 268
DCI, 354
DCP, 354
dbit, 311
dcorrlation, 261
dcorrlation interaurale, 138
Dialnorm, 362
Dialog Intelligence, 381
Dialog level, 362, 381
Dialog Range, 383
diaphonie acoustique, 111, 113
Digital Theater System, 339, 345
directs, 254
dislocalisation, 141, 153
dispositif5.1, 113
distance, 127
distraction, 142, 153
dither, 312
divergence, 261, 271
divergence centrale, 261, 269, 276
divergence vers les autres canaux, 271, 277
Dolby Atmos, 42, 101, 301, 355
Dolby Digital, 335, 363, 380
Dolby Digital Plus, 336
Dolby Digital Surround EX, 4
Dolby E, 337, 360
Dolby Pro Logic, 333
Dolby Pro Logic 2, 333
Dolby Pulse, 339, 409
Dolby SR, 3
Dolby SRD, 3
Dolby Stro, 3, 28
Dolby Surround, 26, 332, 361
Le
son multicanal
Dolby Surround7.1, 5, 30
Dolby Surround EX, 378
Dolby Surround IIX, 35
Double MS, 207
Double ORTF, 219
downmix, 289, 360, 362, 367
DPA 5100, 227
DRC, 335, 362, 364, 376
DRM, 342
DSD, 328, 347
DTRS, 350
DTS, 32, 340, 406
DTS-Core, 340
DTS ES7.1, 4
DTS express, 408
DTS HD, 371
DTS HD Master, 371
DTS Neo X, 39
DTS Neural, 406, 408
DTS Surround sensation headphones, 408
DVB, 353
DVD, 345
DVD-Audio, 347
DXD, 328
419
Index
Fantasound, 2
FEC, 134
filtres FIR, 92
filtres IIR, 92
Focus. Voir divergence centrale
formants, 318
Format A, 212
Format B, 212
Formats multicanal, 20
fusion frontale/arrire, 140, 144
FX, 254
GRM, 9, 163
guard bands, 337
IACC, 138
ILD, 115, 321
image fantme, 110
image relle, 110, 147
image virtuelle, 111, 147, 148, 149
IMAX, 3, 29
immersion, 110
Imm Sound, 40, 100
impression spatiale, 136, 150
INA5, 204
incertitude de localisation, 125
indices de localisation dynamiques, 118
K, 381
KFM 360, 217
KU 100, 237
420
MADI, 350
manager, 261
masquage frquentiel, 313
masquage temporel, 313
matriage, 327
mesure, 258
mesure loudness, 381
metadata, 16, 17, 359
metadata AAC, 369
metadata Dolby, 374
Metadata DTS, 371
mtadonnes. Voir metadata
MLS, 51
MMAD, 183
modle psychoacoustique, 315
Momentary loudness, 383, 388
montage son multicanal, 253
mp3D, 407
Mp3surround, 407
MPEG, 328
MPEG2, 329, 346
MPEG4, 330
MPEG-H 3D, 409, 412
MPEG Surround, 321, 328, 332, 409, 412
Multichannel Stereo, 17
multiplexage, 343
MUSHRA, 323
MUSICAM, 328
musique, 256
MXF, 352
object oriented, 19
objet, 19, 300, 301
OCT Surround, 197
ODG, 325
Ogg, 342
Opus, 342
Le
quadriphonie, 5, 25
quantification, 311
R2LB, 381
raction dorientation rflexe
de lattention, 139, 140
ralisation, 171
Realiser A8, 133
rendement, 57
rservoir, 321
rverbrance, 136
rverbration, 280
RF mode, 364
RLB, 381
rotation, 271
son multicanal
421
Index
SDI, 350
sensibilit, 57
short term loudness, 381, 383, 388
SMART, 347
SMPTE, 80
SOFA, 133
sonde intensimtrique, 94
son hors champ, 142
son in, 142
son off, 142
Soundfield, 211
sonde physio-angulaire, 94
S/PDIF, 349
SPS 200, 216
SQAM, 325
ST350/ST450, 214
standard stro, 110
steering, 335
stems, 254, 292
streaming, 353
Super Audio CD, 328, 347
Super Hi-Vision, 14
Supra High Vision, 12
sweet spot, 111
synthse binaurale, 294
TOSlink, 349
Transaural, 105, 275
transformes de Fourier, 313
Transport Stream, 344
Trinnov SRP, 230
true peak, 288, 387, 390
TVHD, 7, 14, 44
UHDTV, 14
Upcon, 405
upmix, 290, 402
VBAP, 267
VBR, 321
VI, 292
vision, 131
Vorbis, 342
Waterfall, 56
Watermarking, 343
Wavelet, 56
WFS, 18, 43, 103, 297
WMA, 409