Sie sind auf Seite 1von 178

Michael Horn

Audio-Mastering-Guide

Dieses Werk ist in seiner Gesamtheit und in Teilen notariell urheberrechtlich geschtzt worden. Jede Verbreitung, photomechanische, elektronische oder vertonte Wiedergabe, Vervielfltigung, Verwertung, bersetzung, auch auszugsweise, bedarf der ausdrcklichen schriftlichen Genehmigung des Verfassers. Dies gilt auch fr jede Art der Digitalisierung und Einspeisung in Datennetzen. Alle im Rahmen des Werkes genannten und genutzten und ggf. durch Dritte geschtzten Marken- und Warenzeichen unterliegen uneingeschrnkt den Bestimmungen des jeweils gltigen Kennzeichenrechts und den Besitzrechten der jeweiligen eingetragenen Eigentmer. Allein aufgrund der Nennung ist nicht der Schluss zu ziehen, dass Markenzeichen nicht durch Rechte Dritter geschtzt sind. Dieses Werk dient nur zu Informationszwecken. Es wurde mit grter Sorgfalt gearbeitet, dennoch knnen Unrichtigkeiten nicht ausgeschlossen werden. Fr eventuelle inhaltliche Fehler und deren Folgen wird keine Haftung bernommen. Der Autor behlt sich das Recht vor, dieses Werk jederzeit ohne Vorankndigung zu ndern. Alle Verwertungs- und Verffentlichungsrechte dieses Werkes liegen allein beim Verfasser. Dieses Buch dient in seiner elektronischen Form (E-Book) nur dem privaten Besitz, es darf auch auszugsweise nicht an Dritte weitergegeben werden. Vervielfltigung, Verbreitung, Wiedergabe, Verleih, Verkauf sind strengstens untersagt. Durch ein Anbieten dieses E-Books, egal in welcher Form, machen Sie sich strafbar. Grafiken und Bilder werden in diesem Buch nur dort eingesetzt, wo sie wirklich Sinn machen. Dadurch ist es druckfreundlich und bietet sehr viele Infos bei einer noch berschaubaren Seitenzahl. Der Textsatz wurde so gewhlt, dass ein ansprechendes Schriftbild entsteht und dennoch viel Text untergebracht werden konnte, ohne die Gesamtseitenzahl ausufern zu lassen. bertragen auf Normseiten htte dieses Buch gut 500 Seiten. Dieses Buch verwendet die progressive deutsche Rechtschreibung. Bei Alternativen wurde eher die progressive Variante gewhlt.

Audio-Mastering-Guide, vollstndig aktualisierte Fassung (Juni 2012) Copyright 20052013 by Michael Horn Herausgeber: Arrange Projektstudio Autor: Michael Horn Umschlaggestaltung: Michael Horn Satz und Lektorat: Michael Horn

INHALT

1. Einfhrung - Mixing, Mastering, Pre-Mastering

10

1.1 Mixing (Abmischung) Automatisierung Spuren-Routing Total Recall (Nein, nicht der Film....) Fr die einen ist es ein Mixdown, fr die anderen ein Trackbouncing... 1.2 Was ist Mastering und wann macht es Sinn? Typische Bestandteile eines Masterings Vorbedingungen und Effizienz Warum das Konzept "loudness race" nicht aufgeht Wie man es sich erzhlt Ursprnge der Dynamikbearbeitung 1.3 Was ist Pre-Mastering und wann macht es Sinn? Pre-Mastering und technisches Mastering Zielformate 1.4 Wer kann was...!? Vom Tontechniker bis zum Mastering-Engineer
2. Psychoakustische Grundlagen
Wie psychoakustische Phnomene die Wahrnehmung von Musik beeinflussen

10 11 11 12 12 13 13 14 14 17 17 17 19 20

23

2.1 Wichtige psychoakustische Phnomene Lautstrke? Ansichtssache! Verdeckungseffekt (Maskierung) Schwebungen Wenn zwei sich aneinander reiben, werden sie manchmal auch eins Residualton Hren, was nicht da ist... Gehrgewhnung (Adaptation) Alles reine Gewhnungssache... Absolutes Gehr (Tonhhengedchtnis) Nicht nur fr Mozart! Selektives Hren (Cocktail-Party-Effekt) Wahrnehmung schafft Wirklichkeit
3. Frequenz und Lautstrke

23 23 23 24 24 24 24 25
27

3.1 Frequenz (Tonhhe) Hertz (Hz) Phase Hrumfang Frequenzbereiche und ihre Charakteristika 3.2 Lautstrke (Schalldruckpegel) und Signalpegel Amplitude Messung des Pegels Schalldruckpegel-Angaben in Pascal (pa) und dBSPL Signalpegel in dBu

27 27 27 28 29 29 29 30 30 31

dB-Angaben mit Bewertungsfilter Von der Hrschwelle zur Schmerzgrenze... Tabelle: Lautstrke (in dBA) von Schallereignissen Ohne Bezug auf den Hrabstand ziemlich sinnlos! Lautheit (psychoakustische Lautstrke) Alles ist genauso laut, wie du es hrst... Phon und Sone ... aber messen wollen wir es trotzdem! dB RMS Digitaler Signalpegel in dB Full Scale (dBFS) Wenn aus Spannung pltzlich Zahlen werden... 3.3 Signal-bersteuerungen (Clipping) bersteuerungen im digitalen Bereich bersteuerungen bei digitalen Wiedergabegerten bersteuerungen im analogen Bereich 3.4 Signalpegelmessung (Metering) Peakmeter (PPM) und VU-Meter Skalierungen von Peakmetern Eine Vielzahl von Definitionen 3.5 Frequenzabhngige Lautstrkewahrnehmung (Kurven gleicher Lautstrkepegel) Gehrrichtige Lautstrke-Entzerrung (Loudness, Contour)
4. Grundlagen in Digital-Audio Analog wird digital!?

31 32 33 34 35 36 36 36 36 37 38 39 39 39 42 43
44

4.1 Digitalisierung (A/D-Wandlung) Sampling und Samplerate Abtastung mal hppchenweise! Quantisierung und Bitrate Rein ins Schema! Bitrate und Samplewert 4.2 Dynamikumfang (Systemdynamik) Signal-to-Error-Ratio Nicht immer praxistauglich! Signal-Rausch-Abstand, Signal-to-Noise-Ratio (SNR) Strspannungs- und Geruschspannungs-Abstand Je nach Messmethode! Footroom und Headroom Abstandshalter...! 4.3 D/A-Wandlung (Digital-Analog-Conversion, DAC) 4.4 Fehlerquellen im digitalen Bereich und Lsungsanstze Rundungsfehler, Quantisierungsfehler Berechnungen im Fixkomma- und Gleitkommaformat Quantisierungsrauschen Sampling-Jitter Das unterschtze Problem Aliasingeffekt Argumente fr 96 kHz Argumente gegen 96 kHz 4.5 Auf dem Weg zur CD Red-Book-Format und Bitratenkonvertierung Der Re-Quantisierungsfehler Truncation Einfach "Wegschneiden"? 4.6 Dithering Sinn oder Unsinn? Noiseshaping Die wichtigsten Dither-Algorithmen 4.7 Was ist besser? Digital oder Analog? 4.8 Auf dem Abweg zur MP3

44 44 45 47 47 48 49 49 49 49 50 50 50 51 51 52 52 53 54 54 54 54 55 56 56 57 58

5. Dynamikbearbeitung

60

5.1 Audio-Kompression (Audio-Compression) (Downward)-Kompression 5.2 Kompressor-Parameter Threshold und Ratio (Schwellenwert und Kompressionsgrad) Attack und Release (Ansprechzeit und Abschwellzeit) Make-Up-Gain und Auto-Gain Hard Knee und Soft Knee Ducking 5.3 Arten von Audio-Kompressoren Optokoppler-Kompressoren behutsam! Multiband-Kompressoren Mehr Mglichkeiten, mehr Risiken! Vintage-Kompressoren Limitierung (Limiting) Grenzen setzen! Brickwall- und Soft-Limiting 5.4 Upward-Kompression 5.5 Audio-Expansion Downward- und Upward-Expansion 5.6 Normalisierung (Normalising)
6. Frequenzbearbeitung

60 60 61 61 62 63 63 64 64 64 64 64 65 66 66 66 66 67
69

6.1 EQing (Equalization) 6.2 EQ-Parameter Filtergte und Q-Faktor (Q), Bandbreite (N) Flankensteilheit (slope) Wirkungsgrad (Gain, Range) 6.3 EQ-Filtertypen Filterverhalten bei Low- und High-Cut-Filtern 6.4 Arten von Equalizern Parametrischer EQ halb oder voll? Graphischer EQ Alles auf einen Blick! Para-graphischer EQ Linearer EQ Umrechnung der Bandbreite (N) in den Gtefaktor (Q)
7. Raumakustik mehr Platz fr Musik!

69 69 69 69 70 70 72 73 73 73 74 74 74
76

7.1 Schall Direktschall Direkt von der Quelle Reflexionsschall Schallabsorption Den Schall schlucken Schallhindernisse Schallbeugung (Diffraktion) und Schallbrechung (Refraktion) Hall Early Reflections Pre-Delay Echo Raumeigenmoden Flatterechos 7.2 Schalldmpfung

76 78 78 78 79 79 79 79 80 80

Porse Absorber Porsitt Strmungswiderstand (R) Lochplatten-Absorber (perforierte und mikroperforierte Absorber) (Mikroperforierte) Folien-Absorber Schlitzplatten-Absorber Resonatoren Plattenresonatoren (Plattenschwinger) Helmholtzresonatoren 7.3 Versatzkonstruktionen 7.4 Diffuser Raumklang (Diffusitt) 7.5 Akustik des Regieraums LEDE tot und lebendig! Nachhallzeit 7.6 Schluss mit lrmenden Recording-PCs wie man seinem PC das Schweigen beibringt, ohne ihn auszuschalten... PC-Lfter Mainboard Festplatten CD-, DVD-Laufwerke Silent-PC-Gehuse Anforderungen an den PC
8. Studiomonitore (Abhrmonitore)

81 81 81 82 83 83 83 83 83 84 84 85 85 90 91 91 93 93 93 93 95
96

8.1 Aufstellung von Studiomonitoren 8.2 Nahfeldmonitoring Musik aus nchster Nhe 8.3 Eigenschaften von Studiomonitoren Frequenzgang Neutraler Klang bei Lautsprechern? Impulsverhalten Aktive und passive Frequenzweichen Lautsprechergehuse Membranmaterial
9. Mixing

96 97 98 98 98 101 101 102 102


103

9.1 Klangqualitt der Aufnahmen 9.2 Bitrate und Samplerate beim Mixing 24 Bit gegenber 16 Bit Verschiedene Sampleraten im Vergleich Destruktive und non-destruktive Signalbearbeitung 9.3 Grundstzliche EQ-Techniken beim Mixing Kompletives EQing Wie man Frequenzbereiche unterschiedlicher Signale aufeinander abstimmt Subtraktives EQing Wie man Frequenzbereiche indirekt hervorhebt 9.4 Grundstzliches zum Einsatz von Kompression beim Mixing Komprimieren von Einzelspuren Komprimieren des Bassbereiches ein Fall fr sich! 9.5 Stellung im Panorama (Panning)

103 104 104 104 105 105 105 106 108 108 110 111

9.6 Mehr Tiefenstaffelung durch Reverb und Delay Parameter von Halleffektgerten Einsatz von Delay-Effekten 9.7 Exciter und Enhancer Neuer Glanz fr matte Tne! 9.8 Saturationseffekte digital oder original? 9.9 Vom Rough-Mix zum finalen Mix I. Abhrlautstrke II. Korrekturen Pegelangleichungen DC-Versatz (DC-Offset) De-Noising De-Humming De-Clicking III. Mixing Vorbereitungen EQing- und Kompressor-Tabelle - Frequenz- und Dynamikbearbeitung einzelner Instrumente Strende Resonanzen finden Sweeping berschtzte Methode Exemplarischer Ablauf eines Mixings 9.10 Monokompatibilitt und Korrelationsgrad 9.11 Mixdown, Summierung Analoges Summieren Aussteuerung des Signalpegels beim Mixdown 9.12 Ziel-Formate
10. Summenbearbeitung

112 114 114 115 115 116 116 117 117 117 118 118 119 120 120 121 121 127 133 133 133 134 134
135

10.1 Mastering Sicherungskopie Projekt-Workflow A/B-Hren Kopfhrer beim Mastern? Kalibrierung der Studiomonitore I. berprfung auf DC-Versatz II. berprfung auf Monokompatibilitt III. Sweetening Tontechnischer Zuckerguss! Transparente EQ-Bearbeitung Reihenfolge von EQing und Kompression IV. Optimierung des Frequenzgangs Korrekturen im Bassbereich Low- und High-Cut EQing beim Mastering V. Optimierung der Lautheit Multiband-Kompression Layback-Mastering Kalibrierung von Bandmaschinen

135 137 137 137 139 139 140 140 140 140 140 140 140 141 142 142 145 146 148

VI. Weitere Effekte beim Mastering Exciter und Enhancer Summen-Hall VII. Limitieren 10.2 Pre-Mastering I. Re-Sampling II. Konvertierung der Bitrate, Dithering III. Normalisieren der Musikzusammenstellung IV. Tracklist Mit der richtigen Tracklist Wirkung erzielen V. PQ-Editing Subindizes ISCR-Codes Kopierschutz-Flags CD-Text VI. Fade-Outs und -Ins als Gestaltungsmittel (Spacing) VII. Erstellen einer Pre-Master-CD DAO & TAO-Schreibweise Die CD als Pre-Master-Medium Exkurs: Audio-CD und CD-R Mastern auf CD-R? Qualitt von CD-Rs Qualittsgrad und CD-Fehlerspezifikationen Beschichtungen (Dye) Handhabung EAN- und UPC-Code Erstellen von mp3s
11. Musikrecht

149 149 149 149 151 153 153 153 155 156 156 156 156 157 157 157 157 158 159 159 159 160 161 161 162
164

11.1 Urheberrecht 11.2 Vervielfltigungs-, Verbreitungs-, Verffentlichungsrecht 11.3 Verwendung des Copyright-Vermerks 11.4 Hufige Irrtmer ber den Beleg der Urheberschaft 11.5 Gemeinsame Urheberschaft 11.6 Urheberschutz von Arrangements 11.7 Plagiate Wirksamer Schutz vor Plagiarismus Plagiarismus Panikmache?!
Anhang 169

164 164 165 165 165 166 166 166 167

432 Hertz Musik in neuen Tnen Argumente fr einen neuen Kammerton mit a1=432 Hz Nachwort

169 169 172

Wichtige Maeinheiten und Formeln sind (bei deren erster Erwhnung) im Text blau markiert. So knnen Sie sich diese besser einprgen. Fachbegriffe (sofern nicht bereits Bestandteil einer berschrift) sind im Text fett hervorgehoben, um sie beim Nachschlagen schneller zu finden. Im Register finden Sie eine bersicht vieler Fachbegriffe. Ausgelassen wurden dabei Begriffe, die bereits in einer berschrift stehen und dadurch ja schon auf die entsprechenden Kapitel verweisen, in denen diese Fachbegriffe erklrt werden. Das Register dient also als Ergnzung. In den Funoten werden einige Inhalte ergnzt oder vertieft. Diejenigen, die solche Vertiefungen nicht bentigen, mssen die Funoten nicht mitlesen. Daraus ergeben sich keine Nachteile fr die praktische Anwendbarkeit dieses Buches. Dieses Buch ist so gegliedert, dass alle Themen so logisch und nachvollziehbar wie mglich aufeinander aufbauen. Man es dennoch auch sehr gut quer lesen. Bei meinem anderen Buch, dem Audio-Recording-Guide, liegt der Schwerpunkt auf Recording, Aufnahmeakustik und Mikrofonierung.

1. Einfhrung - Mixing, Mastering, Pre-Mastering


1.1 Mixing (Abmischung)
Wenn man ein Mischpult sieht, wei jeder, was damit gemacht wird. Genau das, was der Name schon sagt: Man mischt damit. Darf diesen Vorgang aber auch als "abmischen" (engl.=to mix) oder "mixen" bezeichnen. Substantiviert macht man daraus im Englischen den Begriff "Mixing" (dt.=Abmischen) und bezeichnet das Resultat als "Mix" oder "Abmischung". Eine fertig abgemischte ("gemixte") Produktion wird als finale Abmischung oder finaler Mix (engl.="final mix") bezeichnet. Wrter wie "mixen" und "mischen" sind jedoch vieldeutig: "Mixen" tut man z. B. auch mit einem Stabmixer und Zutaten lassen sich bekanntlich ebenso "mischen"... In der Tontechnik bevorzugen wir deswegen manchmal das Wort "abmischen", damit niemand in die Kche rennt, wenn es heit: "Wir wollen jetzt den Song mixen!". Versuchen wir den Begriff Mixing einmal genauer zu definieren: Mixing bedeutet, die in verschiedene Aufnahmespuren enthaltenen Bestandteile einer Musikproduktion (ton)technisch richtig und musikalisch ansprechend aufeinander abzustimmen. Das geschieht berwiegend, indem man die (auf den Aufnahmespuren enthaltenen) Aufnahmen einzeln bearbeitet. Daher zhlt das Mixing zur sog. Einzelsignal-Bearbeitung. Die auf einer Tonspur enthaltene Aufnahme bezeichnen wir also (so ganz "unpersnlich") als Audiosignal (bzw. vereinfacht als "Signal"). Das Ziel ist natrlich, einen professionell klingenden Mix zu erreichen. Doch was ist unter "professionell" zu verstehen? Zu einem gewissen Teil ist das Geschmackssache und damit subjektiv. Jeder professionelle Mix hat aber auch "intersubjektiv" wahrnehmbare Klangmerkmale. Intersubjektiv heit, dass diese Merkmale von jedem Hrer mit gesundem Gehr und unabhngig vom Wiedergabesystem (sofern es korrekt funktioniert und nicht bersteuert wird) wahrgenommen werden knnen, also wirklich "objektiv" vorhanden sind. Bass-, Mitten- und Hhenbereiche klingt ausgewogen. Kein Drhnen im Bassbereich, keine scharfen Hhen oder mulmig klingenden Mitten. Alle musikalischen Bestandteile sind (auf guten Wiedergabesystemen) gut heraushrbar ("transparent"). Dennoch wirken sie wie eine Einheit zusammen ("organisch"). Die musikalisch wichtigsten Bestandteile (z. B. Gesang) stehen im Vordergrund, sind aber dennoch gut im Mix "eingebettet". Die Lautstrkeverhltnisse der Einzelsignale sind in musikalisch ansprechender und technisch richtiger Weise aufeinander abgestimmt. Der Mix klingt zwar "rumlich", der Raumhallanteil ist aber nicht als Hall direkt heraushrbar. Auer natrlich bei Stellen im Mix, bei denen der Raumhall deutlich hrbar sein soll (z. B. bei Gitarren-Soli). In einer nicht abgemischten Produktion verdecken sich meistens die Einzelsignale. Hufig kommt es Drhnen im Bassbereich und die Signale wirken (besonders bei digitalen Aufnahmen) oft leblos und trocken. Zu so einem Klangeindruck sagt man dann, der Mix ist schlecht "durchhrbar". Wie gut oder schlecht eine nicht abgemischte Produktion klingt, hngt auch sehr stark von der Qualitt der Aufnahmen ab.

Automatisierung

Idealerweise versucht man schon vor dem Mixing den bestmglichen Aufnahmesound zu erzielen. Dann besteht das Mixing berwiegend nur aus dem Abmischen der Lautstrke Tonspuren und das Positionieren der Signale im Stereo-Bild (Panorama). Weitere Einzelsignalbearbeitung wie z. B. der Einsatz von sog. Equalizern und Audio-Kompressoren ist dann teilweise gar nicht oder nur im geringen Mae notwendig. Es ist also ein Irrtum, wenn man glaubt, dass der gute Sound einer Produktion erst durch das Mixing entsteht. Bereit im ungemixten Stck liegt also die Substanz und die muss gut sein. Es fehlt dann nur noch die letztendliche Form und Struktur, die man praktisch wie ein Bildhauer frei legen muss. Nach den Aufnahmen sind in einem Mix meist berflssige Ton-Spuren bzw. Aufnahme-Bestandteile vorhanden, die aussortiert werden mssen. Die verbleibenden Spuren sollten sinnvoll geordnet und der Inhalt jeder Spur eindeutig sein. Tipp: Die Spuren beschriften und je nach Instrument farblich markieren und entsprechend ordnen. Einzel-Spuren und Gruppen-Spuren (BUS-Spuren) sind auf einem Mischpult getrennt voneinander angeordnet, z. B.: "Spur 18, Gruppenspur (BUS) 1 und 2, Master-Spur". Dieses Schema sollte man auch auf digitale Software-Mischpulte bertragen.

Track-by-Track
Durch Track-by-Track-Recording kann man mehrere Spuren "Spur fr Spur" (engl.="track-by-track"), also nacheinander, aufnehmen. So lassen sich hufig mehr Aufnahmen in eine Produktion integrieren und gleichzeitig wiedergeben, als dies live mglich wre. Die Live-Umsetzung einer solch komplexen Produktion stt dann ohne genug Live-Musiker (bzw. Halb-Playback) an ihre Grenzen. Die fertig abgemischte (gemixte) Produktion wird als finale Abmischung oder finaler Mix (engl.="final mix") bezeichnet.

Automatisierung
Was besonders im Vordergrund steht, kann sich im Laufe eines Songs ndern. (Damit hat eine Produktion einiges mit dem richtigen Leben gemeinsam...). Die Lautstrke einer Spur muss also manchmal an einigen Stellen angepasst werden. Bei digitalen Mischpulten kann man durch das sog. Automatisieren die Position der Mischpult-Kanalzge (engl.="fader") whrend des Playbacks einprogrammieren. So kann man Lautstrkeschwankungen innerhalb einer Aufnahme-Spur ausgleichen oder Signale zeitweise lauter oder leiser regeln. Zumindest bei Software-Mischpulten kann man nahezu jeden Spur-Parameter, wie z. B. Pan-Pot (= Pan, Panorama), Equalizer (EQ) automatisieren und hufig auch die an der Spur (per Insert oder Aux) anliegenden Effekte (Hall etc.).

Spuren-Routing
Das Wort "Bus" kennt jeder aus dem Straenverkehr. In einem Bus werden mehrere Personen zu einer "Gruppe" zusammenfasst und gemeinsam "transportiert". Dieses Prinzip findet man auch bei den sog. BUS--Spuren eines Mischpults. Eine BUS-Spur (Gruppen-Spur) fasst die Signale mehrerer Einzel-Spuren zusammen und gibt dadurch deren Audio-Summe wieder.

11

Audio-Mastering-Guide

Effekte auf einer BUS-Spur betreffen deswegen die Signale aller Spuren, die zur BUS-Spur gerouted werden. So kann man z. B. mehreren Spuren den gleichen Effekt zuweisen. Das ist natrlich nur sinnvoll, wenn die auf der BUS-Spur zusammenlaufenden Spuren tatschlich mit dem gleichen Effektgert bearbeitet werden sollen. Ohne BUS-Spur bruchte man das jeweilige Effektgert mehrmals (bzw. msste mehrere Instanzen desselben Audio-Plug-Ins einsetzen). Durch BUS-Spuren bearbeitet man hufig Instrumenten-Gruppen (z. B. alle Drum-Spuren) innerhalb einer Mischung separat. Ein solcher sog. Submix (engl. "sub"=unter...) ist also eine (hierarchisch untergeordnete) Abmischung innerhalb der Abmischung, ein "Mix im Mix".

Total Recall (Nein, nicht der Film....)


Es gibt verschiedene Mglichkeiten ein Stck technisch richtig und musikalisch ansprechend zu mixen, die auf unterschiedliche Arten interessant sein knnen. Dies ist auch eine Frage des Musik-Genres und derzeitiger allgemeiner Hrgewohnheiten. Oft werden verschiedene Mixe erstellt, wie z. B. Radio-Edits, Vocal-Mixe und Re-Mixe, die jeweils andere Einstellungen am Mischpult erfordern. Bei analogen Mischpulten muss man die Einstellungen der Mischpult-Parameter aufschreiben, um sie spter wieder identisch einstellen zu knnen. Bei digitalen Pulten knnen die Einstellungen abgespeichert werden. Vorher aufgezeichnete Mischpult-Einstellungen wieder zu bernehmen, bezeichnet man als Total Recall (engl. "total recall"=absolutes Erinnerungsvermgen). Grade weil viele Tontechniker kein absolutes Gedchtnis haben, bentigen sie ein "total recall".

Fr die einen ist es ein Mixdown, fr die anderen ein Trackbouncing...


Nach dem Abmischen erfolgt der Mixdown, bei dem man alle bentigten Spuren auf eine Summenspur routet (=summiert) und die Audio-Summe dann auf einer Tonspur aufzeichnet bzw. digital generiert. Im analogen Audiobereich erfolgt ein Mixdown meist ber den Master-Ausgang des Mischpults auf eine 2-Spur-Master-Bandmaschine. Dafr muss die Abmischung also in Echtzeit (engl.="realtime") berspielt werden. Im digitalen Bereich wird beim Mixdown das Summensignal der Einzel-Spuren berechnet und als Audio-Datei abgespeichert. Jedoch ist auch im digitalen Bereich oft ein Mixdown in Echtzeit mglich. Hufig werden die Begriffe Mixdown und Trackbouncing verwechselt. Trackbouncing (engl. "to bounce"=hinausschmeien) wird notwendig, wenn bereits zu viele Aufnahmspuren belegt sind. Dann summiert man mehrere Spuren auf eine andere Spur. Die so frei werdenden Einzel-Spuren kann man wieder fr neue Aufnahmen nutzen. Es geht also darum, Platz zu schaffen, wodurch man diesen Vorgang durchaus als "hinausschmeien" verstehen kann. Z. B.: Spur 58 werden auf Spur 9 summiert (gebounced) und danach werden Spur 58 fr neue Aufnahmen genutzt.

12

Typische Bestandteile eines Masterings

1.2 Was ist Mastering und wann macht es Sinn? Typische Bestandteile eines Masterings
Ohne Mastering ist eine Produktion nur in uerst seltenen Fllen verffentlichungstauglich. Alle Arbeitsschritte des Masterings beziehen sich auf das Summensignal. Einzelne Spuren im Mix knnen beim Mastering also nicht bearbeitet werden. Beim Mastering werden Frequenzgang, Panorama, Lautstrke und Dynamik mit folgender Zielsetzung bearbeitet: Die Lautheit der Produktion soll sich gegenber aktuellen kommerziellen Produktionen durchsetzen. Der Frequenzgang soll auf allen Lautsprechern (einschlielich Kopfhrern bzw. Ohrhrern) ein "relativ" ausgewogenes Klangbild ermglichen. Die Produktion soll auch in Mono gut klingen und alle musikalischen Bestandteile enthalten (monokompatibel). Produktionen, die in verschiedenen Aufnahme-Studios entstanden, sollen durch das Mastering Zusammenhalt gewinnen. Durch Klangveredelung (engl. "sweetening") soll das technische Klangbild professioneller wirken. In manchen Fllen knnen beim Mastering auch kleinere Fehler im Summen-Signal korrigiert werden. Fr Mixing und Mastering zieht man eine hoch-professionelle1 Studioproduktion als Referenz (Vergleich) hinzu. Die Referenz sollte als Beispiel fr ein absolut hervorragendes und natrliches Klangbild dienen, also "audiophilen" Charakter haben. Der Begriff "audiophil "setzt sich aus dem lat. "audio" (= Gehr haben, hren [knnen], anhren, zuhren) und dem griechischen "philia" (= Liebe) zusammen. Er bedeutet frei bersetzt "die Liebe zum Hren". ber Klangqualitt sagt die "Etymologie" (= die im Wort enthaltenen Bedeutung) des Wortes "audiophil" also nichts aus. Es ist jedoch logisch, dass die "Liebe zum Hren" durch eine hervorragend klingende Produktion gefrdert wird. Da bei der Referenz-Produktion meist mit anderem Equipment und unter anderer Aufnahmeakustik produziert wurde, wird das technische Klangbild der eigenen Produktion nicht genauso so klingen knnen, wie das der Referenz-Produkion. Wurde eine Produktion z. B. mit 2-Zoll-Bandmaschinen recordet und wird dann als Referenz fr eine rein digitale Produktion genutzt, wird die digitale Produktion immer ein etwas anderes technisches Klangbild besitzen.

1Ab

wann man von einer "professionell" klingenden Produktion oder einer sehr guten Produktionsqualitt versteht, ist nicht eindeutig definiert. Es gibt dafr also keine DIN-Norm o. . und deswegen besitzt diese Frage einen gewissen Interpretations-Spielraum. Selbst bei Bandbernahme-Vertrgen wird "sehr gute Produktionsqualitt" nicht genau definiert. In der Praxis versteht man unter einer "professionell" klingenden Produktionen ein technisches Klangbild, das (aktuellen) kommerziellen Produktionen entspricht. Um dies zu gewhrleisten, setzt man hochwertige Tonstudio-Technik, akustisch optimierte Aufnahme- und Regierrume und professionelle Fachkrfte (Tontechniker, Aufnahmeleiter, Akustiker u. a.) ein.

13

Audio-Mastering-Guide

Die Instrumentierung und das Genre der Referenz sollten der eigenen Produktion entsprechen oder so weit wie mglich hneln. Dann kann man z. B. den durchschnittlichen Frequenzgang, die durchschnittliche "Lautstrke" und die Panorama-Verteilung beider Produktionen durchaus miteinander vergleichen.

Vorbedingungen und Effizienz


Recording und Mixing sind die Grundlagen fr ein gutes Mastering. Das Mastering selbst dient nur der Optimierung. Wie viel ein Mastering klanglich bringen kann, hngt damit nicht nur vom Audio-Engineer, sondern auch von der Produktionsqualitt des Songs ab. Mastering kann nur dann ein hoch-professionell klingendes Resultat erzielen, wenn Aufnahmen und Abmischung professionell genug sind. Selbst eine tontechnisch mittelmige Produktion wird durch ein Mastering aber deutlich besser klingen. Mastering garantiert also eine Aufwertung. Vergleichen wir es mit dem Polieren einer Lackierung: Selbst bei einer stmperhaften Lackierung (mit Lacknasen, Luftblschen und Schlieren) wird das Polieren eine optische Aufwertung bringen. Eine Lackierung wird dadurch aber noch lange nicht professionell wirken, nur "besser"! Die Wirkung des Polierens kommt erst dann voll zum tragen, wenn die Lackierung gut genug ist. Nach dem Mastering erfllt eine Produktion alle Voraussetzungen, um durch das anschlieende Pre-Mastering auf ein (vervielfltigungsfhiges) Medium bertragen zu werden (z. B. CD, Schallplatte).

Warum das Konzept "loudness race" nicht aufgeht


In der Tontechnik bezeichnet man die "subjektiv wahrgenommene", also die tatschlich "gehrte Lautstrke" nicht als "Lautstrke", sondern mit dem Begriff Lautheit [engl.="loudness"]. "Lautheit" bezeichnet also das, wofr man im Alltagsdeutsch das Wort "Lautstrke" verwendet. Beim Mastering legt man besonders Wert darauf, dass die Produktion eine mglichst hohe Lautheit besitzt und druckvoll klingt. Die Musik soll (bei gleicher Wiedergabe-Lautstrke!) mindestens so laut klingen wie andere aktuelle kommerzielle Produktion aus der gleichen Musikrichtung. Wenn die subjektiv wahrgenommene Lautstrke also als Lautheit (und nicht als Lautstrke!) bezeichnet wird, was versteht man in der Tontechnik dann unter "Lautstrke"? "Lautstrke" ist dort nur ein anderes Wort fr den Schalldruckpegel (engl.="sound pressure level", SPL). Den Schalldruckpegel kann man objektiv messen, wie laut etwas klingt, kann man nur selber hren, aber nicht wirklich objektiv messen.Der Schalldruckpegel sagt deswegen nichts Genaues darber aus, wie laut der jeweilige Schalldruck vom Hrer tatschlich subjektiv wahrgenommen wird. Er sagt also nichts Genaues ber die Lautheit (gehrte Lautstrke) des Schalldrucks aus. Erhht man den Schalldruckpegel, erhht sich damit tendenziell auch die "gehrte Lautstrke" (Lautheit). Davon kann sich jeder selbst berzeugen, indem er seine Anlage schrittweise weiter aufdreht! Dennoch entspricht die "Lautstrke" (Schalldruckpegel) nicht der "gehrten Lautstrke", denn es ist mglich, dass der Schalldruck sehr hoch ist, aber aus Tnen besteht, die auerhalb des Wahrnehmungsbereichs des Menschen liegen. Ebenso knnen sich Alter, Krankheiten, Medikamente und andere Faktoren darauf auswirken, wie "laut" ein Schallsignal subjektiv wahrgenommen wird. Z. B. empfindet man kurz vor dem Einschlafen Schallereignisse oft lauter als sonst. Schallereignisse, die man als subjektiv strend empfunden wirken,

14

Warum das Konzept "loudness race" nicht aufgeht

werden subjektiv oft lauter wahrgenommen als solche, die man als subjektiv angenehm empfunden werden. Da die Hhe des Schalldruckpegels also keine eindeutige Aussage ber die Lautheit zulsst, kann der Schalldruckpegel unterschiedlicher Produktionen (bei gleicher Aussteuerung) gleich hoch sein, aber dennoch eine unterschiedliche "gehrte Lautstrke" (Lautheit) besitzen. Der Schalldruckpegel ist ein theoretischer Wert, etwas, was man messen aber "als Ding an sich" nicht wahrnehmen kann. Die Lautheit kann man aber mit eigenen Sinnen wahrnehmen. Dadurch ist Lautheit ein Wahrnehmungsphnomen, dessen Existenz man ohne technische Hilfsmittel und deswegen (im wahrsten Sinne des Wortes) "empirisch" berprfen kann. ("Empirisch" bedeutet: "aus eigener Erfahrung und Beobachtung gewonnen" [gr. mpeiros = erfahren, kundig]). Man knnte voreilig schlussfolgern, dass man den Pegel der Produktion nur hoch genug einstellen muss, damit sich "tendenziell" auch eine hhere Lautheit ergibt. Dann htte man doch, was man will: Eine mglichst laut klingende Produktion! Jedoch mssen Lautstrkeschwankungen mglichst gering sein, damit ein Stck eine gleichmige Lautheit bekommt. Das kann man nicht durch eine bloe Anhebung des Pegels erreichen. Auerdem gibt es eine technische Grenze fr die Maximal-Hhe des Audio-Signal-Pegels. Dadurch kann das Signal also nicht beliebig weit erhhen. berschreitet man diese Grenze, kommt es bei digitalen Systemen sofort zur totalen Verzerrung des Signals. Bei analogen Systemen setzt die Verzerrung ab dem berschreiten der kritischen Grenze langsam ein und erreicht noch nicht ihr volles Ausma. Mehr oder weniger weit oberhalb der kritischen Grenze kommt es auch bei analogen Systemen sofort zu einer totalen Verzerrung. Um die Lautheit dennoch effektiv steigern zu knnen, verringert man die Dynamik. Dynamik ist der Lautstrkeunterschied (bzw. die Spanne) vom leisesten bis zum lautesten Signal in einer Signalfolge. Schon eine einzige aus dem restlichen Audio-Signal weit herausragende Pegelspitze fhrt also zu einer Erhhung der genutzten Dynamikspanne. Eine solche Pegelspitze erreicht als erstes die kritische Grenze, wenn man den Signalpegel eines Musikstcks erhht. Dadurch liegt es an den hchsten Pegelspitzen, wie weit man ein den Signalpegel erhhen kann. Damit der Pegel einer Produktion effektiver erhht werden kann, mssen hohen Pegelspitzen also abgesenkt werden. Dann liegen die hohen Pegelspitzen nher an den restlichen Pegelspitzen. Dadurch kann der Pegel des Stcks etwas weiter erhht werden. Aber auch dann hngt es von der hchste Pegelspitze ab, wie weit eine Erhhung mglich ist. Um hohe Pegelspitzen abzusenken, kommen Audio-Kompressoren und Audio-Limiter (dt.="Begrenzer") zum Einsatz. Limiter machen prinzipiell das gleiche wie Kompressoren, nur wesentlich schneller und drastischer. Limiter werden deswegen dafr genutzt, die Hhe des Maximalpegels eindeutig zu "begrenzen". Sie setzen dem Signalpegel also eine "Grenze", die nicht berschritten werden kann. Bei einem Kompressor ist das etwas anders. Die Ansprache des Kompressors ist etwas trger. Je nach Einstellung der Kompressor-Parameter kann das Signal also die vom Kompressor gesetzte Grenze zeitweise und in einem bestimmten Mae berschreiten. Eine wirklich exakte und vollkommene "Begrenzung" ist dadurch nicht mglich. Bei beiden Verfahren werden hohe Pegelanteile abgesenkt. Kompressoren und Limiter machen das Signal dadurch leiser, aber auf eine Art und Weise, die es ermglicht, den Signal-Pegel nachtrglich hher auszusteuern, als es ohne sie mglich gewesen wre! Es ist also ein immer noch weit verbreiteter Irrtum, dass Kompressoren und Limiter das Signal lauter machen wrden. Sie schaffen nur die Voraussetzungen dafr, es "effektiv" erhhen zu "knnen".

15

Audio-Mastering-Guide

Auerdem knnen sie durch das Abregeln hoher Pegelanteile Lautstrke-Schwankungen reduzieren, wodurch die Lautheit gleichmiger werden kann. Die unterschiedliche Lautheit von Produktionen fllt meist nur im direkten Vergleich und bei gleicher Wiedergabelautstrke auf. Mit grerer Lautheit die Aufmerksamkeit des Hrers erlangen zu wollen, fhrt manchmal eher zum Gegenteil. TV- und Radio-Werbespots trimmt man heute so stark auf Lautheit, dass sie sich strend vom restlichen Programm absetzen. So was ist eher marktschreierisch als kundenfreundlich. Die hufige Folge: Anstatt die Werbung brav zu "konsumieren" ist man genervt vom pltzlichen "Lautstrkeanstieg" und zappt zum nchsten Sender oder stellt den Ton einfach stumm. Eine relativ leise Produktion hat jedoch den Nachteil, dass der Hrer die Wiedergabelautstrke am Gert erhhen muss. Nachfolgende lautere Produktionen wrden dadurch wieder das Nachregeln der Wiedergabelautstrke erfordern. Das gilt natrlich nur, wenn der Hrer direkt hintereinander Titel unterschiedlich lauter Produktionen hrt. Den scheinbar nicht endenden Wettstreit um die lauteste Produktion bezeichnet man als loudness-race. Viele Tontechniker versuchen heute durch massiven Kompressor- und Limiter-Einsatz Produktionen noch lauter zu machen, als die ohnehin schon sehr lauten Konkurrenzproduktionen. Radiosender trimmen Produktionen vor dem Senden nochmals auf hhere Lautheit. Die Lautheitssteigerung von Produktionen ist ab Mitte der 1990er an einen Punkt gelangt, der bedenklich auf Kosten der Musikalitt geht. Im Zuge der "loudness-race" nehmen manche Tontechniker selbst digitale bersteuerungen in Kauf, um die Lautheit noch weiter zu maximieren. Im Bereich elektronischer Tanzmusik beurteilen viele DJs sogar die Vorfhrtauglichkeit eines Titels aufgrund der Lautheit und weigern sich "leisere" Produktionen in ihr Set aufzunehmen. Muss man bei diesem Trend mitziehen, um nicht ganz im Schwarm der "loudness-race" unterzugehen? Gerade das wrde die "loudness race" weiter aufrechterhalten. Das Argument "Das machen doch alle so!", ist die Ursache dafr, dass es garantiert weiterhin "alle" so machen werden. Da heute scheinbar jeder mglichst laut produziert, kann sich eine laute Produktion nicht mehr wirkungsvoll von anderen (aktuellen) Produktionen absetzen. Wenn dem Hrer die Musik nicht gefllt, ntzt auch der erste Platz bei der "loudness race" nichts. In allen anderen "natrlichen" Wiedergabesituationen, von Bandproben bis hin zur Orchesterdarbietung, wird man immer eine gewisse Dynamik finden. Diese trgt zu einem lebendig wirkenden Klangbild bei. Viele Aufnahmen wirken mit miger Kompression deswegen musikalischer. Das Steigern der Lautheit ist sinnvoll, wenn (bezogen auf das jeweilige Genre) genug Dynamik fr eine musikalisch ansprechende Wirkung erhalten bleibt. Durch digitale Aufnahmeverfahren ist es mglich, sehr groe Dynamikspannen "fehlerfrei" (d. h. ohne Rauschen) wiederzugeben. Das ist sinnvoll fr E-Musik, wie z. B. Klassik und Jazz. Die meiste U-Musik (Unterhaltungsmusik) bentigt hingegen nur eine sehr geringe Dynamikspanne.

16

Wie man es sich erzhlt Ursprnge der Dynamikbearbeitung

Wie man es sich erzhlt Ursprnge der Dynamikbearbeitung


Frher war die Dynamikreduzierung eine technische Notwendigkeit, um Aufnahmen mit groer Dynamik-Spanne (z. B. eine klassische Symphonie) auf den geringen Dynamik-Umfang einer Schallplatte bertragen zu knnen. Ohne die Dynamik nachtrglich zu reduzieren, war es sehr schwer, solche Aufnahmen fehlerfrei auf Platte zu schneiden: Die leisen Signale gingen im Grundrauschen und Knistern der Platte unter. Laute Signale fhrten zu Verzerrungen oder zum Springen der Nadel. Sie konnten beim Schneiden der Platte sogar die Vinyl-Matrize zerstren. Der Einsatz von Audio-Kompressoren ab den 1950er Jahren war also eine technische Notwendigkeit und diente nicht als stilistisches Mittel. Die komprimierte Musik ermglichte eine bessere bertragung per Rundfunk und der Hrer konnte leichter eine optimale Wiedergabe-Lautstrke finden, da die Lautstrke-Schwankungen nicht zu hoch waren. Ab den 1970ern wurden Kompressoren im Bereich der U-Musik auch als Stilmittel eingesetzt. Man konnte der Musik mehr Druck und Lautheit verleihen, was grade der damaligen Disco-Musik gut stand. Die Dynamik-Spanne fr U-Musik wurde seitdem kontinuierlich reduziert.

1.3 Was ist Pre-Mastering und wann macht es Sinn? Pre-Mastering und technisches Mastering
Das Pre-Mastering erfolgt nach dem Mastering, wird aber vor vorgenommen.
(lat.="pre")

dem sog. technischen Mastering

Beim Pre-Mastering erstellt man eine Tracklist2 und bertrgt die Musik auf einen physischen Tontrger (z. B. Schallplatte, DAT, CD). Der Tontrger dient als Pre-Master. Erst danach entsteht beim technischen Mastering das Master (z. B. ein CD-Glasmaster oder eine Matrize fr die Schallplatten-Pressung). Erst mit dem "technischen Mastering" ist die Produktion also wirklich "gemeistert" (engl.="to master"). In der Hierarchie steht das Master als Vorlage fr die Tontrgerherstellung also an erster Stelle. Das engl. Wort "master" bedeutet schlielich u. a. auch "Vorlage" [eines Originals oder Musters] und "Haupt-...". Das Wort "master-tape" bedeutet "Stamm-", bzw. "Mutterband" und zeigt damit schon, dass durch das Master als symbolische "Mutter" die industrielle Produktion der Musik berhaupt erst mglich wird. Das technische Mastering wird manchmal einfach nur als "Mastering" bezeichnet. Es hat aber mit einem Mastering im Sinne einer klanglichen Summen-Bearbeitung genauso wenig zu tun, wie das Pre-Mastering! Fr ausschlielich digital erscheinende Verffentlichungen braucht man keine Tontrger und dadurch weder ein physisches Pre-Master, noch ein physisches Master. Stattdessen wird die Musik-Zusammenstellung auf das gewnschte Datei-Format (=Ziel-Format) konvertiert (z. B. wav oder mp3). Diese Datei stellt dann quasi das "Master" dar. Wenn das Zielformat eine mp3 sein soll und dafr z. B. eine wav-Datei als Vorlage dient, wre die wav-Datei quasi das "Pre-Master" und die mp3 das "Master". Die "Master-mp3" dient dann als Vorlage zur Vervielfltigung der mp3s.

2Auswahl

und Abfolge der Musikstcke fr eine Musikzusammenstellung.

17

Audio-Mastering-Guide

Der Versuch, fr Pre-Mastering und technischen Masterings Entsprechungen in der "virtuellen Welt" zu finden, entbehrt nicht einer gewissen Ironie. Da die technische Anfertigung eines physischer Tontrger ausbleibt, gibt es nmlich kein "technisches Mastering" mehr. Die fertig gemasterte (und hufig bereits digital vorliegende Produktion) wird ja nur in andere digitale Formate konvertiert. Im Gegensatz zu einem CD-Glasmaster oder einer Vinylmatrize unterscheidet sich das virtuelle "Master" meist auch nicht von dessen Vervielfltigungen. Aus diesem Grund ist es verstndlich, wenn Mastering und Pre-Mastering manchmal synonym als Mastering bezeichnet werden. Gibt es nmlich kein technisches Mastering mehr, bildet das Pre-Mastering den letzten Schritt der Produktion und in dem Fall ist die Vorsilbe "pre" nicht mehr angebracht. Es kann ja kein "vorher" mehr geben, wenn es kein "nachher" gibt. Die Arbeitsschritte, die man einem Pre-Mastering zurechnen knnte, mssten in dem Fall also "Post-Mastering" heien. Eine andere Lsung wre, den Begriff "technisches Mastering" so zu verstehen, dass er sich "auch" auf die Anfertigung eines "virtuellen" Masters (also einer Audio-Datei) beziehen darf.

18

Zielformate

Zielformate
Medium Audio-CD (Compact Disc Digital Audio) Audio-DVD AufzeichnungsVerfahren Digital Physischer Datentrger Disc 12 cm Speicherplatz 650 MB 700 MB Max. Laufzeit 74 Min 80 Min

Digital

Disc 12 cm

DAT (Digital Audio Tape) Schallplatte

Digital

Kassette mit Magnetband

4,38 GB 160 Min. (engl. "single layered") 9,92 GB (engl. "double layered") 120 Min.

Analog

Vinyl Schallplatte ca. 30 (12) oder 48 cm (19) doppelseitig bespielt

Tonband

Analog

, , 1- oder 2-Zoll-Magnettonb and Spulengren: max. 41 cm

(Je nach Bandlnge und Abspielgeschwindigkeit, z. B.: Fr 1 Min. Laufzeit sind bei 19 cm/s Bandlauf 11.4 m Band erforderlich.) Min. 16.05 32.10 66.84 87.71 96.49

Bandlngen bis zu mehreren 1000 m m 183 366 762 1000 1100

19

Audio-Mastering-Guide

1.4 Wer kann was...!? Vom Tontechniker bis zum Mastering-Engineer


Mastering-Engineer ist die englische Bezeichnung fr einen Tontechniker (engl. "audio technician") oder einen "Mediengestalter fr Bild und Ton" oder einen "Tonmeister" (engl. "recording engineer") oder einen Ton-Ingenieur (engl. "audio engineer"), der Produktionen mastered. Der Mastering-Engineer arbeitet unter optimierter Raumakustik mit hoch-professionellem Studio-Equipment. Dadurch kann er beim Mastering intersubjektiv richtige Entscheidungen treffen und ein ansprechendes Klangbild ermglichen. Mastering-Engineers besitzen entweder Erfahrungen mit dem Mastern nahezu aller Genres, oder haben sich auf wenige oder nur ein Genre spezialisiert. Es ist meistens (aber nicht zwingend!) ein Zeichen von hoher Kompetenz fr diese Aufgabe, wenn ein Mastering-Engineer ber eine langjhrige Erfahrung im Mastern und entsprechende Referenzen verfgt. Der Titel Diplom-Ton-Ingenieur (engl. "graduate audio engineer") kann hufig im Rahmen eines Elektronikoder Informationstechnik-Studiums erworben werden. Ebenso wird der Titel Diplom-Tonmeister ber entsprechende Hochschul-Studiengnge erworben. Diese Titel zeigen, dass Kompetenzen durch einen (universitren) Ausbildungsweg erworben wurden. Ein Diplom ist zur Ausbung der Ttigkeit jedoch nicht erforderlich und in der Praxis selten anzutreffen. Die fachliche Ausbildung entsteht meist durch die Berufserfahrung im Studio. Dort kann man sich vom Praktikanten, bis hin zum Tonassistenten und Tontechniker (oder Tonmeister) in der Hierarchie hocharbeiten. Auch eine autodidaktische Ausbildung, z. B. durch das selbststndige Betreiben eines Studios, das Belegen von Audio-Workshops u. ., kann zu einem Ausbildungsgrad fhren, der den Titel "Tonmeister", "Audio Engineer" und "Tontechniker" berechtigt. Die Berufsbezeichnung Tonmeister und auch englische Bezeichnungen wie z. B. "Audio Engineer" sind (in Deutschland) nicht geschtzt, sodass sich prinzipiell jeder als Tonmeister ausgeben kann. Es gibt auerdem recht junge Ausbildungsgnge wie Mediengestalter fr Bild und Ton, die mit dem Ausbildungsstand eines Tontechnikers vergleichbar sind, sowie Hochschul-Studiengnge und private, staatlich anerkannte Fernstudiengnge in Tontechnik. Wurde ein Teilnahmezertifikat oder Titel in einer privaten Einrichtung erworben (z. B. im Rahmen eines Workshops), ist es fraglich, ob solche Leistungsnachweise auch von jedem anerkannt werden. Eine Weiterbildung im Rahmen eines Wochenend-Seminars kann wegen der kurzen Lernphase natrlich nicht mit staatlich anerkannten Abschlssen, langjhriger Berufserfahrung oder einer langjhrigen autodidaktischen Ausbildung verglichen werden. Kommt es im Rahmen eines autodidaktischen Ausbildungswegs jedoch zur Teilnahme an mehreren Workshops bzw. Seminaren und mehreren Praktika, ist solch ein Kompetenzprofil natrlich auch schon was wert! Am unmittelbarsten zeigen aber vorhandene Referenzen oder Arbeitsproben, dass Kompetenz vorhanden ist. Im Grunde braucht man in diesem Berufsfeld nur ausgezeichnet mixen und mastern knnen und "wie" man diese Fhigkeiten genau erlernt, "ob" man sie mit einem Diplom, staatlich anerkannten Titel u. . "untermauern" kann, ist zweitrangig. Traditionellerweise wird aber dennoch gern nach "offiziellen" Nachweisen fr die Kompetenzen eines Bewerbers geschaut.

20

Zielformate

Da es durchaus mehrere "richtige" Ausbildungswege gibt, sollte man versuchen, die Ausbildungsinhalte miteinander zu vergleichen. Genau das ist aber oft nur ungengend mglich, sodass letztendlich die Ergebnisse fr sich sprechen mssen und sich entsprechend rumsprechen werden. Viele international hoch angesehene Tontechniker sind in der Tat reine Autodidakten. Manche Leute, die Mastering anbieten, bezeichnen sich selber als Mastering-Engineer. Dies ist berechtigt, sofern es durch gute Arbeitsproben (oder Referenzen) bzw. eine kompetente Ausbildung nachgewiesen werden kann. Selbst wenn jemand eine gute Ausbildung genossen hat, ist er dadurch aber nicht automatisch ein "Spezialist" in Sachen Mastering. So kann jemand als Tonmeister (Recording Engineer) in seinem Studio mit Bands sehr gute Aufnahmen hervorbringen, die er dann auch selber mastered. Jedoch knnen bestimmte Faktoren dazu fhren, dass er dabei als Mastering-Engineer nicht so gute Ergebnisse erreicht, wie als Recording Engineer. Z. B. wenn im Studio die Akustik des Abhrraums nicht so optimal ist, wie die des Aufnahme-Raums. Oder wenn das zum Mastering eingesetzte Equipment fr diese Aufgabe weniger geeignet ist oder einiges an Fachwissen fehlt, das speziell fr das Mastering von Relevanz ist. So gibt es zwischen den einzelnen Anbietern von Mastering-Dienstleistungen teilweise berraschend starke qualitative Schwankungen. Leider tummeln sich in dem Bereich der Mixing- und Mastering-Anbieter auch einige schwarze Schafe, die trotz ungengender Qualifikation Mixing und Mastering-Dienstleistungen anbieten. Wenn z. B. der Background nur darin bestand, hobbymig als Bhnentechniker bei Kleinveranstaltungen zu mischen oder in einem "freien Radiosender" zu arbeiten oder kein zum Mixing/Mastering geeignetes professionelles Equipment vorliegt, sollte man skeptisch werden. Solche Leute stellen ihre Erfahrungen im reinen Amateur-Bereich, in dem Sachkenntnisse und technische Ausrstung oft mangelhaft sind, gern als Berufs-"Erfahrung" und "Know-how" dar. Mixen im Bierzelt kann jeder, denn das alkoholisierte Publikum wird den einen oder anderen Patzer schon nicht merken! "Erfahrungen" mssen also nicht zwangslufig zu Fortschritten fhren. Fortschritte werden durch das Sammeln praktischer Erfahrungen aber zumindest ermglicht. Es kommt vor, dass einige Leute durch eine autodidaktische Weiterbildung und professionelles Equipment Audiobearbeitung in professioneller Studioqualitt abliefern knnen, obwohl sie das Ganze nur als Hobby betreiben. Genauso kommt es in seltenen Fllen vor dass im Studiobereich unfachmnnisch vorgegangen wird. Diese Gefahr besteht bei Personen, die zwar Studioinhaber sind, aber dennoch wenig Arbeitserfahrung und wenig Ahnung von Tontechnik besitzen. Solche Leute geben sich manchmal als "Tonmeister", "Aufnahmeleiter" oder "Audio Engineer" aus und missbrauchen die Tatsache Inhaber eines Tonstudios zu sein, als Legitimation fr das Tragen solcher Berufsbezeichnungen. Sie sind aber hufig eben "nur" Musiker, die sich die Anschaffung eines eigenen Studios leisten konnten. Schlimmstenfalls sind sie nichtmal Musiker, sondern nur reine Studiobesitzer. Vor der Krise der Musikbranche gab es mehr groe Studios als heute. Solche Studios besitzen u. a. auch groe Aufnahmerume und knnen dadurch fr nahezu jedes Genre eine Produktionsqualitt gewhrleisten, die sich fr internationale Verffentlichungen eignet. Fr ein Mixing und Mastering sollte man grundstzlich eine kostenfreie Arbeitsprobe verlangen. Eine Hrprobe von anderem Material sagt nichts darber aus, welche klanglichen Ergebnisse das jeweilige Mixing- bzw. Mastering-Angebot bei der eigenen Produktion bringen wird.

21

Audio-Mastering-Guide

Bei Autoren und Dozenten findet man natrlich auch unterschiedliche Kompetenzen. Titel und Berufserfahrung in einem bestimmten Wissensgebiet heien noch lange nicht, dass so eine Person zu diesem Thema auch ein gutes Sachbuch verfassen kann. Dieses Phnomen kennt manch einer auch noch aus der Uni, wo Dozenten zwar enorme Fachkenntnisse haben aber ihr Wissen dennoch unverstndlich vermitteln.

22

2. Psychoakustische Grundlagen Wie psychoakustische Phnomene die Wahrnehmung von Musik beeinflussen

2. Psychoakustische Grundlagen Wie psychoakustische


Phnomene die Wahrnehmung von Musik beeinflussen
In der Psychoakustik werden die Auswirkungen von Schallereignissen (also Geruschen, Lrm, Musik) auf das mentale (lat. "mentis"=Bewusstsein) Empfinden von Lebewesen erforscht. Dafr spielen sowohl messbare (physikalische) als auch indirekt messbare (=subjektive) Phnomene eine Rolle. Hierbei sucht man oft nach Merkmal-Zusammenhngen und Gesetzmigkeiten zwischen Schallsignalen und subjektiven Hreindrcken der Testpersonen (Probanden).

2.1 Wichtige psychoakustische Phnomene Lautstrke? Ansichtssache!


Je nachdem wie man die Qualitt der Musik bewertet, kann sich dies auf die subjektiv wahrgenommene Lautstrke (=Lautheit) auswirken. Viele Personen neigen dazu, die Musik, die sie "gut" finden, sogar bei sehr hohem Schalldruck-Pegelnicht als "zu laut" zu empfinden. Musikstcke, die man subjektiv als "schlecht" bewertet, wird oft schon bei relativ geringem Schalldruck-Pegel als "zu laut" (bzw. "strend") empfunden. Auch optische Eindrcke knnen dabei eine groe Rolle spielen, wie es heute allgemein viel zu oft der Fall ist. So hat eine wissenschaftliche Studie belegt, dass die Musik in dunklen Rumen klanglich anders empfunden wurde, als in hellen. Dieses Phnomen lsst sich mglicherweise auch auf das Erscheinungsbild von Musikequipment bertragen. Es liegt dadurch nah, dass manche Hrer sozusagen, das "hren", was sie sehen bzw. wissen: Farben und Formen werden dadurch mit bestimmten Klangeigenschaften assoziiert. Einer "hsslichen" Anlage im grauen, kantigen Plastik-Look der 80er trauen die wenigsten Leute die Klangqualitt einer qualitativ gleich guten Designer-Anlage zu. Ein ansprechendes Design machen sich viele Hersteller zunutze, um dadurch auch eine hohe klangliche Wertigkeit zu suggerieren. Die Schale ist aber eben noch lange nicht das Gelbe vom Ei.

Verdeckungseffekt (Maskierung)
Der Verdeckungseffekt beschreibt die Tatsache, dass bestimmte klangliche Bestandteile der Musik durch andere verdeckt werden knnen. Laute Tne berdecken dabei leisere benachbarte Tne. Ebenso knnen tiefe Tne bestimmte hhere verdecken und umgekehrt. Es gibt also in einem Musikstck Audioinformationen, die (zeitweise) fr den Gesamtklang keine tragende Rolle mehr zu spielen "scheinen". Sie knnen (rein theoretisch gesehen) dem Signal entnommen werden, ohne dass man bewusst den Hreindruck htte, dass da was fehlt. Den Verdeckungseffekt macht man sich deshalb bei der Reduzierung der Datengre von Audiodateien zu nutzen, z. B. fr das MP3-Format oder der Mini-Disc (MD). Deswegen werden solche Formate als "verlustbehaftet" bezeichnet und in der Tat sind sie dies auch! Maskierungseffekte eigenen sich auch dafr, strende Gerusche zu neutralisieren. So entdeckte man in den 50er Jahren, dass weies Rauschen, wenn man es kaum hrbar in Bros einspielt, die

23

Audio-Mastering-Guide

Lrmbelstigung durch PCs, Lfter, Trafos etc. verdecken kann und so zu einem stressfreien Arbeitsklima beitrgt. Leider machen sich diese einfache Tatsache die meisten Betriebe bis heute nicht zunutze.

Schwebungen Wenn zwei sich aneinander reiben, werden sie manchmal auch eins
Gibt es in der Tonhhe von zwei (gleichzeitig wiedergegebenen) Tnen nur einen minimalen Unterschied, werden sie als an- und abschwellender einzelner Ton wahrgenommenen. Das menschliche Gehr besitzt in diesem Fall nicht mehr die Trennschrfe, um so dicht beieinanderliegende Tne separat wahrnehmen zu knnen.

Residualton Hren, was nicht da ist...


Das ungefhre Gegenteil vom Verdeckungseffekt ist der Residuum-Effekt (auch als sog. Residual-Ton bezeichnet). Die Grund-Frequenz (= Grundton) einer Tonfolge wird hierbei vom Gehr, anhand der in der Tonfolge vorhandenen Obertne, "hinzu konstruiert". Dadurch wird ein passender Grundton wahrgenommen, obwohl er (physikalisch gesehen) nicht im Signal vorhanden ist!

Gehrgewhnung (Adaptation) Alles reine Gewhnungssache...


Die Gehrgewhnung beschreibt die Tatsache, dass sich das Gehr an Vernderungen im Klangbild gewhnt. Das Gehr passt sich sehr schnell an ("adaptiert" sich) und empfindet das neue Klangbild dann "normal". Stellt man z. B. die Klangregelung einer Stereo-Anlage sehr hhenlastig ein, wirkt der Klang durch die Gehrgewhnung schnell wieder so, als wre der Klang gar nicht mehr hhenlastig. Das liegt daran, dass der vorherige Klangeindruck recht schnell aus dem Kurzzeitgedchtnis verschwindet. Und wo es keine zwei Sachen gibt, die man miteinander vergleichen kann, gibt es auch keinen "wahrnehmbaren" Unterschied mehr. Gewhnungseffekte sind natrlich ebenso bei Lautstrke-Vernderungen mglich. Durch die Neigung des Gehrs zur Adaptation wird das korrekte Abmischen und Mastern von Musik erheblich erschwert.

Absolutes Gehr (Tonhhengedchtnis) Nicht nur fr Mozart!


Die Entwicklung des Hrsinns spielt eine entscheidende Rolle bei der Wahrnehmung von Musik. Menschen mit einem trainierten absoluten Gehr knnen sich unterschiedliche Tonhhen sehr gut merken. Ob also z. B. das "gestrichene c" auf einer Orgel, Gitarre oder Trompete gespielt wird. Sie erkennen die Tonhhe jedes Mal genau wieder! Durch ein absolutes Gehr lsst sich relativ leicht lernen, welche Tonhhe man welcher Note im Notensystem zuordnet. Dadurch wird es mglich, Tne, Intervalle und sogar Akkorde rein nach Gehr dem Notensystem zuzuordnen. Auerdem kann man dann bereits beim Notenlesen die Tne innerlich hren. Je nach Talent und Flei knnen sich solche Fhigkeiten auch Menschen aneignen, die nicht ber die Gabe eines absoluten Gehrs verfgen. Blinde Menschen haben bekanntlich ebenfalls einen auergewhnlich gut entwickelten Hrsinn, der ihr Defizit im Sehen nahezu ausgleicht. In anderen Fllen kann der Hrsinn aber durchaus so gering entwickelt sein, dass nichtmal "schiefe Tne" und andere Patzer beim Vortragen eines Musikstcks erkannt werden.

24

Selektives Hren (Cocktail-Party-Effekt) Wahrnehmung schafft Wirklichkeit

Umso gebter man im analytischen Hren von Musik ist, je mehr musikalische Klangbilder man kennen gelernt hat, umso differenzierter wird man Musik auch wahrnehmen knnen.

Selektives Hren (Cocktail-Party-Effekt) Wahrnehmung schafft Wirklichkeit


Je nachdem auf welche Aspekte des Musikstcks die Aufmerksamkeit gerichtet wird, wirken diese subjektiv prsenter und andere rcken dadurch scheinbar in den Hintergrund. Dieses Phnomen ermglicht es einem beispielsweise noch inmitten der Unterhaltungen mehrerer Leute auf einer Feier die Worte eines bestimmten Sprechers gezielt herauszuhren (sog. Cocktail-Party-Effekt), wobei die gehrte Lautstrke (Lautheit) der Worte der anderen Sprecher geringer wird. Beim Sehvorgang trifft man auf ein sehr hnliches Prinzip: Auch dort fokussiert man sich auf bestimmte Objekte im Gesichtsfeld, wobei alles andere dann mehr oder weniger unscharf im Hintergrund verschwimmt. Trotzdem wird auch hier das Bild im Sehfeld als ein Ganzes wahrgenommen. Ein Musikstck kann unter ganz verschiedenen Gesichtspunkten gehrt werden. Die Stimme zieht naturgem am meisten Aufmerksamkeit auf sich und steht bei einer Abmischung sowieso im Vordergrund. Dennoch kann man sich ebenso auf andere Bestandteile der Produktion fokussieren, z. B. den Klang vom Bass, das Spiel der Snare-Drum, der Gitarren usw. Man kann ein Stck dabei unter rein musikalischen Gesichtspunkten hren oder eher auf das technische Klangbild einer Produktion achten. Wie bereits erwhnt, kann selbst Wissen das Hrempfinden beeinflussen. Wenn z. B. in einer Fachzeitschrift eine Anlage ein "sehr gutes" Testergebnis erhlt, rechnet man mit einem entsprechenden Klang. Der Kufer geht dadurch mit einer vorgeprgten Erwartungshaltung an den Kauf heran, die sein Beurteilungsvermgen durchaus beeinflussen kann. Wie man ein Musikstck qualitativ beurteilt, was fr einen Musikgeschmack man entwickelt, wird entscheidend geprgt von der Gesellschaft und unserem persnlichen Lebensumfeld. Die Massen-Medien, Charts usw. legen uns eine Auswahl an Musik vor. Sie suggerieren uns dadurch indirekt, dass es sich dabei um das derzeit inter-subjektiv "Beste" handeln wrde, was weltweit an Musik zur Verfgung steht. Der Teil davon, der sich besonders gut verkaufen lsst, wird entsprechend strker beworben, wodurch er sich noch besser verkaufen lsst. So erhalten manche Artists sogar eine mediale Omni-Przens. Sofern einen von anderen Seiten keine andere Musik vorgestellt wird, wird man seinen Musikgeschmack also anhand der populren Musik formen und dort eben das whlen, mit dem man am strksten auf Resonanz geht. Oftmals wird sich dabei auch am eigenen Freundeskreis bzw. Lebensumfeld orientiert. Da jede Wahrnehmung letztendlich immer subjektiv ist, kann genau genommen niemals eine 100%ig objektive Beurteilung stattfinden. Objektivitt ist immer nur die Schnittmenge von miteinander bereinstimmenden subjektiven Wahrnehmungen. Wenn alle Leute zum gleichen Ergebnis kommen (z. B. die Beobachtung, dass alle Elefanten grau wren), heit das nicht, dass das deswegen wirklich ein objektives Ergebnis ist. Schon eine einzige Ausnahme kann die Objektivitt eines Ergebnisses infrage stellen oder sogar widerlegen. Diese Tatsache muss auch beim gesamten Produktionsablauf bercksichtigt werden. Es wird z. B. immer Hrer-Meinungen geben, die von der eigenen Auffassung abweichen. Zu jeder Meinung wird man irgendwo eine gegenteilige Meinung finden knnen. Negative Kritik sagt oft sehr viel mehr ber die Wertvorstellungen und den Charakter der anderen Person aus, als ber das Kritisierte. Daher sollte man negative Kritik nicht zu ernst nehmen und diese zu nah an sich herankommen lassen, da man es grade

25

Audio-Mastering-Guide

in der Musik unmglich allen Hrern Recht machen kann. Eine konstruktive negative Kritik beinhaltet jedoch oft Anstze, die uns die Tr fr wertvolle Verbesserungen ffnen knnen. Hierbei sollte man aber erkennen knnen, was konstruktive Kritik ist und was nicht. Kleinliches Rumkritteln an unwesentlichen Details wird gern mal unter dem Deckmantel "konstruktiver Kritik" vorgenommen, ist aber im schlimmsten Fall sogar Hinweis auf das Vorliegen psychischer Probleme (z. B. einer zwanghaften (anakastischen) Persnlichkeitsstrung, bei der sich der Betroffene unnormal stark auf Details fokussiert).

26

3. Frequenz und Lautstrke

3. Frequenz und Lautstrke


3.1 Frequenz (Tonhhe) Hertz (Hz)
Jeder Ton besitzt eine Grundschwingung. Die Hufigkeit (lat.="frequentia") dieser Schwingung pro Sekunde wird als Frequenz () bezeichnet. Die Hhe der Frequenz wird durch die Einheit Hz (Hertz) angegeben, dabei gilt: 1 Hz = 1 Schwingung () pro Sekunde Die Frequenz kann auch in der Einheit kHz (Kilohertz) angegeben werden: 1 kHz=1000 Hz Je hher die Frequenz, desto hher die Tonhhe.

Phase
Eine Schwingung lsst sich durch eine sog. Phase darstellen. Die Phase gibt die Entfernung eines "in der Zeit verlaufenden Signals" (wie z. B. Schall) zu seinem Ursprungspunkt an. Der Verlauf des Signals wird dabei mit Hilfe von Winkelmaen angegeben. Der Ursprungspunkt des Signals wird immer mit 0 angegeben. Eine Schwingung wird in zwei Halbwellen dargestellt: Der Ursprung beider Halbwellen liegt direkt auf der horizontalen Achsen-Ebene (x-Achse). Die Phase beider Halbwellen betrgt jeweils 180. Die Phase der ersten Halbwelle reicht also von 0 bis 180, die der zweiten von 180 bis 360. Eine Halbwelle verluft oberhalb der x-Achse. Sie liegt dadurch im positiven Wertebereich der vertikalen Achsen-Ebene (y-Achse), weswegen man sie als positive Halbwelle bezeichnet. Die andere Halbwelle verluft unterhalb der x-Achse. Sie liegt somit im negativen Wertebereich der y-Achse und wird deswegen negative Halbwelle genannt. Bildlich gesprochen bildet die positive Halbwelle einen "Wellenberg", die negative ein "Wellental". Die erste Halbwelle schneidet bei 180 die x-Achse. 180 entsprechen Schwingungsdurchgang. Am Ende der zweiten Halbwelle liegt der Schnittpunkt mit der x-Achse dann bei 360. 360 entsprechen einem vollstndigen Schwingungsdurchgang. 360 ist auch die Gradzahl eines Kreises. Eine einzelne Schwingung ist also nichts anderes als eine in der Zeit verlaufende Kreisumdrehung.

27

Audio-Mastering-Guide

Signalphase

Hrumfang
Der Hrumfang des menschlichen Gehrs reicht offiziell von 16 Hz bis 20 kHz. Der Hrumfang fr hohe Frequenzen verringert sich mit steigendem Alter bis hinab zu 15 kHz. Frequenzen < 16 Hz gehren zum Infraschallbereich. Frequenzen < 70 Hz gelten als Tiefbsse (Subbass). Oberhalb von 20 kHz beginnt der Ultraschallbereich. Untersuchungen der Universitt Heidelberg haben jedoch ergeben, dass Menschen (wenn auch unter Schmerzen und bei sehr hoher Lautstrke) in der Lage sind, Frequenzen bis 40 kHz wahrzunehmen.

28

Frequenzbereiche und ihre Charakteristika

Frequenzbereiche und ihre Charakteristika


16 Hz 1640 Hz Untere Hrschwelle Bassfundament I Alles unterhalb von 16 Hz ist unhrbar. Dieser Bereich ist mehr fhl- als hrbar und kommt in Musikproduktionen nur vor, um entsprechende Soundeffekte zu realisieren (Gewitter, Explosionen, tief-frequente Soundeffekte). Die genaue Reproduktion dieses Bereiches ist nur mit Subwoofern mglich, gestaltet sich aber als schwierig. Da in diesem Bereich in vielen Genres bzw. Produktionen im Bereich der U-Musik nichts Wesentliches mehr vorhanden ist, wird er normalerweise entfernt. 4063 Hz Die Wiedergabe dieses Bereichs erfordert ebenfalls oft Subwoofer.

6380 Hz

Bassfundament II

Ab ca. 63 Hz beginnt der Bassbereich, wo Tonhhen bereits wahrgenommen werden knnen. Hier beginnt auch der Frequenzbereich der menschlichen Stimme. Ein oft stark betonter Bereich, den die meisten Wiedergabesysteme auch ohne Subwoofer problemlos wiedergeben knnen.

80125 Hz

200500 Hz

Fundament eines Musikstcks

Dieser Bereich gilt als das Fundament eines Musikstcks. Es ist abzugrenzen vom eigenstndigen Bassfundament von 60125 Hz. Wird der Bereich 200500 Hz berbetont, kommt es leicht zu Drhnen und einem matschigen Klang. Bereich fr das Timbre der menschlichen Stimme. Diesen Frequenzbereich nimmt das Gehr gegenber anderen Frequenzbereichen tendenziell am lautesten wahr. Bei ~ 11,6 kHz liegt der Bereich fr den sog. Telefonsound. Bereich der S- und Zischlaute. Ist dieser Bereich zu stark betont, knnen Signale zu hhenlastig und zischelnd klingen. Ist dieser Bereich ausgewogen, kann bei manchen Signalen der Eindruck von Transparenz und Prsenz betont werden. Frequenzbereich fr sehr hohe Tne. Ist dieser Bereich berbetont, kann ein nasaler, zischelnder Klang entstehen, der daher als "Schlangenzischeln" bezeichnet wird.

800 Hz4 kHz 14 kHz

68 kHz

811 kHz 1120 kHz

~ 1519 kHz

Obere Hrschwelle

Beginn der oberen Hrschwelle (abhngig vom Alter und Zustand des Gehrs). Ende der oberen Hrschwelle

20 kHz

3.2 Lautstrke (Schalldruckpegel) und Signalpegel


Unter dem Begriff Lautstrke versteht man in der Tontechnik die Intensitt des Schalldrucks. Hierbei ist natrlich der Luftschalldruck gemeint.

Amplitude
Die Hhe des Schalldruckpegels oder des Signalpegels lsst sich grafisch anhand einer sog. Amplitude darstellen. Whrend die Phase ja nur die Entfernung zum Ursprungspunkt (eines in der Zeit verlaufenden) Signals angibt, gibt die Amplitude die "Auslenkung" eines in der Zeit verlaufenden Signals an. Bei der Signal-Amplitude entspricht dies praktisch der "Hhe" des Signalpegels.

29

Audio-Mastering-Guide

Die Schwingung wird auch hier wieder in zwei Halbwellen dargestellt, die zusammen eine Schwingung (=einen Schwingungsdurchgang) ergeben. Der hchste Punkt der Halbwelle ist der, an dem sie am meisten von der x-Achse entfernt ist. Er bildet den Amplitudenwert der Halbwelle, den man Spitzenwert (engl. "Peak")3 nennt. Pegelmessgerte messen den Spitzenwert (Peak) eines Signals und werden deshalb auch Peak Program Meter (PPM) genannt.

Spitzenwert

Spitze-Tal-Wert
Schwingungszustnde

Der Peak-to-Peak-Level (Spitze-Spitze-Wert [Spitze-Tal-Wert]) entspricht hingegen die Hhe beider Halbwellen und gibt dadurch den Amplitudenwert eines Schwingungsdurchgangs (=positive und negative Halbwelle) an. Ein Schallsignal verluft (im Gegensatz zu reinen Sinus-Signalen) typischerweise nicht periodisch, daher sind beide Halbwellen in dem Fall auch nicht gleichgro.

Messung des Pegels Schalldruckpegel-Angaben in Pascal (pa) und dBSPL


Der Schalldruck wird in der Einheit Pascal (Pa) gemessen und als Schalldruckpegel (Lp) bzw. Sound Pressure Level (SPL) angegeben. Die Darstellung in Pascal bringt leider sehr groe unbersichtliche Zahlenwerte mit sich, die von 2 10-5 bis 1,5 102 Pa reichen knnen. Pascal kann man jedoch in Newton-Meter (N/m2) umrechnen. Dabei gilt:
1 Pa = 1 Newton pro m2 (1 N/m2)

Doch auch dann wir die Darstellung nicht bersichtlicher: 0.00002 bis > 200 N/m2

3Bei

rein periodisch verlaufenden Signalen (z. B. Sinusschwingung) benutzt man fr die hchste Amplituden-Auslenkung die Bezeichnung Maximalwert oder Scheitelwert. "Periodisch" bedeutet, dass die Intervalle zwischen den Maximalwerten gleich sind. Das ist im Allgemeinen bei Klngen der Fall, nicht aber bei Geruschen.

30

Signalpegel in dBu

Deswegen nutzt man zur Darstellung des Schalldruckpegels (SPL) das Dezibel (dB). Damit das Dezibel (dB) berhaupt als Maeinheit dienen kann, bentigt es einen Referenzwert. Der Referenzwert wird immer fr die Angabe "0 dB" festgelegt. Er bestimmt, fr was "0 dB" stehen soll. Die Angabe "0 dB" veranschaulicht dabei, dass es zwischen 0 dB und dessen jeweiligen Referenzwert keinen (also "null") Unterschied gibt! Fr die Darstellung des Schalldruckpegels wird 0 dB mit 2 10-5 Pa definiert. Umgerechnet in Pa kann man es sich besser merken: 0 dB = 20 Pa Um klarzustellen, dass mit Dezibel der Schalldruckpegel gemeint ist, schreibt man (zumindest im englischen Sprachraum4) dBSPL. Eine Erhhung des dB-Pegels um 6 dB entspricht einer Verdoppelung des Schalldrucks.

Signalpegel in dBu
Bei einer Mikrofon-Aufnahme werden Schall-Signale in elektrische Spannungswerte "bersetzt". Elektrische Spannungswerte lassen sich natrlich auch erzeugen, ohne dass man sie ber Lautsprecher zu Schallsignalen umwandeln muss5. Deswegen spricht man beim Pegel eines aufgezeichneten Audio-Signals nicht mehr vom "Schalldruckpegel", sondern vom Spannungspegel oder Signalpegel. Wenn z. B. ein Musikstck am PC abgespielt wird, ist das, was auf der jeweiligen Pegel-Anzeige angezeigt wird, der Signalpegel und nicht der Schalldruckpegel! (Wie hoch beim jeweiligen Signalpegel der ber die Lautsprecher abgegebene Schalldruckpegel sein wird, liegt daran, wie stark man den Signalpegel mit Hilfe von Vorverstrkern, Endstufen und Lautsprechern verstrkt.) Der Signalpegel wird bei analogen Gerten in dBU (und manchmal in dBV) angegeben. Dabei gibt es verschiedene Definitionen, welche Spannung (in Volt) 0 dBu entsprechen. Bei digitalen Gerten wird der Spannungswert digital (als binre Zahl) codiert und dann in dBFS (dB FullScale) angegeben. Auch dort wird 0 dBFS durch einen bestimmten dBu-Referenzwert definiert.

dB-Angaben mit Bewertungsfilter


dB-Angaben des Schalldruckpegels, die mit Hilfe eines sog. "Bewertungsfilters" durchgefhrt wurden, werden unter Angabe des verwendeten Bewertungsfilters dargestellt. Jeder Bewertungsfilter ist durch einen Buchstaben benannt, den man einfach der dB-Angabe hinzufgt: dBA, dBB, dBC oder dBD6. Solche Angaben bezeichnet man auch als bewertete oder gewichtete (engl. "weigthed") Messung.

In Deutschland schreibt man stattdessen dB. erzeugen diese elektrischen Signale, sobald man sie ber Lautsprecher ausgibt, wieder ein Schallsignal und damit einen Schalldruckpegel. 6dBA und dBC sind in der Tontechnik die gebruchlichsten Bewertungsfilter bei dB-Angaben. dBD spielt z. B. eher bei fr Flugzeugtechnik blichen Pegeln eine Rolle.
5Natrlich

31

Audio-Mastering-Guide

Da es durch einen Bewertungsfilter zu anderen Messergebnissen kommt, die zudem nur auf Testtne bezogen sind und damit streng genommen nur fr diese Testtne gelten, lassen sich solche Angaben nicht nach dBSPL umrechnen. Beim Bewertungsfilter A ("a" steht hier fr das engl. "adjusted"=angeglichen, bereinigt) wird bei der Frequenzgewichtung die Sensibilitt des menschlichen Gehrs bercksichtigt. Leider erlauben Messungen in dBA eine geschnte Darstellung wichtiger Messwerte von Audioequipment (wie z. B. Rauschen).

Von der Hrschwelle zur Schmerzgrenze...


Die Hrschwelle legt fest, ab welchem Schalldruckpegel ein Schallereignis hrbar wird (also zu einem Hrereignis wird). Hierfr kommt es nicht nur auf die Hhe des Schalldrucks, sondern auch auf dessen Frequenz und die subjektive Wahrnehmung des Hrers an. Dadurch ergibt sich ein gewisser Toleranzbereich. Bezogen auf 12 kHz entspricht die Hrschwelle ungefhr 0 dBSPL (= 2 10-5 Pa). Die Hrschwelle kann (bei bestimmten Frequenzen) sogar bei -5 dBSPL (= 0.000011247 Pa) beginnen. Fr die Schmerzschwelle (Schmerzgrenze) gibt es drei verschiedene Definitionen: 120 dBSPL ; 137,5 dBSPL und 140 dBSPL. Es gibt eine Tendenz dazu, sie mit zu 137,5 dBSPL anzugeben. Subjektiv "unangenehm laut" kann es aber schon nahe 120 dBSPL werden, weswegen man dort von der Unbehaglichkeitsschwelle spricht.

32

Tabelle: Lautstrke (in dBA) von Schallereignissen Ohne Bezug auf den Hrabstand ziemlich sinnlos!

Tabelle: Lautstrke (in dBA) von Schallereignissen Ohne Bezug auf den Hrabstand ziemlich
sinnlos!

Lautstrke (dBA)
0 10 20 30 40 50 60 70 80 90 100 110 > 120 120 137.5 140 160 180

Schallereignis
Hrschwelle Stille Bltterrauschen im Wald Tropfender Wasserhahn Flstern Brummen eines Khlschranks Leise Radiomusik, blicher Tagespegel im Wohnbereich Pkw in 15 m Abstand Schreibmaschine in 1 m Abstand PKW mit 50 km/h in 1 m Abstand LKW-Motor in 5 m Abstand Kreissge, Lrm in einem Kraftwerk, Posaunenorchester Propellerflugzeug in 7 m (!) Abstand Beginn der Unbehaglichkeitsschwelle Verkehrsflugzeug in 7 m Abstand Schmerzschwelle Dsenjger in 7 m Abstand Gewehrschuss in Mndungsnhe Schuss aus Spielzeugpistole neben dem Ohr

(*Diese Tabelle zeigt "mgliche" Beispiele, welche Schallereignisse welchem gewichteten dB-Pegel entsprechen "knnen". Solche Angaben sind erst aussagekrftiger, wenn sie sich auch auf die Entfernung zwischen Schallquelle und Hrer (Hrabstand) beziehen, obwohl man sich natrlich unter "lauter Discothek" eher etwas vorstellen kann, als unter einem Dsenjger in 7 m Abstand... Eine Pegelangabe kann jedoch nur fr einen bestimmten Hrabstand gelten. Deswegen wurden in dieser Tabelle mglichst Beispiele aufgefhrt, die den Abstand zur Schallquelle einbeziehen. Leider wird dies bei den meisten Tabellen nicht bercksichtigt. Z. B. wird das "Brummen eines Khlschranks" nur bei einem bestimmten Hrabstand 40 dB(A) betragen. Bei welchem, liegt natrlich auch am Khlschrank-Fabrikat. )

33

Audio-Mastering-Guide

Lautheit (psychoakustische Lautstrke) Alles ist genauso laut, wie du es hrst...


Lautstrke Lautheit Lautstrkepegel Bedeutung in der Alltagssprache Subjektiv wahrgenommene Lautstrke Bedeutung in der Tontechnik Physikalischer Schalldruck Auch: Aussteuerung eines Signals Subjektiv wahrgenommene Lautstrke Physikalischer Schalldruck 1 kHz-Sinus-Signal bei Messangabe des physikalischen Schalldrucks Schalldruckpegel

Unter "Lautstrke" versteht man in der Tontechnik lediglich den SchalldruckpegeI. Unter dem Begriff "Lautheit "versteht man hingegen die "gehrte Lautstrke". "Gehrte Lautstrke" bedeutet also, als wie "laut" man subjektiv den jeweiligen Schalldruckpegel wahrnimmt. Statt Lautheit kann man auch "psychoakustische Lautstrke" sagen. Im allgemeinen Sprachgebrauch kennt man fr die subjektiv wahrgenommene ("gehrte") Lautstrke nur das Wort "Lautstrke", weswegen "Lautheit" erstmal sehr ungewohnt klingt. Mit dem "Lautstrkepegel" wird in der Tontechnik dann allerdings die Hhe des "Schalldruckpegel" bezogen auf ein 1 kHz-Sinus-Signal angegeben, was hauptschlich zu Vergleichszwecken der Lautheit verschiedener Tne dient. Signale, die den gleichen Schalldruckpegel besitzen, knnen trotzdem unterschiedlich laut klingen. Ebenso knnen unterschiedliche Schalldruckpegel in manchen Fllen gleichlaut klingen. Die "gehrte Lautstrke" eines Schallsignals kann von Faktoren wie Frequenz, Alter, Gehr, aber auch die Art der Musik (z. B. ansteigende Tonfolge), mentaler Stimmung und krperliche Verfassung beeinflusst werden. Z. B. nimmt man Gerusche kurz vor dem Einschlafen als lauter wahr. Wie bereits erwhnt "verdoppelt" sich der Schalldruckpegel (SPL) alle 6 dB. Von einer "Verdoppelung" der Lautheit ist bei der Erhhung des SPL um 610 dB auszugehen. Eine Verdoppelung der Lautheit kann (laut neueren Untersuchungen) auch bereits bei einer Erhhung des SPL um 6 dB erfolgen. Dadurch sollte der sonst angenommene Wert von 10 dB nicht mehr als der absolute Richtwert aufgefasst werden. Eine Verdoppelung des Schalldruckegels kann also durchaus einer Verdoppelung der Lautheit entsprechen. Sptestens bei einer Anhebung des SPL um 10 dB ist jedoch von einer Verdoppelung der Lautheit auszugehen. Die Aussagekraft solcher Theorien darf man dennoch in Frage stellen. Wie will man das subjektive Empfinden, ab wann etwas "doppelt" so laut wre, genau bestimmen? Versuchen Sie einmal, ihr Badewasser "doppelt" so "warm" zu machen oder waren Sie schon mal "doppelt" so "verliebt" in jemanden? Hat Ihnen das Dessert heute "doppelt" so "gut" geschmeckt? Es ist nicht mglich der Intensitt einer Empfindung (wie eben dem Lautstrke-Empfinden) einen genauen Zahlenwert

34

Phon und Sone ... aber messen wollen wir es trotzdem!

zuzuordnen. Deswegen ist auch die Behauptung eine "Verdoppelung" der gehrten Lautstrke hier sehr fragwrdig. Man sollte es also lieber so formulieren: Die Lautheit ist so viel hher, dass man subjektiv meinen knnte, sie wre doppelt so laut. "Gehrte Lautstrke" objektiv anzugeben, ist und bleibt also immer nur ein Versuch. Das letztendlich beste Messinstrument zur Beurteilung der Lautheit ist das eigene Gehr.

Phon und Sone ... aber messen wollen wir es trotzdem!


Die Lautheit gibt man zu Vergleichszwecken mit der ansonsten weniger gebruchlichen Einheit Phon (Lautstrkepegel) an. Der Laustrkepegel in Phon ist der Schalldruckpegel in dBSPL eines 1 kHZ-Signus-Signals. Bezogen auf einen 1 kHz-Sinuston stimmen Phon und dBSPL-Angaben also berein. Deswegen kann man Phon-Angaben auf einer dB-Skala darstellen. Leider eignet sich der Lautstrkepegel in Phon nicht so gut fr eine anschauliche Darstellung der Lautheit, da er sich nicht proportional zur gehrten Lautstrke verhlt. Mit der Einheit Sone gelingt es, die Lautheit linear und mit kleineren Zahlenwerten darzustellen. Eine "Verdoppelung" des Sone-Wertes steht also immer fr eine "Verdoppelung" der Lautheit. Grundlage der Einheit Sone ist dennoch die Einheit Phon (Lautstrkepegel). Daher sind beide Einheiten auch problemlos ineinander umrechenbar.7 Phon
20 30 35 40

Sone
0.15 0.3 Bltterrascheln 0.5 1 Klimaanlagen u. . pianissimo possibile (ppp) pianissimo (pp) piano (p)

dB(A)

23.5 24.4 29.2

50 60 70 80 90 100

2 4

Normale Unterhaltung (bei 1 m Hrabstand)

35.8

8 Schreibmaschine (in 1 m Hrabstand) 16 32 64 forte (f) fortissimo (ff)

1 Sone entspricht 40 phon. Einer Pegelerhhungen um 10 phon ergibt eine Verdoppelung des Sone-Werts. Schallsignale bis 1 Sone gelten noch als "sehr leise".
7

Sone- und dBA-Angaben lassen sich erst dann und nur sehr ungefhr miteinander vergleichen, wenn sie sich auf frequenzreine Signale beziehen, z. B. einen 1 kHz-Ton.

35

Audio-Mastering-Guide

Schallsignale ab 3 Sone gelten als nicht mehr berhrbar.

dB RMS
Die Lautheit wird zwar mit der Einheit Sone dargestellt, aber in der Tontechnik oft anhand des dB RMS gemessen. dB RMS (engl.="root mean square", RMS8) gibt den quadratischen Mittelwert des Signalpegels an9, also den durchschnittlichen Signalpegel. Da hier also nicht der Spitzenpegel (Peak) des Signals angegeben wird, fllt eine Messung des Signalpegels in dB RMS logischerweise immer niedriger aus. dB RMS wird flschlicherweise oft als "Maeinheit" der Lautheit betrachtet. dB RMS bezieht sich aber nicht auf den Schalldruckpegel sondern auf den Signalpegel. Messungen in dB RMS bercksichtigen auch nicht, dass die Lautheit frequenzabhngig ist. Z. B. tragen Tiefbsse weniger zu einer hohen Lautheit bei als hohe Frequenzen. Dadurch knnen RMS-Angaben selbst bei Stcken, die subjektiv gleich laut klingen, stark voneinander abweichen.

Digitaler Signalpegel in dB Full Scale (dBFS) Wenn aus Spannung pltzlich Zahlen werden...
Bei der digitalen Audiobearbeitung wird der Signalpegel in dBFS (=dB Full Scale) dargestellt. Mit dBFS wird die digitale Aussteuerung des Signals angegeben. Obwohl 0 dBFS auch mit einem bestimmten Spannungspegel in dBu definiert wird, zeigt dBFS nur die digitale Aussteuerung des Signals an. 0 dBFS entspricht dem hchsten fehlerfrei darstellbaren binren Zahlenwert10. dBFS-Angaben zeigen nun die Hhe der digitalen Aussteuerung relativ zu diesem hchsten digital darstellbaren Wert an. Dafr werden der dBFS-Pegel immer mit negativen Vorzeichen angegeben (-5 dBFS; -10 dBFS usw.). Je grer der negative Zahlenwert also ist, umso geringer ist der Pegel. Das kann zunchst verwirrend wirken, denn dadurch entsprechen niedrige Werte (wie z. B. -5 dBFS) einem hheren Pegel als relativ hohe Zahlenwerte (wie z. B. -20 dBFS).

3.3 Signal-bersteuerungen (Clipping) bersteuerungen im digitalen Bereich


Oberhalb von 0 dBFS sind Signale nicht mehr fehlerfrei darstellbar. Es kommt dort sofort zu klanglich sehr unangenehmen Verzerrungen (engl.="clipping"; "digital over"). Deswegen nennt man diesen kritischen Punkt auch "Clipping Point", da das Signal oberhalb von 0 dBFS quasi "weggeschnitten" (engl.="to clip") wird.
8Die

RMS-Leistung eines Signals wird ermittelt, indem es in Relation zu einem Pink Noise (dt.="Rosa Rauschen") gesetzt wird. (Pink Noise ist ein Signal, das ber den gesamten Frequenzbereich hinweg gleichlaut ist.) Vom jeweiligen Ergebnis wird dann der quadratische Mittelwert gebildet. 9Auch als Effektivwert bezeichnet. 10Bei digitalen Audiosystemen wird die Musik durch digitale Werte codiert. Verschiedenen Punkten der Amplitude wird hierbei ein Bitwert (binrer Zahlenwert) zugeordnet. Dem hchsten (darstellbaren) Amplituden-Zustand wird dabei der Wert 0 dBFS (Fullscale) zugeordnet. Er ist gleichzeitig der letzte Wert, den das System fehlerfrei (ohne digitale Verzerrung) darstellen kann.

36

bersteuerungen bei digitalen Wiedergabegerten

bersteuerungen bei digitalen Wiedergabegerten


D/A-Wandler (Digital-Analog-Wandler) findet man in jedem digitalen Wiedergabegert. Wie der Name schon sagt, wandeln sie digitale Werte in ein analoges Signal um. Da Clipping erst oberhalb von 0 dBFS entsteht, knnte man meinen, Signale wre bis 0 dBFS generell fehlerfrei darstellbar. Diese Annahme stellte sich im Laufe der letzten Jahre leider als Irrtum heraus. D/A-Wandler basieren nmlich nicht nur auf digitaler Technologie, sondern besitzen auch analoge Komponenten (z. B. OP-Amps). Nur wenn diese analogen Bauteile hochwertig genug sind, knnen Pegel nahe 0 dBFS sauber dargestellt werden. Das ist jedoch nicht immer der Fall. Je nachdem, welcher dBu-Spannungswert mit 0 dBFS definiert wird, kann 0 dBFS auch einem Pegel von +18 oder gar +24 dBu entsprechen. Einen so hohen Signalpegel wie +24 dBu sauber darzustellen, gelingt nicht jedem Wandler. Mchte man also vermeiden, Klangverschlechterungen durch berstrapazierte Wandler-Komponenten zu riskieren, sollte man Signale nie hher als von -10 dBFS bis max. -6 dBFS auspegeln. Manche D/A-Wandler erzeugen bereits digitales Clipping, wenn Signalen sehr nah unter 0 dBFS liegen. Diese Art von Clipping wird durch Rekonstruktions-Filter ausgelst, die die bergnge zwischen zwei Samples re-konstruieren. Das rekonstruierte Signal kann in manchen Fllen oberhalb von 0 dBFS liegen, was natrlich zu Clipping fhrt. Dieses Clipping entsteht also im Bereich zwischen zwei Samples, dem sog. Inter-Sample-Bereich. Es ist nicht direkt als eine "Verzerrung" wahrnehmbar, aber als Klangverschlechterung. Besonders bei aktuellen auf Lautheit getrimmten Produktionen werden im Inter-Sample-Bereich nicht selten Verzerrungen von ca. +3 dBFS gemessen. Die effektivste Gegenmanahme wre also fertige Produktionen auf max. -3 dBFS auszusteuern. Doch wer verschenkt schon gern 3 dB!? Da niemand auf die Idee kam, Peaks im Inter-Sample-Bereich zu messen, blieb dieses Phnomen lange Zeit unentdeckt. Aufgrund des Einhaltens der 0 dBFS-Grenze wog man sich in Sicherheit. Ab den 90ern wurden etliche kommerzielle Produktionen mit Inter-Sample-Clipping verffentlicht. Ohne die "loudness race" wre dies sicherlich nur in einem geringen Ausma passiert. Meist sind billige Wandler in Consumer-Gerten und Studio-Equipment der Unterklasse besonders anfllig fr Inter-Sample-Clipping. Eine Produktion kann beim Einsatz guter D/A-Wandler also noch frei von Inter-Sample-Clipping sein, aber durch schlechte D/A-Wandler zahlreiche Inter-Sample-Peaks bilden. Das Inter-Sample-Clipping ist (in diesem Fall) aber kein fester Bestandteil der Aufnahme, sondern tritt nur beim Playback aut. Die schlechte Nachricht ist, dass viele Hrer keine Wiedergabegerte mit ausreichend guten Wandlern besitzen. Inter-Sample-Peaks knnen jedoch auch zu Aufnahme-Bestandteilen werden: Z. B. wenn hoch ausgesteuerte Audio-Signale mit mittelmigen A/D-Wandler recordet werden. Die Firma Solid State Logic bietet auf ihrer Internetprsenz ein kostenloses Inter-Sample-Peakmeter als Audio-Plug-in fr PC und MAC an.

37

Audio-Mastering-Guide

links: Pegel ohne digitale bersteuerung, rechts: Pegel mit digitaler bersteuerung (Clipping).

bersteuerungen im analogen Bereich


Bei korrekt kalibrierten Signalpegelmessern kann im analogen Bereich bis zur Pegelanzeige von 0 dB verzerrungsfrei ausgesteuert werden. Der Pegelanzeiger sollte sich also berwiegend bei 0 dB befinden. Dieser Aussteuerungsbereich wird Vollaussteuerung genannt. Ab berschreiten von 0 dB treten Verzerrungen erst allmhlich auf. Wann oberhalb von 0 dB eine sofortige maximale Verzerrung auftritt, liegt am Gert selbst. Sehr gute Studiogerte knnen sogar Signalspannungen > +24 dBu noch verzerrungsfrei darstellen. Ein angezerrtes Signal kann bei analogem Equipment klanglich sogar sehr reizvoll sein. Deswegen ist das kurze und geringfgige berschreiten der 0 dB-Marke stets unkritisch. 0 dB entsprechen einem bestimmten Bezugspegel in dBu. Dieser lsst sich auch in Volt [V] darstellen. 0 dB kann fr einen der folgenden Bezugspegel stehen:

+6 dBu +4 dBu -7 7.8 dBu

(=1.55 V) (=1.228 V) (=0.316 V)11

(EU-Studio-Pegel) (US-Studio-Pegel) (Heimgerte-Pegel, Consumer-Level)

0 dB werden also nicht einfach mit 0 dBU definiert. Der auf der dB-Aussteuerungs-Skala angezeigte dB-Wert entspricht also nicht dem Signalpegel in dBu. Wie der Bezugspegel fr 0 dB beim jeweiligen Gert lautet, steht normalerweise in der Bedienungsanleitung des jeweiligen Gerts. Der Bezugspegel wird also nicht direkt auf der dB-Skala angegeben.

11

Dieser Wert entspricht -10 dBV.

38

Peakmeter (PPM) und VU-Meter

Bei Consumer-Gerten sind die Bauteile fr erheblich schwchere Signalspannungen ausgelegt, als bei Studiogerten. Dies kann zu erheblichen Problemen bei der Anpassung von Consumergerten an Gerten mit Studiopegel fhren. Man darf in Gerte auf Consumer-Level also keine zu hohen Signalspannungen "reinjagen". Bei manchem Equipment lsst sich jedoch einstellen, ob ein Gert mit Studio- oder Consumerpegel arbeitet.

3.4 Signalpegelmessung (Metering) Peakmeter (PPM) und VU-Meter


Die Signalstrke des Audiomaterials wird mit einem Peak-Program-Meter (kurz: Peakmeter; dt.= "Spitzenpegelmesser") oder VU-Meter (Volt Unit-Meter) gemessen. Das Peakmeter dient dazu, den momentanen Spitzenpegel (Peak-to-Peak-Level) anzuzeigen. Dadurch besitzt es sehr schnelle Ansprechzeiten von ca. 10 ms. Natrlich muss ein Peakmeter und VU-Meter korrekt kalibriert sein. Ansonsten zeigt es falsche Werte an. Dann entsteht die Gefahr, das Signal zu niedrig oder zu hoch auszupegeln. Will man ein Peakmeter z. B. auf den US-Studiopegel kalibrieren, muss das Gert so eingestellt werden, bei einem anliegenden +6 dBu-Signal 0 dB auf der dB-Skala angezeigt werden.

Skalierungen von Peakmetern Eine Vielzahl von Definitionen


Peakmeter knnen eine der folgenden Skalierungen besitzen12:
Raum Skalierung Bezeichnung Analoge Skalen Deutschland -50 dB bis +5 dB 0 dB bei "0" Skandinavien -40 bis +12 dB 0 dB bei Markierung "Test" Grobritannien Typ IIa: Wertebereich "1" bis "7" (Mit 4 dB Abstand zwischen den Marken.) British Scale UK-Scale BBC-Scale Typ IIa: +8 dBu (=1.94 V) Nordic Scale +0 dBu (=0.075 V) DIN-Norm +6 dBu (=1.55 V) Referenzwert fr 0 dB

International

-12 bis +12 dB 0 dB bei Markierung "Test"

EBU-Standard

+9 dBu (=2.18 V)

12Alle

diese Skalierungen sind in der DIN IEC 60268-10 (Ia, IIa, IIb) und fr digitale Skalierungen in der DIN IEC 60268-18 genau definiert.

39

Audio-Mastering-Guide

Digitale Skalen Deutschland -60 bis +9 dB +9 dB = 0 dBFS -50 bis +5 dB +5 dB = -4 dBFS Program-Level: +6 dBu bei -9 dBFS EU EBU R68 +18 dBu ARD-Studio-Norm +15 dBu

USA

-60 dB bis 0 dB

SMPTE RP155

+24 dBu

Frankreich u. a.

+22 dBu

Bei der ARD-Studio-Norm entsprechen 0 dBFS der +9 dB-Marke und nicht, wie sonst blich, der 0-dB-Marke. Bei manchen dieser Peakmeter reicht die Skala aber nur bis zu +5 dB-Marke und dadurch nur bis -4 dBFS. Pegel von -4 dBFS bis 0 dBFS werden also nicht angezeigt. Es existieren vier dBu-Referenzwerte fr 0 dBFS. EBU und SMPTE gelten als die gebruchlichsten Skalen. Von allen digitalen Skalen ist der dBu-Bezugspegel fr 0 dBFS bei der ARD-Studio-Norm am niedrigsten. Ein digitales Peakmeter geht von einem Clipping im Signal aus, wenn mehrere Samples hintereinander einen Pegel nahe oder gleich 0 dBFS besitzen. Dadurch besteht das Risiko, das ein Clipping angezeigt wird, obwohl gar kein Digital Over im Signal vorkommt. Durch mangelnde Messgenauigkeit oder durch unpassende Messeinstellungen zeigen digitale Peakmeter manchmal kein Clipping an. Deswegen ist eine ergnzende Beurteilung nach Gehr oft zuverlssiger. Wurde ein digitales Clipping beim recorden mit aufgenommen, wird es automatisch zu einem Aufnahmebestandteil und betrgt dadurch nach der Aufnahme 0dBFS. Dadurch kann dieses Clipping vom Peakmeter nicht mehr angezeigt werden. Wenn das Playback-Signal hinterher zu hoch ausgesteuert wird, zeigt das Peakmeter die dadurch ausgelsten bersteuerungen an, nicht aber die im Playback bereits enthaltenen bersteuerungen.

40

Skalierungen von Peakmetern Eine Vielzahl von Definitionen

Skalierungen des VU-Meters


VU-Meter Raum USA Skalierung -20 bis +3 VU 0 bis 100 % Bezeichnung US-Norm 1-Zoll-VU Referenzwert fr 0 VU +4 dBU (=-20 dBFS) +8 dBu dBFS-Referenzwert fr 0 VU -20 dBFS (US-Norm) -18 dBFS (EBU-Norm) -16 dBFS -14 dBFS -12 dBFS (Tascam-Norm)

Das VU-Meter ist ein analoges Pegelmessinstrument mit einer Skala von -20 bis +3 VU und einer zustzlichen Skala mit Prozentangaben. Nach US-Norm entsprechen 0 VU (bzw. die 100 %-Marke) einem Pegel von +4 dBu (=1.228 V). Eine andere, bei 1-Zoll-Studio-Bandmaschinen gebruchliche Norm, definiert die 0 VU-Marke sogar mit +8 dBu. 0 dBFS berschreitet meist die Skala des VU-Meters. Deswegen findet man im digitalen Bereich VU-Meters, die fr eine digitale Skalierung ausgelegt sind. Durch seine langsame Reaktionszeit von ca. 300 ms arbeitet das VU-Meter ca. 30-mal trger als ein Peakmeter. Deswegen ntzt das VU-Meter nur, um den Durchschnitts-Pegel eines Signals beurteilen und somit Rckschlsse auf die Lautheit zu ziehen. Es ersetzt fr eine Beurteilung der Lautheit jedoch nicht das menschliche Ohr.

VU-Meter

Foto: Iain Fergusson, 2006

41

Audio-Mastering-Guide

3.5 Frequenzabhngige Lautstrkewahrnehmung (Kurven gleicher Lautstrkepegel)

Kurven gleicher Lautstrkepegel

Abbildung: J.Blauert, 2005

Die "gehrte Lautstrke" (Lautheit) ist immer abhngig von der Frequenz. Bei gleichem Schalldruckpegel (dBSPL) unterscheidet sich die Lautheit je nach Frequenz. Dabei gibt es folgende Tendenzen: Um der Lautheit eines 1 kHz-Tons (mit 3; 20; 40; 60; 80 und 100 phon) zu entsprechen ... 1. ...Muss der Frequenzbereich von ca. 520 Hz und bei < ~200 Hz einen relativ hheren Schalldruckpegel (SPL) besitzen. Je tiefer bzw. hher dabei die Frequenz ist, desto hher muss der SPL sein. Daraus folgt: Tiefe und sehr hohe Frequenzen nimmt das Gehr leiser war als andere Frequenzen. 2. ...muss der Schalldruckpegel (SPL) bei Frequenzen > 200 Hz und besonders bei ~1.54 kHz tendenziell niedriger sein, als der des 1 kHz-Tons. Daraus folgt: Hohe Tne von 1.54 kHz und die Mitten ab 200 Hz aufwrts und nimmt das Gehr lauter war als andere Frequenzen. Nach Messungen von Harvey Fletcher und Wilden Munson nimmt das Gehr bei 85 dBSPL theoretisch die meisten Frequenzen gleichlaut wahr. Deswegen wird Musik oft bevorzugt bei 85 dBSPL abgemischt und gemastered. Als genauer Wert hat sich hier bei Stereo-Wiedergabe 83 dBSPL pro Mono-Lautsprecher etabliert, was in Stereo dann wieder 85 dBSPL ergibt. Diese Vorgehensweise hat den Nachteil, dass ein so bearbeitetes Stck spter eventuell nur bei und nahe 85 dBSPL wirklich ausgewogen klingt. Da sich je nach SPL die Lautheit vieler Frequenzen wieder ndert, muss sichergestellt werden, dass eine Produktion auch dann noch ausgewogen klingt. Deswegen sollte man neben 85 dBSPL auch noch bei anderen Schalldruckpegeln abmischen und mastern.

42

Gehrrichtige Lautstrke-Entzerrung (Loudness, Contour)

Kurven gleicher Lautstrkepegel (nach Robinson-Dadson)


Die bereits 1933 von Fletcher-Munson ermittelten Ergebnisse entsprechen nicht mehr dem neusten Stand. Etwas davon abweichend sind die Messergebnisse von Robinson-Dadson, die 1956 vorgenommen wurden.

Kurven gleicher Lautstrkepegel (gem ISO 226:2003)


Die aktuellste Definition fr "Kurven gleicher Lautstrkepegel13" aus dem Jahr 2003 ist in der ISO 226:2003 festgelegt. Im Bassbereich und ab ca. 1 kHz verlaufen die Kurven dort etwas steiler. Die leicht abweichenden Ergebnisse der verschiedenen Definitionen ndern nichts daran, dass die Tendenzen im Wesentlichen erhalten bleiben: Sehr hohe und tiefe Frequenzen besitzen weniger Lautheit als der Bereich von 15 kHz.

Gehrrichtige Lautstrke-Entzerrung (Loudness, Contour)


Mit der Loudness- oder Contour-Funktion wird der Frequenzgang per Equalizer (dt.="Entzerrer") so korrigiert, dass die Lautheitsverhltnisse zwischen Bass-, Mitten- und Hhenbereich auch bei unterschiedlicher Wiedergabelautstrke erhalten bleiben. Diese Verfahrensweise bezeichnet man als "gehrrichtige Lautstrkeentzerrung".

13Anmerkung:

0.02 kHz=20 Hz; 0.2 kHz=200 Hz usw. Nur fr einen 1 kHz-Ton kann sind Phon und dBSPL identisch. Deswegen stehen die Phon-Angaben in der Graphik immer bei 1 kHz.

43

Audio-Mastering-Guide

4. Grundlagen in Digital-Audio Analog wird digital!?


4.1 Digitalisierung (A/D-Wandlung) Sampling und Samplerate Abtastung mal hppchenweise!
Schall ist immer analog. Analoge Signale sind an sich immer kontinuierlich (unterbrechungsfrei, durchgehend). Die Schall-Amplitude besitzt deshalb zu jedem Zeitpunkt einen Wert, wodurch ein unendlicher Bereich an Werten ausgeschpft werden kann. Beim Erstellen einer digitalen Aufnahme gelangt das Schall-Signal, umgewandelt als analoges Spannungs-Signal an einen Analog-Digital-Wandler14. Dort wird es in durch die Vergabe von Bitwerten15 ein digitales Signal umgewandelt. Bei diesem als Digitalisierung bezeichneten Vorgang kann das analoge Signal nur mit einer begrenzten Hufigkeit pro Sekunde abgetastet werden. Zwangslufig wird das analoge Signal dadurch nicht zu jedem Zeitpunkt (aufgezeichnet. Einige Signalbestandteile gehen dadurch verloren. Aus dem kontinuierlichen Signal wird ein unstetes (= diskretes) Signal. Die Samplerate (Abtastrate, engl. "sample"=Muster, [Kost]probe, kosten, ausprobieren) gibt an, wie oft die Abtastung des Signals pro Sekunde erfolgt. Bei einer Samplerate von 44.1 kHz wird das aufzunehmende Signal 44.100-mal pro Sekunde erfasst. Diesen Abtastvorgang bezeichnet man als Sampling. Eine Aufnahme, die 44.100-mal pro Sekunde erfolgt, kann vom originalen analogen Signal natrlich nicht so viel erfassen, wie eine, die z. B. 96.000-mal erfolgt. Streng genommen ermglicht eine Samplerate von 44.1 kHz also nur eine sehr verlustbehaftete Aufnahme. Dennoch gengt diese Samplerate, um den Frequenzbereich bis 22.05 kHz zu bertragen. Die zwischen den Aufnahme-Punkten (Samples) liegenden Lcken werden spter bei der Digital-Analog-Wandlung durch Rekonstruktionsfilter "aufgefllt". Dadurch kann das Ursprungssignal wieder mehr oder weniger originalgetreu re-konstruiert werden. So wird aus dem diskreten (digitalen) Signal wieder ein kontinuierliches (analoges). Da das Signal aber unvollstndig aufgezeichnet wurde, sind die Informationen ber die Originalwerte der nicht aufgezeichneten Signalzustnde dennoch verloren. Je nach Samplerate unterscheidet man folgende Qualittsstufen: 20 kHz 44.1 kHz 48 kHz 96 kHz Radio-Qualitt CD-Qualitt DAT DVD Audio

14 15

A/D-Wandler, A/D-Converter (ADC). Ein Bitwert besteht aus einer binren Zahl (=aus Nullen und Einsen).

44

Quantisierung und Bitrate Rein ins Schema!

Quantisierung und Bitrate Rein ins Schema!


Jeder gesamplete Bestandteil der analogen Signal-Amplitude besitzt einen bestimmten Spannungswert ("Lautstrkewert", "Amplitudenwert"). Dieser muss beim Digitalisieren durch die sog. Quantisierung als binre Zahl (Bitwert) codiert werden.16 Dafr steht jedoch nur eine begrenzte Anzahl binrer Werte zur Verfgung. Besitzt die Amplitude des Samples einen Wert, der mit dem zur Verfgung stehenden digitalen Wertebereich nicht mehr codiert werden kann, wird ihr Wert zum nchstgelegenen bekannten Bitwert (auf- bzw. ab)gerundet. Das Runden ermglicht also, selbst bei einem stark begrenzten Wertebereich jedem Sample einen Bitwert zuzuordnen. (Man stelle sich zum besseren Verstndnis der Digitalisierung das analoge Signal einmal bildlich als "flieende Wasserwelle" vor. Diese "Welle" wird aus allerfeinsten nebeneinanderliegenden Klanginformationen gebildet, sodass man sagen kann: An jeder Stelle in dieser Welle gibt es eine eigenstndige Klanginformation, die zu jedem Zeitpunkt einen anderen Wert haben kann: jede Millisekunde, aber auch jede Mikro-, Nano-, und Picosekunde... Somit ergibt sich ein Bereich von unendlich vielen mglichen Zeitpunkten und Werten. Beim "Sampling" wird mit einer bestimmten Hufigkeit aus der "flieenden Wasserwelle" eine "Stichprobe" (ein "Sample") herausgenommen. Natrlich wird dadurch immer nur ein Teil des vorbeiziehenden Wassers erfasst. Als nchstes geht es darum, dem Inhalt jeder "Stichprobe" mit einem dazu passenden Etikett zu kennzeichnen. Das Etikett soll zeigen, wie viel ml Wasser sich in jeder Stichprobe befinden. Leider wurde uns dafr nur eine begrenzte Anzahl an Etiketten zur Verfgung und es ergibt sich ein weiteres Problem: Die Etiketten sind alle bereits mit verschiedenen ml-Angaben vorbeschriftet. Glcklicherweise finden wir zu vielen Etiketten tatschlich eine Stichprobe, die genau die auf den Etiketten angegebene Wassermenge enthlt. Schlielich ergibt sich, dass wir trotzdem viele Stichproben haben, zu deren Wassermenge wir kein passendes Etikett finden. Also wird einfach improvisiert: Wir nehmen einfach die Etiketten, deren ml-Angaben der Wassermenge in den Stichproben annhrend entsprich (Quantisierung).

16Im

Innenohr passiert beim Hren analoger Signale brigens hnliches: Das Signal wird bei den letzten Schritten des Hrvorgangs aufgequantelt und sozusagen digitalisiert, das aber sogar wesentlich grber als es bei Digital-Aufnahmen der Fall ist.

45

Audio-Mastering-Guide

Prinzip der Digitalisierung

Entspricht der Amplitudenwert eines Samples einem der darstellbaren binren Werte, kann er problemlos zugeordnet werden. Falls der Amplitudenzustand einen Wert besitzt, der (mit dem jeweiligen begrenzten digitalen Wertebereich) nicht mehr darstellbar ist, wird er zum nchstgelegenen Wert gerundet. Wenn also z. B. Theoretisch nur 255 binre Werte vergeben werden knnen, knnen nur 255 Amplitudenwerte ohne Auf- und Abrunden codiert werden. Bildlich gesprochen ergibt sich dadurch ein Raster mit 255 verschiedenen Stufen. Liegt nun ein Wert der Signal-Amplitude auerhalb dieser Stufen, kann er nur dadurch bercksichtigt werden, indem er einfach der nchstgelegenen Stufe zugeordnet wird. In Wirklichkeit lag er aber zwischen den jeweiligen zwei Stufen dieses Rasters. (Vom Prinzip her verhlt sich das so hnlich, als wenn man einen Strich in mm ausmessen soll, dafr aber nur ein Lineal mit einer cm-Skala hat. Dann muss man z. B. einen 7 mm langen Strich beim Abmessen eben auf 1 cm aufrunden. Denn die cm-Skala des Lineals "kennt" nunmal den Wert "7 mm" nicht.) Sobald nicht mehr genug binre Werte zur digitalen Codierung der Signal-Amplitude zur Verfgung stehen, werden Amplituden-Werte werden durch das Auf- und Abrunden beim Quantisieren verflscht. Die Rekonstruktions-Filter knnen bei der Digital-Analog-Wandlung die Lcken zwischen den Samples ausfllen und dadurch wieder ein kontinuierliches (analoges) Signal-Amplitude erzeugen. Der ursprnglichen Amplituden-Verlauf zwischen den Samples kann nicht originalgetreu rekonstruierst werden: 1. Wenn Samples durch das Auf- und Abrunden nicht mehr den richtigen Amplituden-Wert besitze. 2. Wenn zwischen den einzelnen Samples grere Lcken liegen. Dann stehen weniger Anhaltspunkte fr die genaue Rekonstruktion des Inter-Sample-Bereichs zur Verfgung stehen, als wenn die Lcken kleiner wren. Die Digitalisierung Amplituden-Verlauf. ergibt also ein gegenber dem analogen Original-Signal verflschten

46

Bitrate und Samplewert

Bitrate und Samplewert


Bitrate (Sampletiefe) 8 Bit 16 Bit 65.536 24 Bit 16 777 216 32 Bit 4 29 590 000

Samplewert 256 (Anzahl binrer Werte bzw. Spannungsstufen)

Der fr die Quantisierung maximal zur Verfgung stehende Anzahl binrer Werte wird durch die Bitrate (Sampletiefe) angegeben. Mit jeder Erhhung der Bitrate um ein Bit verdoppelt sich die Anzahl der zur Verfgung stehenden binren Werte. Sind es z. B. bei 8 Bit nur 256, werden es bei 9 Bit schon 512. Die Summe der bei einer gegebenen Bitrate zur Verfgung stehenden binren Werte bezeichnet man auch als sog. Samplewert. Bezieht sich die Bitrate auf das Codieren der Signal-Amplitude, nennt man die binren Werte auch Spannungsstufen (bzw. "Lautstrkestufen"). Z. B. knnen bei 8 Bit 256 Amplituden-Werte des Signalpegels codiert werden, von denen jede einer bestimmten Signalspannung und damit einem bestimmten Spannungspegel (letztendlich also einer bestimmten "Lautstrke") entspricht. Je hher die Bitrate, umso hufiger wird es mglich, die Signal-Amplitude ohne Rundungen zu codieren.

Bitrate 8 16 24 32

Format CD DVD

Werte 256 65 536 16 777 216 4 29 590 000

4.2 Dynamikumfang (Systemdynamik)

Bitrate 1 4 8 16 24

Systemdynamik (dBFS) Samplewert bzw. Spannungsstufen -6.02 -24,08 -48,16 -96,32 -144,48 2 16 256 65.536 16.777.216 12 42 82 162 242

47

Audio-Mastering-Guide

Die Bitrate legt den darstellbaren Dynamikumfang fest. Der bei einer gegebenen Bitrate mgliche Dynamikumfang wird auch als Systemdynamik bezeichnet. Dynamikumfang = Bitrate 6.02 Aus dieser Formel ergibt sich, dass pro Bit ein maximaler Dynamikumfang von ca. 6 dB dargestellt werden kann. Unterhalb der Systemdynamik sind Signale nicht fehlerfrei darstellbar. Dort kommt es zum sog. Quantisierungsrauschen. Bei einer Bitrate von 1 Bit betrgt der Samplewert 2. Es sind also nur 2 Amplituden-Werte darstellbar. Dem hchsten der beiden Amplituden-Werte wird deswegen der hchste digitale Signalpegel (=0 dBFS) zugeordnet verwendet. Dem anderen Amplituden-Wert wird dann ein digitaler Signalpegel von -6.02 dBFS zugeordnet. 0 dBFS entspricht einer binre Zahl aus lauter Einsen. Jedes Bit hat dort also den Wert 1 (z. B.: "1111"). Der kleinste digital codierbare Spannungswert entspricht einer binren Zahl, bei der nur das rechte Bit den Wert 1 besitzt, alle anderen Bits besitzen den Wert 0 (z. B.: "0001").

Signal-to-Error-Ratio Nicht immer praxistauglich!

Wortbreite (Bitrate) und Signal-to-Error-Ratio 8 Bit 16 Bit 24 Bit -49.92 dBFS -98.08 dBFS -146.24 dBFS

Der Signal-to-Error(-Ratio) gibt (ausgehend von einem Maximal-Pegel von 0 dBFS) den Abstand in dB zum Quantisierungsrauschen an. Der Signal-to-Error(-Ratio) zeigt also die Dynamikspanne, die fehlerfrei (also ohne Quantisierungsrauschen) darstellbar ist. Signal-to-Error-Ratio = Bitzahl 6,06 + 1.76 bzw.: Signal-to-Error-Ratio = Systemdynamik + 1.76 Quantisierungsrauschen entsteht theoretisch also immer ca. 1.76 dB unterhalb des Beginns der Systemdynamik. Da sich in der Praxis der Signalpegel (trotz der "louness race") nicht stndig auf 0 dBFS befindet, ist der praktische Signal-to-Error-Ratio entsprechend geringer. Je nach Art des Signals kann der praktische Signal-to-Error selbst bei 0 dBFS durchaus auch z. B. 9 dB geringer sein als der theoretische.

48

Signal-Rausch-Abstand, Signal-to-Noise-Ratio (SNR)

Signal-Rausch-Abstand, Signal-to-Noise-Ratio (SNR)


Der Signal-Rausch-Abstand gibt die Distanz des Nutzsignals zum Rauschsignal (Thermisches Rauschen, Weies Rauschen) an. Thermisches Rauschen entsteht in jedem Audiogert. Der SNR erlaubt also einzuschtzen, wie rauschfrei ein System klingt. Bei digitalen Systemen wird manchmal auch der Abstand zum Quantisierungsrauschen als Signal-to-Noise bezeichnet.

Strspannungs- und Geruschspannungs-Abstand Je nach Messmethode!


Der Signal-Rauschabstand wird ohne Bewertungsfilter gemessen und Strspannungsabstand bezeichnet werden. kann dann auch als

Erfolgt eine gewertete Messung des Grundrauschens, bezeichnet man den Signal-Rauschabstand als Geruschspannungsabstand.

Footroom und Headroom Abstandshalter...!


Der Abstand in dB zwischen dem leisesten Nutzsignal und dem thermischen Rauschen bzw. Quantisierungsrauschen wird als Footroom bezeichnet. Den Abstand (in dB) vom lautesten Nutzsignal bis zu dem Pegel, der maximal dargestellt werden kann (technischer Maxialpegel), bezeichnet man als Aussteuerungsreserve (engl.="Headroom"). Dieser Wert gibt also an, um wie viel dB der Signalpegel noch angehoben werden kann (also wie viel dB man zum Aussteuern also noch in "Reserve" hat), bist der Maximalpegel erreicht wird. Im digitalen Bereich stellen 0 dBFS den technischen Maximalpegel dar. Nutzt man dort z. B. eine Aussteuerungsreserve (Headroom) von 9 dB, soll der Pegel -9 dBFS nicht berschreiten. 9 dB Headroom macht jedoch nur fr Sendeanstalten Sinn. Man darf so nahe an 0 dBFS aussteuern, wie dies eben ohne (sptere) klangliche Einbuen mglich ist. Ein Headroom von -6 bis -3 dBFS ist dafr in den meisten Fllen vollkommen ausreichend. Ansonsten wrde man schon beim Recording unntig viel Pegel verschenken.

4.3 D/A-Wandlung (Digital-Analog-Conversion, DAC)


Das digitalisierte (diskrete) Audiosignal soll natrlich auch wieder analog ausgegeben werden (z. B. als Schallsignal ber Lautsprecher). Dafr muss es zunchst vom digitalen in den analogen Bereich gewandelt werden. Das geschieht durch Digital-Analog-Wandler (D/A-Wandler). Die Bitwerte werden dabei wieder in Spannungswerte umgerechnet und die Lcken zwischen den Samples rekonstruiert. Da das Ergebnis aber nur eine mehr oder weniger leicht verflschte Rekonstruktion des ursprnglich aufgenommenen analogen Signals darstellt, ist es nur ein quasi-analoges Signal. Also ein digitales Signal was fr die analoge Ausgabe gewandelt wurde.

49

Audio-Mastering-Guide

4.4 Fehlerquellen im digitalen Bereich und Lsungsanstze Rundungsfehler, Quantisierungsfehler


Immer wenn der Amplitudenwert eines Samples durch den bei der jeweiligen Bitrate vorhandenen Wertebereich nicht mehr dargestellt werden kann, erfolgt die bereits erwhnte Rundung zum nchstgelegenen bekannten Wert. Durch die Rundung wird eine Digitalisierung zwar selbst bei niedrigsten Bitraten mglich, sie verhindert aber die 100%ig exakte Aufzeichnung der Signal-Amplitude.

Berechnungen im Fixkomma- und Gleitkommaformat


Die durch Rundungen binrer Zahlenwerte entstehenden Verflschungen treten nicht nur whrend der Digitalisierung (Quantisierung) auf, sondern auch bei der digitalen Signalbearbeitung. Die digitale Signalbearbeitung erfordert eine ausreichende zur Verfgung stehende Menge binrer Werten und damit eine hohe interne Bitrate des Rechensystems. Berechnungen knnen dabei im Fixkommaformat (Festkommaformat) oder Gleitkommaformat (Float, Floating Point) vorgenommen werden. Nachteile bei Fixkomma-Berechnungen: Durch Rechenvorgnge am Audiomaterial kann es im Fixkomma-Format zu Zahlenber- oder Unterlufen und Rundungsfehler durch das Wegrunden von Nachkommastellen kommen. Diese Fehler summieren sich und knnen schlielich auch hrbar werden, denn die Signalamplitude wird dadurch nach und nach verflscht. Nachteile bei Gleitkomma-Berechnungen (Float): Beim Gleitkommaformat knnen reelle Zahlen manchmal nicht korrekt als Binrzahlen dargestellt werden. Die Genauigkeit ist hier eingeschrnkter als bei der Fixkomma-Darstellung. Da man an digitalen Audiodaten oft sehr viele Bearbeitungsschritte vornimmt, mssen immer wieder neue Werte dargestellt werden. So werden immer mehr binre Werte aufgebraucht. Dadurch wird zur Darstellung des neu berechneten Materials irgendwann eine Erhhung der Bitbreite unumgnglich. Ein Stck kann anfangs also z. B. noch problemlos in einem 16-Bit-Umfeld bearbeitet werden (16 Bit = 162 = 65563 mgliche Werte) aber durch etliche Rechenschritte am Audiosignal pltzlich einen Wertebereich von 24 Bit (242 = 16777216) bentigen. Ist ein solcher interner Wertebereich jedoch nicht realisierbar, mssen wieder Rundungen vorgenommen werden. Im 32 Bit Gleitstellenformat (bzw. 32 Bit Floating-Point-Format [Float]) knnen bleibende (sog. "destruktive"17) Berechnungen des Audiomaterials nahezu ohne Qualittseinbuen durchgefhrt werden. Das 32 Bit Gleitkomma-Format muss nach den Bearbeitungen jedoch wieder in ein Fixkomma-Format wie konvertiert und dafr entsprechend runtergerechnet werden.

17

Destruktiv ist in diesem Sinne also wertfrei gemeint. Es enthlt die lateinischen Wrter "structura" (=Struktur) und "de" (=ab, weg... von). Die ursprngliche Struktur (lat.: "structura") des Signals wird also sozusagen "de-struktuiert" (engl.="to destructurize sth.).

50

Quantisierungsrauschen

Quantisierungsrauschen
Eine weitere potenzielle Fehlerquelle ist das bereits genannte Quantisierungsrauschen, das immer nahe des niederwertigsten Bitwerts liegt (also der Bitwert, der leisesten darstellbaren Signal entspricht). Das Quantisierungsrauschen kann bei sehr niedrigen Bitraten und sehr geringen Signalpegeln deutlich stren.

Sampling-Jitter Das unterschtze Problem


Die meisten Wandler besitzen keine ausreichend stabile Taktung (Clock). Dadurch wird das Signal beim der Aufnahme bzw. Wiedergabe nicht in exakt regelmigen Abstnden abgetastet. Solche Taktungsschwankungen bezeichnet man als Sampling-Jitter (engl. "jitter"=Schwankung, Flimmern, Zitterbewegung). Die Taktungsschwankungen bewegen sich im Nano- bzw. Pico-Sekunden-Bereich. Dadurch sind sie zwar zu niedrig, um als solche wahrgenommenen zu werden, die dadurch entstehenden Signal-Artefakte knnen dennoch hrbar werden. Sie werden mit steigender Frequenz und Signal-Amplitude deutlicher. Bei diesen Signalartefakten kann sich um Rauschen, Phasen-Verzerrungen oder zustzliche unharmonische Signale handeln. Das macht die Diagnose, ob eine Klangverschlechterung durch Jitter oder andere Fehlerquellen verursacht wird, oft sehr schwierig. Je hher die Samplerate, umso stabiler muss die Taktung sein, um Sampling-Jitter zu verhindern. Sampling-Jitter kann auch durch elektrische und elektro-magnetische Einstreuungen ausgelst werden, die z. B. durch Netzteilen oder Prozessoren entstehen und auf die Wandler einstreuen. Dies ist besonders bei nicht abgeschirmten internen Soundkarten ein Risiko. Sampling-Jitter kann also nur durch stabil getaktete A/D-Wandler und das Abschirmen aller potenziell Jitter-induzierenden elektrischen und elektro-magnetischen Einstreuungen verhindert werden. Gelangen durch Sampling-Jitter bedingte Klangverschlechterungen auf eine Aufnahme, ist das unkorrigierbar. Tritt Sampling-Jitter jedoch nur bei der D/A-Wandlung auf, kann es durch den Einsatz eines stabil getakteten D/A-Wandler verhindert werden. Um auszuschlieen, dass Jitter nicht bereits durch Jitter im A/D-Wandler auf die Aufnahme gelangte, sollte man Produktion stets ber sehr gute A/D-Wandler hren. Viele Wandler knnen auch mit externen Clocks (von anderen Gerten) getaktet werden, was durchaus eine Verbesserung bringen kann. Eine andere Art von Jitter wird als Interface-Jitter bezeichnet (engl. "to interface"=etwas ber eine Schnittstelle verbinden). Das sind Taktungsschwankungen, die innerhalb digitaler Kabelverbindungen auftauchen. Diese Art von Jitter ist unkritisch, denn sie wird vom Wandler wieder neutralisiert.

51

Audio-Mastering-Guide

Aliasingeffekt
Der durch eine Samplerate darstellbare Frequenzumfang, entspricht genau der Hlfte der jeweiligen Samplerate. Z. B. kann man mit einer Samplerate von 44.100 Hz einen Frequenzbereich bis 22.050 Hz abdecken, also gesamten (bewusst) hrbaren Frequenzbereich. Dieses Phnomen wird durch das Nyquist-Shannon-Abtasttheorem beschrieben. Die Frequenz, die die Hlfte der Samplerate darstellt, bezeichnet man daher auch als Nyquistfrequenz. Eine Samplerate von 20.000 Hz wrde nur einen Frequenzumfang bis 10.000 Hz umfassen. In dem Abstand (in Hz), in dem eine Frequenz oberhalb der Nyquistfrequenz liegt, wird dem Signal auch unterhalb der Nyquistfrequenz (und dadurch im hrbaren Bereich) eine Frequenz hinzugefgt, die dort natrlich nicht hingehrt. Solche Frequenzen bezeichnet man daher als Aliasingverzerrungen (engl. "alias" =Deck- oder Falschname). Die Aliasingverzerrungen sind also sozusagen "Spiegelungen" von Signalen, die oberhalb der Nyquistfrequenz liegen. Daher ist es wichtig, dass bei einer Abtastung mit 44.1 kHz bis 19.98 kHz oberhalb der Nyquistfrequenz keine Frequenzen im Signal vorhanden sind. Obwohl Mikrofone selten Frequenzen > 20 kHz aufnehmen knnen und kaum ein Musiksignal ber 20 kHz reicht, kann es durchaus vorkommen, dass Frequenzen oberhalb der Nyquistfrequenz liegen.

Tiefpassfilterung
Um Aliasing-Effekte zu verhindern, wird bei der Abtastung ein Filter eingesetzt, der nur die Frequenzen unterhalb der Nyquistfrequenz passieren lsst (Tiefpassfilter). Der Filter beeinflusst jedoch auch ein wenig den (zumindest bei Sampleraten 44.1 kHz hrbaren) Bereich unterhalb der Nyquistfrequenz. Ein rein analoger Filter kann die Frequenzen oberhalb der Nyquistfrequenz nicht steil genug abschneiden. Eine Tiefpassfilterung wird daher normalerweise erst im digitalen Bereich vorgenommen. Dadurch werden die Anforderungen an analoge Tiefpassfilter wesentlich geringer und man kommt dem Vorbild eines "idealen Filters" nher.

Oversampling
Um Aliasing-Effekte noch wirksamer zu verhindern, nutzt man das sog. Oversampling. Beim Oversampling wird die Samplerate durch eine vorbergehende Einfhrung von Zwischenwerten hochgerechnet (Re-Sampling). Dadurch liegt die Nyquistfrequenz entsprechend hher. Die Tiefpassfilterung gelingt so noch besser und Aliasing-Effekte knnen nicht mehr im hrbaren Frequenzbereich auftreten.

Argumente fr 96 kHz
(1) Bei hohen Sampleraten wie 96 kHz werden die Anforderungen an die Tiefpass-Filterung wesentlich geringer. Es ist nmlich unwahrscheinlich, dass dort oberhalb der Nyquistfrequenz von 48 kHz noch Signale vorhanden sind. Zum anderen ist der hrbare Frequenzbereich hierbei noch 28 kHz von der Nyquistfrequenz entfernt. Eine Beeinflussung des hrbaren Frequenzbereichs durch die Tiefpass-Filterung wird dadurch effizient verhindert.

52

Argumente gegen 96 kHz

Liegen oberhalb der Nyquistfrequenz, hier also bei 4970 kHz Signale an, wrden (selbst ohne Tiefpassfilter) Aliasing-Effekte nur in bis max. 21 kHz unterhalb der Nyquistfrequenz auftreten knnen und damit noch weit weg vom hrbaren Frequenzbereich liegen. Um bei einer Samplerate von 96 kHz Aliasing-Effekte im hrbaren Bereich zu erzeugen, mssten also Signale im Bereich 7595.98 kHz vorhanden sein, was recht unwahrscheinlich ist. Wrden im Signal Frequenzen > 95.98 kHz liegen, wrden Aliasing-Effekte sogar nur den Infraschall-Bereich betreffen. Da hrt nun wirklich keiner mehr. Die meisten analogen Gerte besitzen einen Frequenzbereich von 50 kHz. Demnach wre der fr eine Samplerate von 96 kHz kritische Bereich ab 75 kHz gar nicht vorhanden. Die Gefahr von Aliasing-Artefakten bei einer Samplerate von 96 kHz ist also verschwindend gering. (2) Bei 96 kHz wird durch die hufigere Abtastung eine genauere Abbildung des Signalverlaufs in zeitlicher und damit auch dynamischer Hinsicht ermglicht. Die einzelnen Samples liegen dichter beieinander und der Bereich zwischen zwei Samples (der Inter-Sample-Bereich) ist logischerweise krzer. Dadurch kann das digitalisierte Signal durch die Rekonstruktionsfilter leichter authentisch rekonstruiert werden und besitzt eine grere Impulstreue. (3) Aus Punkt 2 ergibt sich auch, dass das Risiko von Inter-Sample-Clipping bei einer Samplerate von 96 kHz minimiert wird. Ohne die gesamte Architektur eines Wandlers und dessen Umgebung zu bercksichtigen (wobei es dort viele Unterschiede gibt), ist dies aber nur theoretisch der Fall. (3) Peakmeter arbeiten bei Audiosignalen in 96 kHz genauer.

Argumente gegen 96 kHz


(1) Bei 96 kHz ist das Risiko von Sampling-Jitter hher. Dies stellt hhere Anforderungen an die Stabilitt der Taktung. (2) Im Gegensatz zu einer Samplerate von 44.1 kHz ist fr das finale Zielformat fast immer eine Konvertierung auf eine niedrigere Samplerate erforderlich. Hierfr sind sehr gute Konverter ntig. (3) Oft wird gertselt, ob der bei 96 kHz ausgegebene Frequenzbereich bis 48 kHz sich klanglich positiv auf die hrbaren Frequenzen auswirken kann. Dafr mssen sich aber zunchst berhaupt erst mal Signale oberhalb von 22.05 kHz in der fertigen Musikproduktion befinden. Obwohl manche Instrumente noch Frequenzen oberhalb von 22 kHz ausbilden knnen, bertragen nur sehr wenige Mikrofone diesen Bereich. Wie erwhnt, bertragen auch vor dem Analog-Digital-Wandler anliegende Gerte nicht immer solch hohe Frequenzen. Nur uerst wenige Lautsprecher besitzen einen Wiedergabebereich > 22 kHz. Werden aber tatschlich Frequenzen oberhalb von 20 KHz wiedergegeben, knnen sich (laut wissenschaftlichen Studien), diese Frequenzen sehr wohl auf den hrbaren Frequenzbereich klanglich auswirken und somit indirekt wahrnehmbar werden. Die Frage, ob dieser Effekt klanglich positiv oder negativ ist oder eher wertfrei wahrgenommen wird, ist derzeit nicht geklrt.

53

Audio-Mastering-Guide

4.5 Auf dem Weg zur CD Red-Book-Format und Bitratenkonvertierung


Fr das Audio-CD-Format sind 16 Bit und 44.1 kHz als Norm vorgeschrieben. Dies wurde 1981 von Sony und Phillips im sog. Red-Book-Standard festgelegt. Der Red-Book-Standard legt die Soundqualitt und die physikalischen Eigenschaften einer CD-DA (Compact Disc Digital Audio) also einer gngigen Audio-CD fest. Das Red Book Format erlaubt dabei die Korrektur von bis zu 250 Lesefehlern pro Sekunde und sieht eine Spielzeit von max. 74 Minuten vor. Obwohl das CD-Format also nun schon gut 30 Jahre alt ist, gelten 16 Bit @44.1 kHz noch immer als Norm. Diese Klangqualitt wird vom moderneren mp3-Format sogar noch unterboten.

Der Re-Quantisierungsfehler
Bei Bitraten 16 Bit, muss fr das Zielformat hufig auf eine niedrigere Bitrate requantisiert werden. Durch diese Konvertierung entsteht ein Rundungsfehler (Requantisierungsfehler) am niederwertigsten Bit (least-significant-bit), der somit lediglich die leisesten darstellbaren Signalanteile betrifft. Dort korreliert18 das Signal mit dem naheliegenden Quantisierungsrauschen, wodurch klanglich unschne Signalverformungen entstehen, die man als Granulationsrauschen bezeichnet. Der Requantisierungsfehler tritt also nur auf, wenn uerst leise Signale wiedergegeben werden (z. B. am Ende von Fade-outs). Wenn der Dynamikumfang aufgrund sehr niedriger Bitraten (z. B. 8 Bit) extrem eingeschrnkt ist, ist er gut hrbar. Bei 16 Bit liegt das niederwertigste Bit jedoch bei ca. -96 dBFS. Ein Requantisierungsfehler ist dort also ein eher unwesentliches Problem, selbst das thermische Grundrauschen mancher Wiedergabesysteme ist bereits lauter. Da die meiste U-Musik heute ohnehin nur eine Dynamikspanne von ca. 12 dB ausnutzt, liegen die leisesten Signalanteile oft oberhalb von -96 dBFS. Bei Klassik-Aufnahmen mit groer Dynamikspanne ist es also weitaus verstndlicher, wenn der bei einer Konvertierung auf 16 Bit entstehende Requantisierungsfehler Sorge bereitet.

Truncation Einfach "Wegschneiden"?


Das Weglassen berschssiger Bits beim Requantisieren (Konvertieren) einer Bitrate bezeichnet man als truncation (engl. "to truncate"=beschneiden, stutzen).

18korrelieren=eine

Wechselbeziehung [Korrelation] bilden

54

Truncation Einfach "Wegschneiden"?

4.6 Dithering Sinn oder Unsinn?


Um die klanglichen Auswirkungen des Requantisierungsfehlers zu neutralisieren, fgt man ein knstliches Rauschen das sog. Dither hinzu, das einem Weien Rauschen durchaus hnelt. Das Dither-Rauschen verringert zwar den Signal-Rauschabstand ein wenig, der Gedanke dahinter ist jedoch, dass ein harmonisches Rauschen immer noch angenehmer klingt, als die klanglich unschnen Signalverformungen durch den Requantisierungsfehler. Das Dither-Rauschen fhrt dazu, dass die fehlerbehafteten Signalanteile mit dem Rauschen korrelieren. Dabei wird die sonst rechteckige Wellenform geglttet, wodurch der Requantisierungsfehler klanglich neutralisiert wird. Durch Dither wird der darstellbare Dynamikbereich vergrert. Dann knnen z. B. bei 16 Bit-Audio auch noch Klanginformationen unterhalb von -96 dBFS (wenn auch undeutlich) wiedergegeben werden. Das wre sonst nur mit Hilfe einer hheren Bitrate mglich. Erst bei Bitraten < 16 Bit kann ein Requantisierungsfehler im Bereich der U-Musik strend werden. Dither also z. B. bei einer Konvertierung auf 8 Bit einzusetzen, macht unbedingt Sinn. Dort betrgt die Dynamikspanne nmlich nur ca. 48 dB. Bei der Konvertierung auf 16 Bit ist der Einsatz von Dither bereits nicht pauschal zu empfehlen, denn der Dynamikbereich von -96 dBFS wird eher nur bei Klassik- und manchen Jazz-Produktionen wirklich ausgenutzt. Dennoch herrscht allgemein die unrichtige Annahme, man msse beim Konvertieren auf 16 Bit "generell" Dither anwenden. Wissenschaftliche Hrtests an Probanden haben jedoch ergeben, dass Musik-Produktionen im 16-Bit-Audioformat, mit Dither-Rauschen subtil angenehmer empfunden werden als ohne. CD-Produktionen knnen also durch das Hinzufgen von Dither-Rauschen durchaus ein wenig aufgewertet werden. Da Dither-Rauschen einem weien Rauschen hnlich ist und weies Rauschen erwiesenermaen angenehm wirkt, liegt hier also das sinnvollste und einzige Argument, um die Zugabe von Dither bei 16 Bit-Audio "pauschal" zu empfehlen. Die dither-bedingte Vergrerung der Dynamikspanne zu Bereichen < 96 dBFS ist hingegen weniger ein Argument fr Dither, da solch hohe Dynamikspannen in der U-Musik nicht genutzt werden. Bei einer Konvertierung auf 24 oder auf 32 Bit ist das Zufgen von Dither reinste Tontechniker-Esoterik. Sowohl der Requantisierungsfehler als auch das Dither-Rauschen sind dort im unhrbaren Bereich angesiedelt. Dither wird beim Requantisieren der Bitrate nur einmalig hinzugefgt. Eine Produktion ein zweites Mal mit einem Dither-Algorithmus zu versehen, verhilft meist nur dem Rauschen zum Ausdruck, nicht aber der Musik. Es gibt jedoch Leute, die dennoch gerne zweimal Dither auf ihre Stcke anwenden und dies klanglich vorteilhaft finden. Jeder, wie er es braucht. Nach dem Dithering und Noise Shaping sollte grundstzlich keine weitere Bearbeitung des Signalpegels mehr stattfinden, da sonst strende Nebeneffekte auftreten knnen. Dithering und Noise Shaping werden deshalb oft als die finalen Bearbeitungsschritte des Audiomaterials angesehen.

55

Audio-Mastering-Guide

Noiseshaping
Noise Shaping ist empfehlenswert, wenn der Requantisierungsfehler unbedingt entfernt werden und das Signal gleichzeitig so rauscharm wie mglich bleiben muss. Durch das so genannte Noiseshaping wird ein mglichst groer Anteil des Dither-Rauschens in hohe (weniger gut wahrnehmbare) Frequenzbereiche verlagert. Wenn aber tatschlich bereits das normale Dither-Rauschen bei Probanden fr eine Aufwertung des subjektiven Klangeindrucks sorgen konnte, ist die Frage, ob dieser Effekt durch den Einsatz von Noiseshaping erhalten werden kann. Man kann Dithering und Noise Shaping also eher als sehr puristische Verfahren ansehen, was sie eher nur fr klassische Musik interessant macht. Hierzu eine nette Anekdote: Als bei einem namenhaften Hersteller die Dither- und Noise Shaping-Funktion ausfiel (wobei dieser Fehler nach auen hin nicht erkennbar war), wurde das Fehlen von keinem Nutzer bemerkt, obwohl die meisten Nutzer die Dither bzw. Noise Shaping-Funktion einsetzen...

Die wichtigsten Dither-Algorithmen Dither Verteilungskurven (triangular, rectangular, gaussian)


Der Triangular-Dither-Algorithmus (TPDF19) bietet einen geringen Rauschpegel und eine gute Dekorrelierung des Signals vom Requantisierungsfehler. Das Rauschen ist dabei dreieckfrmig ber den Frequenzgang verteilt. Darber hinaus gibt es rechteckfrmig verteiltes Dither (RPDF; Rectangular Dither) und Gau'sches verteiltes Dither (GPDF; Gaussian Dither). Letzteres verluft also wie bei einer Gau'schen Verteilungskurve.

UV22
Der bekannte Apogee UV22-Algorithmus basiert auf dem Prinzip des Noise Shapings. Er fgt jedoch kein in hhere Frequenzbereiche verlagertes Dither-Rauschen hinzu, sondern legt stattdessen ein neutrales Signal im unhrbaren Frequenzbereich bei 22 kHz ab. Daher die Bezeichnung "UV22". So wird der Requantisierungsfehler am niederwertigsten Bit neutralisiert und ohne dafr den hrbaren Rauschanteil des Signals erhhen zu mssen. Der UV22 wird von Apogee selbst auch nicht als Dither- oder Noise-Shaping bezeichnet, sondern als ein knstliches Signal, das alle wnschenswerten Ergebnisse eines Dithering und Noise-Shaping mit sich bringt. Durch die sog. Autoblack-Funktion wird der UV22 stummgeschaltet, sobald das Nutzsignal einen bestimmten Signalpegel unterschritten hat (z. B. bei Pausen).

19PDF=probability dense function

(dt.="Wahrscheinlichkeitsdichte-Funktion").

56

Die wichtigsten Dither-Algorithmen

POW-R

Der derzeit effektivste und rauschrmste Dither-Algorithmus ist der POW-R-Algorithmus. Dieser Algorithmus bietet wahlweise die Mglichkeit bei 24 kHz die Dynamik um 20 dB zu erhhen (Typ 2) oder die Option, 510 dB Dynamikgewinn ber einen weiten Frequenzbereich zu erzielen (Typ 3).

4.7 Was ist besser? Digital oder Analog?


Bei den Eigenschaften analoger und digitaler Aufzeichnungs- und Wiedergabeverfahren kann man jeweils Vorteile und Nachteile erkennen. Befrworter digitaler Audioverfahren argumentieren, dass analoge Aufnahmen hufig etwas verwaschen klingen. Bnder und Platten geben durch Gleichlaufschwankungen das aufgenommene Signal nicht mit absoluter Tempogenauigkeit wieder. Die Dynamikspanne wird nicht immer strungsfrei wiedergegeben (Rauschen) und ist grade fr dynamikreiche Signale oft zu klein. Knacksen auf Platten, Klangeinfrbungen und muffiger Sound durch unpassende Bandsorten und stark abgenutzte Tonkpfe/Nadeln, schlecht kalibrierte Maschinen, bersprechungseffekte und Alterungserscheinungen bei alten Bndern und Signalaussetzer (engl. "Drop-outs") sind weitere unangenehme Effekte. Durch den Einsatz hochwertigen analogen Audio-Equipments und dessen korrekter Pflege und Wartung viele dieser Fehler vermieden werden. Andere lassen sich so weit minimieren, dass sie praktisch nicht mehr ins Gewicht fallen und manche Fehler fallen nur in manchen musikalischen Genres ins Gewicht. Fans von analogen Aufnahmen nehmen eine leichte klangliche "Einfrbung" in gewissen Grenzen in Kauf, da die analoge Wiedergabe mit einem als musikalisch empfundenen Eigenklang einhergeht. Obwohl dieser gewisse Eigenklang objektiv gesehen eine Signal"verflschung" darstellt, bereichert er oft die Musik. Selbst bersteuerungen klingen im analogen Bereich sogar noch relativ angenehm. Analoge Aufnahmeverfahren erfassen das Signal, abgesehen vom manchmal zu geringerem Dynamikumfang, wesentlich originalgetreuer. Die Sample- und Bitraten, die dafr im digitalen Bereich erforderlich wren, stehen noch lange nicht zur Verfgung. Die Fehler bei der digitalen Aufzeichnung und Wiedergabe sind zunchst fr den normalen Hrer berhaupt nicht als "Fehler" erkennbar, da das Signal ja bis hinauf in die hohen Frequenzbereiche absolut rauschfrei und tempogenau wiedergegeben wird. Dafr sind die Mngel umso schwer wiegender: Durch begrenzte Abtastraten und Bitraten kann der Signalverlauf berhaupt nicht originalgetreu reproduziert werden. Eine gewisse Ausnahme (wenn auch noch bei Weitem keine befriedigende Lsung) bildet hier der digitale 1-Bit-Recorder, der ein Signal durch die hhere Abtastrate authentischer erfasst. Weitere Fehler im digitalen Bereich wurden bereits thematisiert: Inter-Sample-Clipping, Aliasing-Effekte, Quantisierungsrauschen, (Re-)Quantisierungsfehler und Jitter. Dennoch bietet die digitale Audioaufzeichnung die fr klassische Musik erwnschte hohe Przision. Hier gehen leise Signale nicht in einem Rauschen unter und die Wiedergabegeschwindigkeit bleibt absolut konstant. Dennoch wirken analog aufgezeichnete Signale, selbst bei anschlieender bertragung in den digitalen Bereich nach wie vor wrmer und lebendiger. Sowohl Aufnahmen einzelner Spuren, als auch von der Summe werden deswegen im professionellen Studiosektor auch heute noch oft mit

57

Audio-Mastering-Guide

(Mehrspur-)Bandmaschinen realisiert und das, obwohl kaum noch ein Hersteller Bandmaschinen und Bandmaterial produziert. Analoge Aufnahme-Technik ist also noch lange nicht "von gestern".

4.8 Auf dem Abweg zur MP3


Heute wurde das CD-Format fast vollstndig vom mp3-Format verdrngt. Durch Filesharing bzw. die Nutzung von Online-Musik-Streams hren auch nur noch relativ wenige Leute Musik von CDs. Im Gegensatz zu einer CD kann eine mp3 logischerweise nicht verkratzen oder durch Alterung unbrauchbar werden. Dennoch bietet die Lagerung von mp3s durch Defekte an Festplatten, mp3-Playern, CD-Rs, Datensticks u. a. keine langfristige Sicherheit. Die oftmals winzigen Abspielgerte eignen sich zwar sehr gut zum Musik hren fr unterwegs, knnen gegenber greren Gerten wie einem tragbaren CD-Player, MD-Player oder gar Walkman auch leichter verloren gehen. Durch das Internet kann man mp3s per Download aus dem Internet beziehen und sie ebenfalls auch schnell und kostengnstig ber groe Distanzen verschicken. Einzeldownloads ersparen dabei auch den Kauf eines gesamten Albums und ermglichen nur die Titel zu kaufen, die man auch wirklich haben will. Ebenso ist die mp3 ein vorteilhaftes Format, wenn man fr seinen Musikkonsum kein Geld ausgeben will, denn aufgrund der geringen Datengre ist sie ideal, um auch von illegal hochgeladener Musikangeboten sehr viele Songs und Alben herunterzuladen oder als Stream online anzuhren. Dies wre mit greren Dateiformaten wie z. B. dem wav-Format so viel zeitaufwndiger, das ein legaler Kauf sicher eine attraktivere Lsung wre. Dennoch ist der "Siegeszug" des mp3-Format irgendwie sehr bedauerlich und gleichzeitig Augenwischerei. Ein CD-Regal ist immer ein gewisser Hingucker. Dabei hat man real auf einen Blick vor Augen, was man bereits an Musik gesammelt hat. Eine CD besitzt ein Cover und meist ein Booklet. Dort findet man hufig auch die Songtexte (zum Nachlesen und eventuellen Mitsingen) sowie hufig auch Fotos der Knstler und ein Artwork, was speziell fr die jeweilige Musik angefertigt wurde und sie dadurch auf optischem Wege bereichern und ergnzen kann. Ein CD-Album stellt also eine Symbiose aus Ton, Bild und Wort sowie aus Tontrger und Verpackung (Package) dar. Damit befindet sich im CD-Regal auch immer "mehr" von den jeweiligen Musikern, als nur deren bloe Musik. Der Gang in den CD-Laden ist zudem immer ein persnlicheres, realeres Einkaufserlebnis, als der anonyme Klick auf irgendeinen Shop-Button. Doch selbst wenn man eine CD nur online bestellt, hat man am Ende ein "reales" Produkt in der Hand, das man durch einen CD-Player auch unabhngig vom Computer nutzen kann. In puncto Klangqualitt ist die mp3, entgegen manch hartnckiger Annahme, ein Abstrich zur Audio-CD. Das mp3-Format entfernt sich noch weiter von dem klanglichen Ideal der originalen Aufnahme. Egal ob Audio-CD, Mini-Disc (MD), DAT-Tape, Schallplatte oder eine gute Tonbandaufnahme. Sie alle bieten eine bessere Soundqualitt und mehr Hrgenuss als eine mp3. Beim mp3-Format werden die als am besten wahrnehmbar bewerteten Frequenzbnder mit hoher Sample-Auflsung, die schlechter wahrnehmbaren jedoch mit geringerer Auflsung und alle unter einem bestimmten Schwellenwert liegenden Klnge einfach gar nicht mehr gespeichert. Jedoch sind auch schlecht und selbst die nur noch unterbewusst wahrnehmbare Bestandteile fr das Klangerlebnis entscheidend. Die Trbung der Klangqualitt durch mp3s wird herstellerseitig durch den Einsatz billiger Wandler und Verstrker in gnstigen mp3-Playern weiter verschlechtert. Das Gehr der meisten Hrer ist an solche

58

Die wichtigsten Dither-Algorithmen

Wiedergabequalitten mittlerweile leider gewhnt und die Sensibilitt dadurch bei vielen nachhaltig ruiniert. Der Siegeszug hher auflsender Formate wird in Consumer--Kreisen aber sicher noch sehr lange auf sich warten lassen. Denn obwohl es nach wie vor CDs zu kaufen gibt und erstaunlich viele Leute auch wieder Schallplatten nachfragen, haben sich die meisten Hrer fest mit dem mp3-Format vereinbart.

59

Audio-Mastering-Guide

5. Dynamikbearbeitung
5.1 Audio-Kompression (Audio-Compression) (Downward)-Kompression
Einiges ber die Aufgabe von Kompressoren wurde bereits im Kapitel "loudness-race" erwhnt. Fr professionelle Audiobearbeitung ist es sehr wichtig, das Funktionsprinzip eines Kompressors genau zu kennen. An jedem Kompressor findet man folgende Parameter: Threshold (dt.="Schwellenwert") Attack (time) (dt.="Ansprechzeit") Release (time) (dt.="Freigabe", "Auslser") Ratio (Kompressionsgrad)20 Arbeitsweise eines Kompressors: Nachdem der Signalpegel den am Kompressor eingestellten Threshold (dt.="Schwellenwert") fr die durch Attack (time) (dt.="Ansprechzeit") definierte Dauer berschritten hat21 , senkt der Kompressor, fr die durch Release (time) eingestellte Dauer, den (ber den Threshold gelangenden) Signalpegel-Anteil im durch Ratio vorgegebenen Verhltnis ab. Durch Absenkung der hheren Signalpegelanteile wird die Dynamikspanne reduziert und das Signal wird leiser. Die vormals hohen Pegel liegen nun niedriger und dadurch nher an den leiseren Pegelanteilen. Ein Kompressor macht das Signal also leiser und nicht (wie immer wieder vermutet wird) lauter. Daher nennt man ihn auch Downward-Kompressor
(engl. "downward"=abwrts, herunter, nach unten).

Da die hohen Pegel gesenkt wurden, kann das Gesamtsignal nach der Kompression mindestens wieder so viele dB hher ausgepegelt werden, wie es abgesenkt wurde. Meistens kann es aber auf einen noch hheren Pegel angehoben werden. Dadurch wird sowohl der Peak-to-Peak-Level als auch der dB RMS-Level hher als vor der Kompression und es ergibt sich eine hhere Lautheit. Bei unpassenden Einstellungen der Parameter knnen Kompressoren den Klang verschlechtern: Durch zu kurze Attack- und Release-Zeiten verformen sich die tiefen Frequenzanteile zu Rechteckwellen, wodurch hrbare Pumpeffekten und Verzerrungen entstehen. Musikalisch wichtige Pegelspitzen knnen durch zu kurze Ansprechzeiten dumpf und unnatrlich klingen, da die Anschwellphasen22 mancher Instrumente nicht mehr deutlich hervorkommen.

20Der

Kompressions-Grad wird in manchen Kompressoren nicht anhand von Ratio, sondern durch den Input-Regler festgelegt, der die Hhe des Eingangspegels bestimmt. Je hher der Eingangspegel, desto strker wird das Signal komprimiert. 21Das Regelverhalten des Kompressors whrend der Attack (time) ist bei manchen Kompressoren anders definiert. 22Die Anschwellphase stellt die Dauer da, die ein Klang bentigt, um sich von vollkommener Ruhe auf seinen hchsten Wert einzuschwingen. Dies wird auch als Einschwingphase, Klangeinsatz oder Attack (Ansprache) bezeichnet. Die Abschwellphase ist hingegen die Dauer, die der Klang zum Ausklingen bzw. bis zum Einsatz des folgenden Klangs bentigt.

60

Threshold und Ratio (Schwellenwert und Kompressionsgrad)

5.2 Kompressor-Parameter Threshold und Ratio (Schwellenwert und Kompressionsgrad)


Wie schon erwhnt, wird durch den Threshold (dt.="Schwellenwert") ein dB-Wert bestimmt, bei dessen berschreitung der Kompressor mit der Kompression beginnt. (Da Signal wird in der Regel jedoch nicht sofort ab berschreiten des Schwellenwerts komprimiert.)

Pegelanteile ober- und unterhalb des Schwellwerts (Threshold)

Nur Pegelanteile, die ber den jeweiligen Schwellenwert gelangen, knnen die Kompression auslsen. Pegelanteile unterhalb des Schwellenwerts werden nur komprimiert, sofern dafr die (durch Release festgelegte) Kompressions-Phase des Kompressors lang genug anhlt und der (durch Ratio bestimmte) Kompressionsgrad so stark ist, dass auch Pegelanteile unterhalb des Schwellenwerts betroffen werden. Der Threshold steht in enger Wechselbeziehung zum anliegenden Pegel: Wird der Threshold zu hoch angesetzt (bzw. ist der anliegende Pegel zu niedrig), bleibt der Pegel unter dem Schwellenwert. Dann kann der Kompressor nichts komprimieren egal wie die anderen Parameter eingestellt werden. Wird der Threshold zu niedrig angesetzt (bzw. ist der anliegende Pegel zu hoch), gelangt fast der gesamte Pegel ber den Schwellenwert. Dann komprimiert der Kompressor das Signal oft zu umfassend (also inklusive der sehr leisen Pegelanteile). Das ermglicht zwar ein Leveling im Sinne einer gleichmigen Pegelreduzierung, aber keine Steigerung der Lautheit. Der Parameter Ratio bestimmt, um wie viel dB der Kompressor den Signal-Pegel absenken soll. Ratio legt also die Hhe der eigentlichen Kompression fest. Z. B. bedeutet ein Ratio von 2:1, dass das Signal im Verhltnis 2:1 komprimiert wird. Beim niedrigsten Ratio-Wert von 1:1 wird das Signal nicht komprimiert. Bei einem zu hohen Ratio-Wert sind die Pegelabsenkungen zu stark, wodurch sich oft ein sehr unnatrlicher Klangeindruck ergeben kann. Wie stark komprimiert werden sollte, liegt am jeweiligen Audiomaterial und kann nicht pauschal beantwortet werden.

61

Audio-Mastering-Guide

Attack und Release (Ansprechzeit und Abschwellzeit)

Wechselwirkung von Attack- und Release beim Komprimieren

Die Ansprechzeit (engl. ="attack time") legt fest, wie lange es (ab der berschreitung des Schwellenwerts) dauern soll, bis die Kompression (mit dem durch Ratio festgelegten Kompressionsgrad) ausgelst wird. Innerhalb der Ansprechzeit setzt die Kompression bei den meisten Kompressoren noch nicht ein. Es gibt jedoch Kompressoren, bei denen die Kompression schon whrend der Attack-Phase allmhlich einsetzt und nach dem Ende der Attack-Phase ihr Maximum erreicht. Attack legt also fest, wie lange das Signal (ab berschreiten des Schwellenwerts) unkomprimiert bleibt bzw. nach welcher Dauer es den durch Ratio festgelegten Kompressionsgrad erreicht. Die Ansprechzeit wird oft in ms angegeben. Das garantiert aber nicht, dass sie bei jedem Kompressor wirklich dem eingestellten ms-Wert entspricht. Manche Kompressoren geben die Ansprechzeit auch nur durch "fast" und "slow" an. Die Kompression wird nach der Attack-Phase in voller Hhe ausgelst (engl. "release"). Wie lange das Signal dann komprimiert wird, bestimmt die Release-Zeit (engl. "release"=Freigabe, Auslser). Wenn die Release-Phase endet, stoppt die Kompression. berschreitet das Signal nach dem Ende der Release-Phase erneut den Schwellenwert, bestimmt wieder der Attack-Parameter das Ansprechverhalten des Kompressors. Das Verhltnis zwischen nicht-komprimierten und komprimierten Signalanteilen wird also grundlegend durch Attack und Release bestimmt. Die Parameter Threshold und Ratio, Attack und Release, bilden zusammen mit dem Eingangspegel ein in sich geschlossenes, sich wechselseitig beeinflussendes System:

Wechselwirkung von Threshold, Attack, Ratio und Release

62

Make-Up-Gain und Auto-Gain

Make-Up-Gain und Auto-Gain


Durch den Parameter Make-Up-Gain (bzw. Make-Up) kann man den Signalpegel des komprimierten Signals erhhen. Dadurch knnen die durch Kompression entstandenen Pegelverluste wieder ausgeglichen werden. Durch eine Auto-[Make-up]-Gain-Funktion wird das komprimierte Signal automatisch so weit angehoben, wie es ohne bersteuerungen mglich ist. Hard Knee und Soft Knee

Der Parameter "Knee"

Hard Knee und Soft Knee


Der Parameter Knee (engl. "knee"=Knie) beeinflusst, wann und in welchem Umfang und die Kompression einsetzen soll. Er beeinflusst also die Arbeitsweise der Parameter Attack, Release und Ratio. Der Modus Hard Knee entspricht der normalen Arbeitsweise eines Kompressors. Im Soft-Knee-Modus setzt bereits unmittelbar vor dem Ende der Attack-Phase ein geringer Teil der Kompression ein und erhht sich innerhalb der Release-Phase allmhlich auf den durch Ratio festgelegten Kompressionsgrad. Dadurch wird das Signal lnger aber dafr dezenter komprimiert. Deswegen wird das Regelverhalten eines Kompressors im Soft-Knee-Modus oft als musikalischer empfunden. Manche Kompressoren geben den Knee-Parameter durch einen Zahlenwert an: Der Wert 0 entspricht dann normalerweise einem "Hard Knee" alles jenseits davon geht in Richtung "Soft Knee".

Sidechain
Eine weitere Funktion mancher Kompressoren ist der Sidechain (engl. "Sidechain"=Seitenkette). Durch den Sidechain-Eingang kann ein externes Audiosignal zum Kompressor geleitet werden. Dieses wird vom Kompressor jedoch nicht komprimiert, sondern dient nur als Auslser (engl. "Trigger") des Kompressors. Der Kompressor aktiviert sich dann nur, wenn er durch den Sidechain ein externes Audiosignal empfngt. Das am Kompressor anliegende Eingangs-Signal wird also nur komprimiert, wenn der Kompressor im Sidechain ein Audiosignal empfngt. So wird durch ein externes Signal "x" die Kompression des internen Signals "y" kontrolliert.

63

Audio-Mastering-Guide

Ducking
Der Sidechain ist insbesondere fr Radio-DJs unentbehrlich. Immer wenn der DJ ins Mikro spricht, gelangt das Mikrofonsignal in den Sidechain des Kompressors, woraufhin der Kompressor die Radiomusik stark komprimiert und dadurch leiser geregelt. Diese Technik bezeichnet man auch als "Ducking" (engl. "to duck"=sich rasch ducken, den Kopf einziehen, untertauschen). Das Musiksignal "duckt" sich also frmlich weg, um der Stimme de Radio-DJs genug Platz zu geben. Passende Einstellungen der Kompressor-Parameter natrlich vorausgesetzt. In Producerkreisen ist der Sidechain auch beliebt, um z. B. das Verhltnis von E-Bass und Bassdrum so zu regeln, dass sich diese Instrumente nicht gegenseitig verdecken, denn schlielich liegen beide im gleichen Frequenzbereich.

5.3 Arten von Audio-Kompressoren Optokoppler-Kompressoren behutsam!


Optokoppler-Kompressoren (kurz: Opto-Kompressoren) besitzen generell eine Soft-Knee-Charakteristik. Dadurch tendieren sie dazu, mehr Pegelanteile weniger stark zu komprimieren. Optokompressoren arbeiten nicht in allen Frequenzbereichen gleich stark und lassen Bassanteile oft unbearbeitet durch. Manche Software-Kompressoren simulieren das Regel-Verhalten von Opto-Kompressoren: Sobald das eingehende Signal durch den Kompressor um einen bestimmten Grad abgesenkt wird, wird die Release-Zeit (und somit die Dauer der Kompressions-Phase) verkrzt. Dadurch wird das Signal quasi etwas dekomprimiert.

Multiband-Kompressoren Mehr Mglichkeiten, mehr Risiken!


Insbesondere zur Summen-Bearbeitung ist manchmal der Multiband-Kompressor von Interesse. Beim Multiband-Kompressor wird das Signal in mehrere Frequenzbnder aufgeteilt. Jedes davon verfgt ber einen eigenen Threshold-, Ratio-, Attack- und Release-Parameter und kann dadurch individuell komprimiert werden. Da bei jedem Frequenzband der Ausgangspegel verndert werden kann, kann der Multiband-Kompressor auch wie ein Equalizer eingesetzt werden. Die Kompressions-Parameter mssen jedoch genau auf die jeweiligen Frequenzbereiche abgestimmt werden: Tiefe Frequenzen werden deswegen tendenziell mit anderen Einstellungen komprimiert als hohe. Bei falscher Anwendung kann man mit dem Multi-Band-Kompressor besonders Summensignale extrem verflschen die Abmischung dadurch vollkommen ruinieren.

Vintage-Kompressoren
Vintage-Kompressoren ist ein Sammelbegriff fr die Studio-Kompressoren der 50er bis 70er Jahre, von denen viele bis heute noch als zeitlose Klassiker gelten. Solche Kompressoren arbeiten oft mit rein analogen, diskreten Schaltungen. Der Grad der Kompression wird manchmal nur durch die Hhe des anliegenden Signalpegels geregelt.

64

Limitierung (Limiting) Grenzen setzen!

Heutzutage versuchen manche Softwarehersteller die viel gerhmten analogen Klangeigenschaften dieser alten Kompressoren digital zu simulieren, wobei auch das Design der Software den Hardwarevorbildern nachempfunden wird.

Limitierung (Limiting) Grenzen setzen!


Beim Limiter drfen (im Gegensatz zum Kompressor) die Signalspitzen den Schwellenwert (Threshold) nicht berschreiten. Es mssen also auch sehr kurze und hohe Signalspitzen sofort stark genug abgeregelt werden knnen. Das Limitieren entspricht eigentlich einer Downward-Kompression, nur eben schneller und daher zuverlssiger. Die Funktion eines Limiters kann deswegen manchmal auch ein Downward-Kompressor bernehmen, was aber in den seltensten Fllen genauso gut gelingt. Die Ratio muss dafr unendlich hoch sein, damit auch sehr hohe Pegelspitzen weit genug abgesenkt werden knnen. Gleichzeitig muss die Ansprechzeit (attack time) extrem kurz sein, damit auch sehr kurze Pegelspitzen sofort begrenzt werden knnen. Ein Limiter kann dabei helfen, die Lautheit effektiver zu erhhen. Wenn z. B. in einem Stck einige Pegelspitzen sehr weit hervorstechen und dadurch 0 dBFS erreichen, kann das gesamte Stck nicht mehr hher ausgesteuert werden. Ansonsten wrden diese Signalspitzen ein Clipping auslsen. Limitieren lst dieses Problem, indem einfach ein Schwellenwert gewhlt wird, durch den diese hchsten Signalspitzen weit genug abgesenkt werden knnen, z. B. -4 dBFS. Da die Signalspitzen dann also nur noch einen Pegel von maximal -4 dBFS besitzen, kann das gesamte Signal um max. 4 dB hher ausgesteuert werden, ohne dass Clipping entsteht. Viele Leute sprechen davon, dass ein Limiter Signalspitzen einfach "abschneiden" wrde. Das ist nicht richtig, weil die ber den Threshold liegenden Signalspitzen schlielich nicht aus dem Signal "entfernt", sondern nur "abgesenkt" werden. Limiter (engl. "limit"=Grenze) werden deswegen auch als Begrenzer bezeichnet. Geht es nur um wenige deutliche hervorstechende Pegelspitzen, kann man diese in vielen digitalen Audio-Workstations (DAW) auch durch eine manuelle Bearbeitung absenken.

Limitieren eines Signals. Das Eingangssignal wird durch die waagrechte Achse (IN), das Ausgangssignal durch die senkrechte Achse (OUT) dargestellt. Das Eingangssignal wird hier z. B. bei -7.8 dBFS (waagrechte Achse) auf -12.9 dBFS (senkrechte Achse) limitiert usw.

65

Audio-Mastering-Guide

Brickwall- und Soft-Limiting


Ein Limiter im Brickwall-Modus begrenzt die ber den Threshold gelangenden Pegelanteile sofort. Muss der Limiter dabei sehr viele Signalspitzen unmittelbar nacheinander limitieren, kann dies jedoch zu Signal-Verzerrungen fhren. Beim Soft-Limiting tastet der Limiter das Signal bereits im Voraus nach Signalspitzen ab (Look-Ahead-Funktion). Dadurch wird oft ein transparentes Klangergebnis mglich.

5.4 Upward-Kompression
Wenn man vom Kompressor sprich, ist damit normalerweise der Downward-Kompressor gemeint. Daneben gibt es aber auch noch den Upward-Kompressor. Upward-Kompressoren arbeiten genau umgekehrt: Sie verkrzen die Dynamikspanne, indem Pegelanteile, die unterhalb des Schwellenwerts (engl.="threshold") liegen angehoben werden (engl.="upward"). Leisere Pegelanteile werden dadurch lauter. Signalpegel-Anteile oberhalb des Schwellenwerts bleiben jedoch (im Gegensatz zur Downward-Komression) unbeeinflusst. Diese knnen im Anschluss separat (z. B. mit einem Limiter) bearbeitet werden. Dadurch bietet sich genau genommen ein Vorteil gegenber der gngigen Downward-Kompression. Bei der Downward-Kompression werden zwar ebenso die relativ leisen Pegelanteile erhht, dies geschieht aber auf Kosten der relativ lauteren (und musikalisch oft wichtigeren!) Signalanteile, da diese ja abgesenkt werden. Der Upward-Kompressor erhht hingegen direkt die relativ leiseren Signalanteile und lsst die relativ lauteren Signalanteile unbearbeitet. Ein Downward-Kompressor eignet sich also eher, wenn die hheren Pegelspitzen auch bedenkenlos reduziert werden knnen. Der Upward-Kompressor bietet sich hingegen fr Signale an, bei denen es auf den Erhalt der hohen Pegelspitzen ankommt. Da sowohl beim Downward- als auch beim Upward-Kompressor vormals leisere Signalanteile erhht werden, besteht bei beiden Verfahren das Risiko, dass eventuell im Signal vorhandenes Rauschen oder unwesentliche musikalische Details pltzlich (deutlicher) hrbar werden.

5.5 Audio-Expansion Downward- und Upward-Expansion


Ging es bei der Downward- und Upward-Kompression darum, die Dynamikspanne zu verringern (sei es durch Absenken hoher oder durch Anheben niedriger Pegel), sind Expander dazu da, die Dynamikspanne zu vergrern (engl. "to expand"). Downward-Expander tun dies, indem sie niedrige Signalpegel noch weiter herabsenken, wodurch sich die Dynamikspanne hin zu leiseren Pegelbereichen ausweitet. Dadurch knnen z. B. Rauschen und leise Strgerusche auf einer Aufnahme unterdrckt werden. Viele Rauschunterdrckungsverfahren (z. B. Noise Gates) arbeiten deshalb nach diesem Prinzip.

66

Downward- und Upward-Expansion

Durch Upward-Expander werden hohe Signalpegel weiter erhht. Die Dynamikspanne weitet sich dadurch also zu hheren Pegelbereichen aus. Sinnvoll ist dieses Verfahren, um zu schwache oder nahezu verloren gegangene Pegelspitzen nachtrglich zu erhhen bzw. die Dynamikspanne deutlich hrbar zu steigern. Upward-Expander wirken also wie eine Dekomprimierung. Um auf den Einsatz eines nachgeschalteten Limiters verzichten zu knnen, sollte man die hohen Pegelanteile nicht zu stark mit dem Upward-Expander anheben.

5.6 Normalisierung (Normalising)


Beim Normalisieren wird festgelegt, wie hoch die hchste Pegel-Spitze (max. Peak) im Signal sein soll. Proportional zur hchsten Pegelspitze wird der restliche Signalpegel im gleichen Mae mitangehoben bzw. mitabgesenkt. Liegt die hchste Signalpegel-Spitze z. B. bei -6 dBFS und soll auf -3 dBFS normalisiert werden, ist dafr eine Anhebung des gesamten Signalpegels um 3 dB erforderlich. Hier geschieht also nichts anderes, als eine Neuaussteuerung des gesamten Pegels, die sich aber an der Hhe der hchsten Signalpegel-Spitze orientiert. Ein Normalisieren auf einen hheren Pegel ist nur mglich, wenn die hchste Pegelspitze unterhalb von 0 dBFS liegt. Meistens whlt man fr die Pegelanhebung jedoch nicht 0 dBFS, sondern einen Ziel-Pegel leicht unterhalb von 0 dBFS. Das kann dazu fhren, dass beim Normalisieren der Pegel abgesenkt statt erhht werden muss, z. B. wenn die hchste Pegelspitze -1 dBFS betrgt und das Signal auf -3 dBFS normalisiert werden soll. Der Signal-Rausch-Abstand an sich wird durch das Normalisieren nicht verndert. Da beim Normalisieren jedoch eine Anhebung des Signalpegels erfolgt, wird natrlich auch eventuelles Rauschen angehoben und dadurch (deutlicher) hrbar. Die Dynamikspanne wird durch das Normalisieren weder verringert, noch vergrert, verschiebt sich aber insgesamt zu einem relativ hheren (oder niedrigeren) Pegelbereich. Werkzeuge zur Dynamikbearbeitung
Kompression (Downward-Kompression) & Limitierung Senkt hohe Signalpegel herab (Lautes wird leiser)

Verringerung der Dynamik

Upward-Kompression Downward-Expansion

Erhht niedrige Signalpegel (Leises wird lauter) Senkt leise Signalpegel herab (Leises wird leiser) Erhhung der Dynamik

Upward-Expansion Normalisierung

Erhht hohe Signalpegel (Lautes wird lauter) Erhht oder senkt den Gesamtpegel proportional zum Spitzenpegel (Alles wird lauter bzw. leiser) Keine Auswirkungen auf die Dynamik, aber Verschiebung der Dynamikspanne

67

Audio-Mastering-Guide

68

6. Frequenzbearbeitung

6. Frequenzbearbeitung
6.1 EQing (Equalization)
Durch den Equalizer (EQ, dt.="Entzerrer") lsst sich der Signalpegel eines Frequenzbereichs anheben oder absenken. Das Arbeitsspektrum eines EQs erstreckt sich dabei bis 22 kHz. Pro EQ-Band (bzw. EQ-Filter) kann jeweils ein Frequenzbereich bearbeitet werden.

6.2 EQ-Parameter Filtergte und Q-Faktor (Q), Bandbreite (N)


Die sog. Mitten-Frequenz (bzw. Center-Frequenz oder Arbeits-Frequenz) stellt den Mittelpunkt des zu bearbeitenden Frequenzbereichs dar. Wie weitrumig sich die Bearbeitung auf die benachbarten Frequenzen (die sog. Eckfrequenzen) auswirkt, entscheidet die (in Oktaven angegebene) Bandbreite (N) (engl. "bandwidth") des EQ-Filters bzw. die Filtergte (Q). Letztere wird auch als Q-Factor (Gtefaktor, engl. "quality factor") bezeichnet. Bei einer hohen Filtergte (Q) erfolgt eine schmalbandige Bearbeitung: Hier wird nur ein geringer Teil des benachbarten Frequenzbereichs beeinflusst. Die schmalbandige Bearbeitung eignet sich damit fr gezielte Bearbeitungen kleiner Frequenzbereiche. Bei einer niedrigen Filtergte (Q) erfolgt eine breitbandige Bearbeitung: In diesem Fall wird also ein grerer Teil des benachbarten Frequenzbereichs mitbearbeitet. Die Filterflanken sind demgem nicht besonders steil.

Flankensteilheit (slope)
Der Ausdruck Flankensteilheit (engl. "slope") wird nur bei Filter angewendet, die dafr vorgesehen sind, einen Frequenzbereich extrem stark auszuregeln ("wegzuschneiden"). Dies trifft auf den Tief- und Hochpassfilter (bzw. High- und Low-Cut-Filter) zu. Bei solchen Filtern darf man also nicht von "Bandbreite" oder "Gtefaktor" reden.

Schmalbandige Absenkung bei 377 Hz (Q-Faktor: 4.82). Benachbarte Frequenzbereiche werden so kaum beeinflusst.

69

Audio-Mastering-Guide

Breitbandige Absenkung bei 375 Hz, (Q-Faktor: 0.56) ergibt. Im Gegensatz zur schmalbandigen Absenkung werden die benachbarten Frequenzbereiche weit reichender mitbearbeitet.

Wirkungsgrad (Gain, Range)


Um wie viel dB ein EQ-Filter Frequenzen anheben bzw. absenken kann, bestimmt der sog. Wirkungsgrad (engl. "gain"=Verstrkung; "range"=[Wirkungs]bereich, Umfang, Skala, Reichweite). So wird man mit einem relativ geringen Wirkungsgrad von +/- 6 dB einen Frequenzbereich nicht effektiv ausregeln ("cutten") knnen. Dafr bentigt einen hheren Wirkungsgrad von 20 dB.

6.3 EQ-Filtertypen Peak, Bell (Glockenfilter)


Der Peak-Filter ist der gngigste Filtertyp. Vom Aussehen her hnelt der Frequenzgang dieses Filtertyps einer Gau'schen Glockenkurve, daher auch die Bezeichnung "Glockenfilter" (engl. "bell"=Glocke).

EQ-Band 4 zeigt eine Absenkung von -4.5 dB bei 1622 Hz mit dem Bell-Filter.

Notch (Kerbfilter)
Ein Notchfilter hnelt einem sehr schmalbandigen Bell-Filter. Dadurch kommt es an der Centerfrequenz zu einer Kerbe (engl.="notch") im Frequenzgang, weswegen man ihn auch als Kerbfilter bezeichnet.

70

Wirkungsgrad (Gain, Range)

Shelve (Kuhschwanzfilter)
Den Shelf-Filter unterscheidet man in High-Shelf und Low-Shelf: Der High-Shelf-Filter bearbeitet die Frequenzen, die oberhalb der Center-Frequenz liegen. Der Low-Shelf-Filter beeinflusst hingegen den Frequenzbereich unterhalb der Center-Frequenz. Je nach Filtergte wirkt sich der High-Shelf auch auf einen gewissen Frequenzbereich unterhalb und der Low-Shelf auch auf einen gewissen Frequenzbereich oberhalb der Center-Frequenz aus. Dort entsteht eine leichte Anhebung bzw. Absenkung, die dem Filter sein charakteristisches Aussehen verleihen, dass etwas an einen "Schweif" bzw. "Kuhschwanz" erinnern kann. Daher auch die Bezeichnung "Kuhschwanzfilter".

EQ-Band 4 Absenkung von -8.5 dB bei 1628 Hz mit dem High-Shelf-Filter.

EQ-Band 3 Ansenkung von -10.8 dB bei 406 Hz mit dem Low-Shelf-Filter.

High-Pass (HP) (Hochpassfilter), Low-Cut (LC)


Der High-Pass-Filter (engl. "to pass"=vorbeilassen, berqueren) lsst alle Frequenzen oberhalb der gewhlten Frequenz (je nach Flankensteilheit und Filter-Verhalten) mehr oder weniger unbeeinflusst passieren und senkt unterhalb der Center-Frequenz alles ab. Da er also die tiefer liegenden Frequenzen absenkt, nennt man diese Bearbeitung auch Low-Cut. Je hher die Flankensteilheit, desto mehr wirkt sich der Filter jedoch auch oberhalb der Center-Frequenz aus.

71

Audio-Mastering-Guide

Low-Pass (LP) (Tiefpassfilter), High-Cut (HC)


Der Low-Pass-Filter lsst alle Frequenzen unterhalb der gewhlten Frequenz (je nach Flankensteilheit Filterverhalten mehr oder weniger unbeeinflusst) passieren und senkt alles oberhalb der Centerfrequenz ab.
und

Da er also hher liegende Frequenzen absenkt, entspricht diese Bearbeitung einem High-Cut. Je hher die Flankensteilheit desto mehr wirkt sich der Filter jedoch auch unterhalb der Center-Frequenz aus.

Bandpassfilter (BP) (Breitbandfilter)


Der Bandpassfilter lsst einen extrem breites Frequenzband unbearbeitet passieren (daher die Bezeichnung "Bandpass") und regelt alles auerhalb davon herab. Somit filtert er ein sehr breites Frequenzband aus dem Signal heraus und wird deswegen auch als "Breitbandfilter" bezeichnet. Auf diese Weise lsst sich mit nur einem Filter gleichzeitig ein High- und Low-Cut erzeugen.

Bandpassfilter erzeugt hier einen Low-Cut bei 40 Hz (links) und einen High-Cut bei 16.5 Hz (rechts).

Filterverhalten bei Low- und High-Cut-Filtern


Bessel Die Signal-Phase ndert sich bei diesem Filterverhalten am langsamsten. Das Phasenverhalten im Durchlassbereich23 des Filters ist linear. Rechtecksignalen werden geglttet. Die Gruppenlaufzeit24 ist konstant. Geringe Steilflankigkeit. Die konstante Gruppenlaufzeiten verhindern Verzerrungen bei nicht-sinusfrmigen Signalen und somit von den meisten Audiosignalen. Somit ist Bessel ein fr den Audiobereich sehr brauchbareres Filterverhalten. Durch die Rundung von Rechtecksignalen kann es zu einem weicher wirkenden Klangeindruck kommen. Ein Nachteil ist die relativ geringe Flankensteilheit. Chebyshev Nahe der Grenzfrequenz (= die Frequenzen, die durch den Filter um 3 dB abgesenkt werden) entsteht ein starkes berschwingen. im Durchlass- bzw. Sperrbereich des Filters entsteht (durch berlagerte Restspannung) ein leicht wellenfrmiger Frequenzverlauf. Der Phasenverlauf ist nicht-linear. Die Gruppenlaufzeit ist frequenzabhngig. Sehr steilflankig.

23Der

Durchlassbereich ist im Gegensatz zum sog. Sperrbereich der Signalanteil, den der Filter ohne Dmpfung (=Absenkung der Signalamplitude) durchlsst.
24Mit

Gruppenlaufzeit bezeichnet man die Phasenlage von Frequenzgruppen.

72

Parametrischer EQ halb oder voll?

Gruppenlaufzeiten sollten idealerweise frequenzunabhngig sein, was hier nicht der Fall ist. Auch aufgrund des nicht-linearen Phasenverlaufs, dem berschwingen nahe der Grenzfrequenz und der Welligkeit besitzt dieses Filterverhalten fr Audiosignale durchaus einige Schwachpunkte. Jedoch ermglicht der Chebyshev ein extrem steilflankiges Abregeln des Signals. Butterworth Die Dmpfung im Durchgangsbereich des Filters ist konstant. Nahe der Grenzfrequenz entsteht eine geringe Anhebung des Signals. Der Phasenverlauf weist eine leichte Nicht-Linearitt auf. Die Gruppenlaufzeit ist frequenzabhngig Nahe der Grenzfrequenz kommt es zu einer geringen Anhebung der Signalamplitude. Das ist nur ntzlich, wenn man dort tatschlich eine Anhebung bentigt oder tolerieren kann. Der Phasenverlauf ist nur in geringem Mae nicht-linear und diesbezglich dem Chebyshev berlegen. Die Gruppenlaufzeit ist jedoch auch hier frequenzabhngig.

6.4 Arten von Equalizern Parametrischer EQ halb oder voll?


Bei voll-parametrischen EQs ist fr jedes EQ-Band die Center-Frequenz und Bandbreite (aus einer Menge vorgegebener Werte) whlbar. Bei semi-parametrischen bzw. quasi-parametrischen Equalizern (lat. "semi"=halb) ist die Bandbreite festgelegt und nur die Center-Frequenz (aus einer Menge vorgegebener Werte) whlbar. Manche EQs werden auch als semi-parametrisch bezeichnet, wenn einige EQ-Bnder voll-parametrisch und die anderen semi-parametrisch ausgelegt sind.

Voll-parametrischer EQ

Graphischer EQ Alles auf einen Blick!


Beim graphischen EQ sind Centerfrequenz und Bandbreite fr jedes EQ-Band fest vorgegeben. Alle EQ-Bnder liegen hier unmittelbar nebeneinander und der Gain wird durch Schieberegler geregelt. Dadurch wird der durch die Einstellung der EQ-Bnder definierte Frequenzgang bereits am Gert selbst anschaulich. Anhand der Position der Schiebregler sieht man nmlich, welchen Kurvenverlauf (mathematisch: Graph) der EQ bildet. Daher bezeichnet man solche Equalizer als "graphisch".

73

Audio-Mastering-Guide

Para-graphischer EQ
Grade im Softwarebereich findet man oft para-graphische EQs. Hier lsst sich die Centerfrequenz und Bandbreite der EQ-Bnder nicht nur aus einer Menge vorgegebener Werte auswhlen, sondern vollkommen frei einstellen. Zustzlich wird der Frequenzverlauf als Graph dargestellt.

Graphischer EQ

Oktav- und Terzbandskalierung


Eine Einteilung der Center-Frequenzen in Oktav- oder Terzabstnden25 findet man in der Regel bei graphischen und vielen voll-parametrischen EQs, z. B.: 20 Hz 20 40 25 80 160 320 50 640 62.5 Oktaven Terzen

31.25 40

Linearer EQ
Aufgrund von Phasenverschiebungen verfrben EQs den Klang ein wenig. Bei linearen Equalizern treten keine Phasenverschiebungen auf. So entsteht ein transparenterer Klang, der sich besonders fr unauffllige Eingriffe am Audiomaterial eignet. Eine vollkommene Neutralitt ist jedoch nicht gegeben, da auch lineare EQs einen gewissen Eigenklang besitzen und z. B. zu "weicher" oder "analytisch" wirkenden Klangeindrcken fhren knnen. Weil sie (gegenber nicht-linearen EQs) aber dennoch neutraler im Klangverhalten sind, werden sie oft beim Mastering eingesetzt.

Umrechnung der Bandbreite (N) in den Gtefaktor (Q)


Manchmal will man den Klang von EQs (anhand gleicher Einstellungen) miteinander vergleichen. Erfolgen bei einem EQ die Angaben als Bandbreite (in Oktaven, N/B) und beim anderen als Gtefaktor (Q-Factor, Q), ist ohne Umrechnung kein exakter Vergleich mglich. Deswegen kann man das Ganze entweder direkt mit entsprechenden Formeln umrechnen oder einfach die folgende Tabelle als Anhaltspunkt nehmen:
N/B 1/80 1/60 1/50 1/40 1/30
25Ein

Q 115.4 88.6 72.1 57.7 43.3

N/B 1 1 1/4 1 1/3 1 1/2 1 2/3

Q 1.41 1.12 1.04 0.92 0.82

N/B 4 4 1/4 4 1/3 4 1/2 4 2/3

Q 0.267 0.242 0.234 0.220 0.207

N/B 7 7 1/4 7 1/3 7 1/2 7 2/3

Q 0.089 0.082 0.079 0.075 0.071

Frequenzunterschied in Hhe einer Oktave entspricht also immer einer Verdoppelung der jeweiligen Frequenz. Ein Frequenzunterschied in Hhe einer Terz entspricht immer der Erhhung um ein Viertel der jeweiligen Frequenz.

74

Umrechnung der Bandbreite (N) in den Gtefaktor (Q)

1/25 1/20 1/16 1/12 1/10 1/8 1/6 1/5 1/4 1/3 1/2 2/3 3/4

36.1 28.9 23.1 17.3 14.4 11.5 8.65 7.20 5.76 4.32 2.87 2.14 1.90

1 3/4 2 2 1/4 2 1/3 2 1/1 2 2/3 2 3/4 3 3 1/4 3 1/3 3 1/2 3 2/3 3 3/4

0.78 0.67 0.58 0.56 0.51 0.47 0.45 0.40 0.36 0.35 0.33 0.30 0.29

4 3/4 5 5 1/4 5 1/3 5 1/1 5 2/3 5 3/4 6 6 1/4 6 1/3 6 1/2 6 2/3 6 3/4

0.200 0.182 0.166 0.161 0.152 0.143 0.139 0.127 0.116 0.113 0.106 0.100 0.097

7 3/4 8 8 1/4 8 1/3 8 1/1 8 2/3 8 3/4 9 9 1/4 9 1/3 9 1/2 9 2/3 9 3/4 10

0.068 0.063 0.058 0.056 0.053 0.050 0.048 0.044 0.041 0.039 0.037 0.035 0.034 0.031

Nachfolgend nochmal die gleiche Tabelle mit der Bandbreite in Dezimalzahlen:


N/B 0.0125 0.0166 0.020 0.025 0.033 0.040 1/20 1/16 1/12 1/10 1/8 1/6 1/5 1/4 1/3 1/2 2/3 3/4 Q 115.4 88.6 72.1 57.7 43.3 36.1 28.9 23.1 17.3 14.4 11.5 8.65 7.20 5.76 4.32 2.87 2.14 1.90 N/B 1.00 1.25 1.33 1.5 1.66 1.75 2.00 2.25 2.33 2.5 2.66 2.75 3.00 3.25 3.33 3.5 3.66 3.75 Q 1.41 1.12 1.04 0.92 0.82 0.78 0.67 0.58 0.56 0.51 0-47 0.45 0.40 0.36 0.35 0.33 0.30 0.29 N/B 4.00 4.25 4.33 4.5 4.66 4.75 5.00 5.25 5.33 5.5 5.66 5.75 6.00 6.25 6.33 6.5 6.66 6.75 Q 0.267 0.242 0.234 0.220 0.207 0.200 0.182 0.166 0.161 0.152 0.143 0.139 0.127 0.116 0.113 0.106 0.100 0.097 N/B 7.00 7.25 7.33 7.5 7.66 7.75 8.00 8.25 8.33 8.5 8.66 8.75 9.00 9.25 9.33 9.5 9.66 9.75 10.0 Q 0.089 0.082 0.079 0.075 0.071 0.068 0.063 0.058 0.056 0.053 0.050 0.048 0.044 0.041 0.039 0.037 0.035 0.034 0.031

Je grer die Bandbreite (N) in Oktaven, desto niedriger ist der Gtefaktor (Q). Bandbreite und Gtefaktor verhalten sich also umgekehrt proportional zueinander. Z. B. ist eine Bandbreite von N=3.0 bereits als "sehr breitbandig" zu betrachten, erscheint umgerechnet in den Gtefaktor (Q) aber als relativ geringer Wert von Q=0.40. Ein Gtefaktor (Q) von z. B. 17.310 ist ein hoher Wert und steht somit fr eine "schmale" Bandbreite in Oktaven (N) von N=1/12 (bzw. 0.083).

75

Audio-Mastering-Guide

7. Raumakustik mehr Platz fr Musik!


7.1 Schall
Der berhmte Wissenschaftler Popper war der Meinung, man sollte bestehende Theorien nicht versuchen zu belegen, sondern immer wieder berprfen und dabei versuchen, sie zu widerlegen. Solange sich eine Theorie nicht widerlegen lsst, kann man sie als vorlufig gltig betrachten, wobei die Betonung auf "vorlufig" liegt. Deswegen sind auch theoretische Erklrungen im Bereich der Tontechnik und Akustik durchaus nicht als absolute Wahrheiten zu betrachten, denn man wei nie, ob neuere Erkenntnisse sie widerlegen knnten oder Korrekturen notwendig machen. So hat man also immer nur eine Annherung an die Wahrheit. Auch wenn sich eine Theorie der Praxis bewhrt und in sich schlssig ist, drfe man sie, laut Popper, nicht als absolute Wahrheit betrachten. Dennoch werden Theorien und die Phrase wie z. B. "wissenschaftlich bewiesen" gern mit absoluter Wahrheit verwechselt. Wissenschaftliche Beweise beweisen aber immer nur vorlufige Gltigkeit. Es gilt deswegen sogar als unwissenschaftlich bei wissenschaftlichen Untersuchungsergebnissen Aussagen wie "niemals" und "immer" zu verwenden, da diese einen absoluten Anspruch erheben. Stattdessen sagt man "fast nie" und "fast immer". Gem der physikalischen Theorien breitet sich Schall aus, durch eine schnell schwingende Masse (z. B. Stimmbnder, Drumfell etc.) werden Luftmolekle angeregt, feinste Verdichtungen zu bilden. Wie in einer Art Kettenreaktion regen die Luftmolekle weitere Luftmolekle an. So breitet sich der Schall in Form feinster nderungen des Luftdrucks schlielich wellenartig im Raum ausbreiten. Diese "Wellen" treffen dann auf das Trommelfell und versetzten es in Schwingungen. Die auf dem Trommelfell entstehende Schwingung wird letztendlich in elektrische Signale umgewandelt und erst im Hrzentrum des Gehirns ausgewertet. Das Ohr selber hrt also nichts, sondern dient nur als Schallumwandler. Das Hrzentrum des Gehirns ist jedoch akustisch gesehen mehr oder weniger isoliert: Es sitzt unter der (hoffentlich intakten!) Schdeldicke. So bleibt im Gehirn vom Schall nichts mehr brig. Das Hrzentrum stellt selber natrlich nur Gehirnmasse dar. Das Hrzentrum hrt also auch nichts, sondern dient lediglich als Signalumwandler, der die elektrischen Signale auswertet. Daher ist es logisch, dass es kein Organ bzw. das Gehirn ist, das den Schall hrt, sondern das menschliche Bewusstsein. Die jeweiligen Organe bzw. das Gehirn vermitteln lediglich die dafr ntigen Informationen an das wahrnehmende Bewusstsein. Der Sitz des Bewusstseins wird zwar im Gehirn vermutet, wurde dort bis heute jedoch nicht lokalisiert. Denn das Bewusstsein als Ding an sich kann man nicht mit den derzeitigen Methoden messen und dadurch auch nicht wissenschaftlich belegen. Das einzige was man messen und sichtbar machen kann, sind die Aktivitten in den Hirnregionen. Diese Aktivitten sind aber an sich nur elektrische Signale und kein wahrnehmendes Bewusstsein als Ding an sich. Obwohl viele Leute den Theorien anhngen, die das menschliche Bewusstsein lediglich als Nebenprodukt der Aktivitten des Gehirns begreifen und deswegen das Gehirn als Erzeuger des Bewusstseins ansehen, gibt es auch viele Erkenntnisse, die auf logisch nachvollziehbare Weise deutlich dagegen sprechen.

76

7. Raumakustik mehr Platz fr Musik!

Wie jeder selber berprfen kann, hrt man seine innere Gedankenstimme und kann auch in nchtlichen Trumen auditive Informationen wahrnehmen, ohne dass fr diese Wahrnehmungen eine materielle Schallquelle oder ein Ohr bentigt wird. Das zeigt, dass der Mensch eben auch in einem rein geistigen Bereich (unabhngig von der Auenwelt) etwas hren kann. Inwiefern man dieses Phnomen in Abhngigkeit zum Gehirn sieht, ist im Prinzip eine reine Glaubensfrage, da man weder wissenschaftlich beweisen noch wissenschaftlich widerlegen kann, dass das Gehirn hierarchisch ber dem wahrnehmenden Bewusstsein steht. Sind viele Schallquellen anwesend (z. B. Symphonieorchester), msste es in der Luft ein Wirrwarr an wild schwingenden Luftmoleklen entstehen. Wie dem Gehr in diesem Chaos eine exakte akustische Informationsbertragung und Ortung mglich ist, konnte durch bisherige Erklrungsmodelle noch nicht hinreichend genug geklrt werden. Dennoch verwechseln viele Leute Theorie mit Wirklichkeit gleich. Es ist jedoch eine Tatsache, dass man viele theoretische Dinge nicht selber mit eigenen Sinnen berprfen kann und sich auf eine bloe Vorstellung verlsst. Hat z. B. jemand mal eine "Schallwelle" bzw. die "Luftdruck" oder "Luftmolekle" als Ding an sich einmal mit eigenen Sinnen wahrgenommen? Das Sichtbarmachen durch extra dafr konstruierte Messgerte fhrt auch nicht dazu, dass man eine Schallwelle im realen Raum als Ding an sich pltzlich vor sich sehen kann. So zeigt das Bild einer sog. akustischen Kamera nur eine durch Messungen und Berechnung abgeleitete Abbildung des Schalls auf einem Bildschirm. Diese Abbildung ist aber nicht die Schallwelle als Ding an sich. Genauso wie ein Foto von einem Tisch ja auch nicht den Tisch als Ding an sich darstellt. Ebenso zeigt das angebliche Sichtbarmachen von Schallwellen durch Experimente mit Wasser nicht die Schallwelle als Ding an sich, sondern Wellen im Wasser und somit sieht man dabei genau genommen nur Wasserwellen. Wenn man sich also Schallwellen vorstellt, ist dies ein theoretisches Konstrukt, um die durch Schall auftretenden Phnomene zu erklren. Schallwellen hrt man auch nicht, sondern man hrt doch eindeutig Tne, Gerusche, Klnge, Lrm. Luftdrucknderungen und somit den Schalldruckpegel als Ding an sich kann man ebenso wenig hren, sondern man hrt die Lautheit, die ein Ton, Gerusch, Klang usw. besitzt. Das sollte man bei aller theoretischen Korrektheit, die dazu fhrt sich zu Erklrungszwecken Dinge vorzustellen, die man nunmal nicht de facto wirklich selber berprfen kann, im Hinterkopf behalten. Das soll natrlich keineswegs bedeuten, dass die durch Tne, Gerusche, Lrm usw. ausgelsten akustischen Phnome deshalb nicht vorhanden wren. Es soll damit also keineswegs angezweifelt werden, dass es z. B. in einem leeren, akustisch unbehandelten Raum zu Hall kommt, denn das kann man selber schlielich mit eigenen Sinnen und damit streng empirisch selber erfahren! Jedoch sollten die bildlichen Vorstellungen, die man sich ber das mit eigenen Sinnen Wahrgenommene darber hinaus noch macht, auch "als solche" erkannt werden. Das mag spitzfindig erscheinen, doch viel zu selten ist man sich dessen bewusst, das es ein Unterschied ist, was man konkret mit eigenen Sinnen im jetzigen Augenblick wahrnimmt und was man sich ber das eigentlich selbst Wahrgenommene hinaus noch gem verschiedenster Theorien "hinzudenkt".

77

Audio-Mastering-Guide

Schall kann sich in flssigen Medien wie z. B. Wasser ausbreiten und ebenso durch feste Krper hindurchgelangen, sogar durch Mauern, was so manchen durch Beschwerden wegen Ruhestrung bereits aufgefallen sein mag... Da man aber unter Wasser normalerweise keine Musik hrt und sich vor dem Musikhren auch nicht selber in Beton eingiet, interessiert hier natrlich nur die Schallausbreitung in der Luft (Luftschall)... Man geht davon aus, dass sich Schall mit 343 m/s durch die Luft bewegt. Das gilt aber nur bei einer Temperatur von 20 Celsius. Die Schallgeschwindigkeit ist also temperaturabhngig. Mit jeder Temperaturnderung um 1 Celsius ndert sie sich um 60 cm/s. Eine gute Raumakustik ist fr gute Aufnahmeergebnisse und eine gute Durchhrbarkeit von Musik notwendig. Um die Raumakustik zu optimieren, sollte man daher auch die theoretischen Grundstze der Schallausbreitung kennen: Je nach Oberflchenstruktur kommt es zur Schallreflexion, -Streuung, -Bndelung, -Beugung oder -Absorption.

Direktschall Direkt von der Quelle


Schallanteile, die ohne Umwege direkt von der Schallquelle stammen, nennt man sinnigerweise Direktschall.

Reflexionsschall
Kann der Schall bei einer gegebenen Frequenz von einer Oberflche reflektieren, bezeichnet man diese als schallhart. Das Reflexionsvermgen ist also neben der Beschaffenheit der Oberflche auch abhngig von der Frequenz. Den reflektierenden Schall nennt man Reflexionsschall. Das ist also der Schall, der von Reflexionen und nicht direkt von der Schallquelle stammt. In hheren Frequenzbereichen reflektiert der Schall gem des Schalleinfallswinkels. Auerdem gilt: Bei konvexen (=nach auen gewlbten) Oberflchen, kommt es zur Schallstreuung. Bei konkaven Oberflchen Schallbndelung.
(=nach innen gewlbt; vom lat. "cavus"=Hhle)

kommt es hingegen zur

Schallabsorption Den Schall schlucken


Wenn Schall beim Kontakt oder Durchqueren eines Krpers Energie verliert, wird er "absorbiert" (lat. "absorbeo"=aufsaugen, fr sich in Anspruch nehmen). Ob und inwieweit es zur Absorption kommt, hngt von der Flche, Dicke, Oberflchenstruktur, Dichte und Steifigkeit eines Krpers ab. Kann ein Krper bei einer gegebenen Frequenz Schall absorbieren, bezeichnet man diesen als schallweich.

78

Schallhindernisse

Die Hhe der Absorption ist also abhngig von der jeweiligen Frequenz und wird durch den Schallabsorptionsgrad () angegeben. Der Wert =1 entspricht 100 % Absorption. Werte von z. B. =0.1; =0.2 entsprechen dann sinngem 10 %; 20 % Absorption usw.

Schallhindernisse
Krper, die grer sind als die jeweilige Schallwellenlnge (und dabei genug Dichte und Steifigkeit besitzen) sind schallundurchlssig.

Schallbeugung (Diffraktion) und Schallbrechung (Refraktion)


Ist ein Krper kleiner dimensioniert als die jeweilige Schallwellenlnge, stellt er auch bei hoher Dichte und Steifigkeit kein Hindernis fr den Schall dar. In dem Fall kommt es deswegen zur Schallbeugung (engl. "sound diffraction"). Ist ein Krper zwar grer als die jeweilige Schallwellenlnge, aber aufgrund der Materialbeschaffenheit nicht dazu in der Lage, den Schall effektiv zu absorbieren oder zu reflektieren, ist er fr den Schall kein Hindernis und wird durchdrungen. Das bezeichnet man als Schallbrechung (engl. "sound refraction"). Der Schall "bricht" also durch das Hindernis hindurch (z. B. bei einer sehr dnnen Wand).

Hall Early Reflections Pre-Delay Echo


Treten Schallreflexionen deutlich und gehuft genug auf, knnen sie als Hall (engl.="reverb") wahrnehmbar werden. Besonders wichtig sind dabei die nach dem Direktschall auftretenden sog. Early Reflections (dt.="Erste Reflexionen"). Sie vermitteln einen Eindruck ber die Gre der Rumlichkeit und damit der Halligkeit26. In manchen Fllen knnen sie sogar lauter als der Direktschall werden und dadurch auch dessen Klangfarbe etwas verndern. Besteht ein zeitlicher Abstand zwischen Direktschall und Early Reflections bezeichnet man diesen als Pre-Delay. Die Lnge des Pre-Delays beeinflusst dabei den rumlichen Klangeindruck sehr stark. Nach den Early Reflections kommt es zu weiteren Reflexionen und schlielich zum Nachhall27, mit dem das Signal schlielich ausklingt.

Raumeigenmoden
Grade in kleinen Rumen berlagern sich bei manchen tiefen Frequenzen die Reflexionen mit dem Direktschall. Dadurch entsteht ein nachhaltiger, stehender Ton, den man als Dauerton, stehende Welle, "stehendes Wellenfeld", Raumresonanz oder Raumeigenmode (Moden) bezeichnet. Raummoden entstehen, wenn zwei Raumseiten Vielfache der Hlfte der jeweiligen Schallwellenlnge voneinander entfernt stehen. Sie werden durch akustisch suboptimale Lngenverhltnisse der Raumseiten (wie z. B. quadratische Raummae) begnstigt.

26Der

Ausdruck Halligkeit beschreibt, dass der Klangeindruck "hallig" wirkt, der Raumklanganteil also hrbar ist, es klingt nicht "trocken". 27Der Nachhallzeit ist die Zeitdauer nach dem Verstummen des Signals, innerhalb der sich der Schalldruckpegel, um 60 dB reduziert (Dies entspricht einer Abnahme des ursprnglichen Schalldruckpegels um 1/1000).

79

Audio-Mastering-Guide

Raummoden fhren zu Frequenzauslschungen und anhebungen, wodurch ein "kammartiger" Frequenzgang entsteht. Dieses Phnomen bezeichnet man deswegen als Kammfiltereffekt. Durch den Kammfiltereffekt entsteht ein undifferenzierter, drhnender, verwaschener Klangeindruck. Mit steigender Raumgre verteilen sich die Raummoden im Frequenzspektrum so, dass sie weniger auffllig werden, die sog. Eigenfrequenzdichte ist dort grer. In kleineren Rumen sind Raummoden also generell problematischer. Als ideale Seitenverhltnisse fr die Raumseiten gelten z. B.: 1.00: 1.00: 1.00: 1.00: 1.00: 1.00: 1.14: 1.28: 1.60: 1.40: 1.30: 1.50: 1.39 1.54 2.33 1.90 1.90 2.50

Oberhalb von 300 Hz sind Raummoden so dicht verteilt (bzw. schon durch relativ einfache raumakustische Manahmen genug bedmpfbar), dass sie (besonders bei greren Rumen) unproblematisch sind. Neben weiteren Positionen liegen Raummoden auch stets in den Raumecken. Um die Frequenz und Position der wichtigsten Raummoden im Raum zu berechnen, bentigt man nur Raummae (in Breite, Lnge, Hhe). Dann kann man sie mit Hilfe eines der zahlreichen Berechnungsprogramme im Internet ausrechnen.

Flatterechos
Flatterechos sind im Prinzip Raummoden, die bei hheren Frequenzen und somit bei sehr geringen Wandabstnden (wie z. B. in schallharten Zimmerecken) entstehen. Klatscht man gegenber einer solchen Zimmerecke mit den Hnden, hrt man deutlich das Flatterecho.

7.2 Schalldmpfung
Durch Schalldmpfung soll die Schallausbreitung so beeinflusst werden, dass die Raumakustik optimiert wird. Merkmale einer guten Raumakustik sind, u. a.: eine geeignete, mglichst gleichmige Nachhallzeit im Raum. das effektive Bedmpfen oder Neutralisieren von direkten Reflexionen, Raummoden und Flatterechos ber einen ausreichend weiten Frequenzbereich. Die Schalldmpfung ist etwas anderes als die Schall(ab)dmmung. Schall(ab)dmmung spielt eher bei der der Bauakustik eine Rolle, bei der es darum geht, einen Lrmschutz nach auen herzustellen bzw. einen Raum akustisch zu isolieren.

80

Porse Absorber

Porse Absorber Porsitt


Prinzipiell ist jedes offenporige porse Material (wie z. B. Flachs, Mineralwolle usw.) dazu in der Lage, Schall zu absorbieren und stellt deswegen einen porsen Absorber dar. Mit zunehmender Dichte und Schichtdicke eines porsen Absorbers vergrert sich der Absorptionsgrad hin zu den relativ tieferen Frequenzen, sodass eine breitbandigere Absorption mglich wird. Um einen Absorptionsgrad von = 0.8 zu erreichen, gilt: d=40/ mit: d

Dmmstoffdicke (in m) zu dmmende Frequenz (in Hz)

Um = 0.8 bei 100 Hz zu erreichen, wird also bereits eine 0.4 m (= 40 cm) dicke Dmmstoffschicht notwendig. Der Absorptionsgrad erreicht (theoretisch) =1, wenn die Schichtdicke der Schallwellenlnge betrgt.

Strmungswiderstand (R)
Ist der Strmungswiderstand des porsen Absorbers zu niedrig, besteht die Gefahr, dass der Schall ihn durchdringt. Dann kommt es Reflexionen von der Raumseite hinter dem Absorber, so als wre der Absorber gar nicht da. Ist der Strmungswiderstand zu hoch, ist die Absorber-Oberflche schallhart und reflektiert den Schall, anstatt ihn zu absorbieren. Der sog. lngenspezifische Strmungswiderstand (angegeben in kPa s/m2) ist unabhngig von der Schichtdecke und wird herstellerseitig in einem gewissen Bereich angegeben, weil er aufgrund von Fertigungsschwankungen variieren kann. Bei porsem Dmm-Material ist der lngenspezifische Strmungswiderstand z. B. bei verschiedenen Steinwollematten-Fabrikaten sehr unterschiedlich. Er kann je nach Fabrikat von 5 bis ca. 70 kPa s/m reichen. Der Vorteil eines hohen lngenspezifischen Strmungswiderstand von z. B. > 9 kPa s/m2 liegt darin, dass diese Absorber auch bei geringer Dmmstoffdicke (d) ein wenig wirksamer absorbieren, als Dmm-Material mit einem sehr geringen Strmungswiderstand (wie z. B. Thermohanf). Der Nachteil ist jedoch, dass sie bei einer sehr hohen Dmmstoffdicke (d) fr den Schall undurchdringlich werden. Dmm-Material mit niedrigem lngenspezifischen Strmungswiderstand (wie z. B. Thermohanf) absorbiert dafr erst ab greren Schichtdicken (von z. B. 16 cm) relativ breitbandig und effektiv. Basotect hat mit 820 kPa s/m brigens einen hnlichen lngenspezifischen Strmungswiderstand wie viele Mineralwolle-Fabrikate, ermglicht aber eine im Frequenzspektrum linearer verlaufende Absorption.

81

Audio-Mastering-Guide

Der spezifische Strmungswiderstand (Rs) ist abhngig vom Druckunterschied beidseitig des Dmm-Materials gegenber dem atmosphrischen Druck (pa). Dadurch hngt er von allen Faktoren ab, die beeinflussen, wie der Schall den jeweiligen porsen Absorber durchstrmen kann: Dichte, Porsitt, lngenspezifischen Strmungswiderstand, Schichtdicke (einschlielich des etwaigen Wandabstands). Der ideale Bereich fr den spezifischen Strmungsabstand Rs liegt bei: 1000 Pa s/m Rs 3000 Pa s/m Dies entspricht: 13 kPa s/m Hohen Frequenzen werden strker absorbiert, wenn der spezifische Strmungsabstand, gem obiger Formel, im unteren Grenzbereich 1000 Pa s/m angesiedelt ist. Tiefe Frequenzen werden strker absorbiert, wenn der spezifische Strmungsabstand im oberen Grenzbereich mit 3000 Pa s/m verluft. Bei einer hohen Dmmstoffdicke (d) sollte der lngenspezifische Strmungswiderstand eher niedriger sein, weil die dicke Dmmstoffschicht sonst fr den Schall undurchdringbar wird.

Lochplatten-Absorber (perforierte und mikroperforierte Absorber)


Bringt man perforierte (=gelochte) Platten vor einer Schicht Dmm-Material an, erhlt man einen Lochplattenabsorber. Bei mikroperforierten Platten (z. B. mit 0.5 mm Lochdurchmesser bei 46 mm Plattendicke) kann die Dmmstoffschicht weggelassen werden kann, ohne dass es dadurch zu geringeren Absorptionsgraden kommt. Da Lochplattenabsorber also oft Dmmstoff beinhalten, kann man sie aus porsen Absorbern herstellen. Dazu wird die Lochplatte auf die Kassettierung des porsen Absorbers angebracht (also auf den Rahmen, durch den das Dmm-Material fixiert wird). Je nach: Lochdurchmesser Lochabstand Lochanzahl auf der Platte Schichtdicke des Dmm-Materials und Wandabstand kann der Schall mehr oder weniger stark und breitbandig absorbiert werden, wodurch eine Kombination verschiedener Lochabsorbern sinnvoll ist, um gezielt bestimmte Frequenzbereiche zu beeinflussen. Ist die Platte dnn und biegsam genug, um schwingungsfhig zu sein, stellt ein Lochplattenabsorber gleichzeitig einen Lochplattenresonator dar.

82

(Mikroperforierte) Folien-Absorber

(Mikroperforierte) Folien-Absorber
(Nicht zu verwechseln mit Folienschwingern!)

Folienabsorber sind verwandt mit den mikroperforierten Lochplattenabsorbern, nur dass hier statt einer Platte eine Schwerfolie genommen wird.

Schlitzplatten-Absorber
Sind ebenso verwandt mit Lochplattenabsorbern, nur dass die Platte Schlitze anstelle einer Perforation enthlt. Ist die Platte dnn und biegsam genug, um schwingungsfhig zu sein, stellt solch eine Konstruktion gleichzeitig einen Schlitzplattenresonator dar.

Resonatoren
Resonatoren gelten als gegenber porsen Absorbern weitaus effizientere und "wohnlichere" Mglichkeit, gute Absorptionsgrade unter 100 Hz zu erreichen:

Plattenresonatoren (Plattenschwinger)
Hierbei wird eine auf einer Kassettierung angebrachte biegesteife Platte durch den Schall zum Mitschwingen (resonieren) angeregt, wodurch dem Schall bei (und im Bereich) der Resonanzfrequenz Energie entzogen wird. Die Platte befindet sich dabei vor einem geschlossenen Luftvolumen, das quasi als "Feder" fr die Platte dient. Die Platte stellt somit die "Masse" dar, die auf der Luft federt (sog. Feder-Masse-Prinzip). Im Luftvolumen sorgt Dmmstoff fr hhere Absorptionsgrade, der mit genug Abstand zur Platte angebracht werden muss, damit sie frei schwingen kann. Je nach... Plattengre (in m2) der Dicke des Luft-Polsters und somit der Tiefe der Kassettierung und der Masse der Platte (in kg/m2)... ...kann ihr Resonanzverhalten auf eine bestimmte Resonanzfrequenz abgestimmt werden. Ebenso spielen die Reibungsverluste, die sich an den Bereichen ergeben, wo die Platte am Rahmen befestigt ist, eine groe Rolle fr die Wirksamkeit des Absorbers. Der Rahmen des Plattenresonator erhlt entweder eine eigene Rckwand oder wird direkt an eine Wand angebracht. In beiden Fllen entsteht eine geschlossene Kassettierung. Zu der Kategorie der Plattenresonatoren zhlen auch die Folienschwinger bzw. Folienresonatoren, bei denen anstelle einer Platte eine sehr dnne Schwerfolie (z. B. 4 kg/m2 bei nur 1.6 mm Foliendicke) luftdicht auf einem Rahmen schwingt und dem Schall somit Energie entzieht.

Helmholtzresonatoren
Zu dieser Kategorie zhlen auch Bassfallen Helmholtzresonatoren.
(engl. "basstrap")

in Form von quaderfrmig aufgebauten

83

Audio-Mastering-Guide

Ein Helmholtzresonator ist ein geschlossenes Gehuse, das entweder ein nach innen (oder auen) gerichtetes Rohr besitzt oder das durch ein Loch im Gehuse aufgrund der Wanddicke des Resonatorgehuses eine rohrhnliche ffnung besitzt (Resonatorhals). Ein Helmholtzresonator kann auch einen quadratisch geformten Resonatorhals (bzw. eine quadratische ffnung) besitzen. Im Helmholtzresonator entsteht eine Wechselwirkung zwischen dem Luftvolumen im Rohr (bzw. in der ffnung), das als Masse wirkt und dem Luftvolumen im Resonatorgehuse, das als akustische Feder dient. Die Resonanzfrequenz ergibt sich aus: dem Luftvolumen im Gehuse (in m3) der Lnge (in m) und der Breite (Querschnitt) der Resonatorffnung. Durch Dmmstoff im Luftvolumen wird der Helmholtzresonator noch wirksamer. Der durch den Resonatorhals zurckreflektierte Schall wird an der Halsffnung diffusiv ausgegeben. Die Wirkung von Resonatoren nimmt +/- eine Oktave um die Resonanzfrequenz um ca. =0.5 ab. Platten- und Helmholtzresonatoren lassen sich also nutzen, um innerhalb eines eng begrenzten Frequenzbereichs einen hohen Absorptionsgrad zu erreichen, wodurch z. B. gezielt Raummoden beseitigt werden knnen. Die Konstruktion lsst sich mittels Formeln theoretisch genau berechnen, jedoch erzielen hierbei die Plattenresonatoren in der Praxis oft etwas andere Werte als theoretisch vorhergesehen.

7.3 Versatzkonstruktionen
Stehen Raumseiten nicht direkt parallel, sondern versetzt, zueinander, reduziert das direkte Reflexionen. Der Reflexionsschall kann durch Versatzkonstruktionen in eine andere Richtung umgelenkt werden. Das jedoch nur in dem Frequenzbereich, in dem der Schall sich gem den Gesetzen der Optik ausbreitet (Einfallswinkel=Ausfallswinkel). Ein Versatz verhindert also keine tieffrequenten Raummoden. Damit eine Versatzkonstruktion berhaupt eine Wirkung zeigen kann, muss der Versatz mindestens 5 betragen. Je tiefer die zu beeinflussende Frequenz ist, desto hher muss der Versatz sein. Bei tiefen Frequenzen riskiert man dadurch eine eventuell nicht mehr tolerable Verkleinerung des Raumes.

7.4 Diffuser Raumklang (Diffusitt)


Ein homogener Raumklang zeigt sich auch in einem sog. diffusen Klangbild. Dafr sind mglichst zufllig verteilte Schallreflexionen und das Ausbleiben harter Reflexionen charakteristisch. Um Schalldiffusitt (engl.="sound diffusion") zu erzeugen, sollte man Diffusoren nutzen. Diffusoren besitzen eine zerklftete Oberflchenstruktur. Je tiefer und grer die Zerklftungen des Diffusors sind, desto eher werden auch tiefere Frequenzen gestreut .

84

LEDE tot und lebendig!

Bei professionellen Diffusor-Elementen unterscheidet man zwischen ein- und zweidimensionalen Maximalfolgen- und Schroeder-Diffusoren28 und den Primitive-Root-Diffusoren. Ein halb-voll gestelltes Bcherregal stellt brigens auch einen Diffusor dar. Eierkarton besitzt zwar auch eine zerklftete Oberflchenstruktur, erfllt aber nicht die Voraussetzungen, um eine Verbesserung der Raumakustik zu erzielen. Die kleinen Zerklftungen bei Eierkartons wirken nur auf sehr hohe (raumakustisch sowieso unproblematische) Frequenzen absorbierend und diffus. Ein komplett mit Eierkartons ausgekleideter Raum verliert an Brillanz und kann schnell recht muffig klingen. Dennoch trifft man leider immer wieder in Proberumen und amateurmigen Hobby-Studios auf Wandseiten, die mit Eierkartons verkleidet wurden.)

Primitive-Root-Diffusor
Foto: Song Soon Onn, 2012

Quadratic-Residue-Diffusor
Foto: Michael Horn, 2011

7.5 Akustik des Regieraums LEDE tot und lebendig!


Der Regierraum bzw. Abhrraum ist ein akustisch optimierter Raum, der zum analytischen Anhren und Bearbeiten von Musikproduktionen dient. Er hat also nichts mit "Abhren" im Sinne von Spionage zu tun... Kaum ein Musikkonsument hrt Musik in schalloptimierten Rumen. Deshalb ist es wichtig, beurteilen zu knnen, wie eine Produktion unter gewhnlichen raumakustischen Bedingungen (der sog. Wohnzimmerakustik) hchstwahrscheinlich klingen wird. Daher sollte der Regierraum nicht komplett schalltot sein, was ohnehin sehr unangenehm klingen wrde. Nur die Raumseite hinter, seitlich und oberhalb der Lautsprecher bis hin zur Abhrposition sollte mglichst schalltot sein. Sie stellt, akustisch gesehen, also das "tote" Ende des Raumes dar (engl.="dead end"). Dort drfen in einem breitbandigen Frequenzbereich also keine Reflexionen, stehenden Wellen oder Flatterechos entstehen. Die Raumseite hinter der Abhrposition soll hingegen einen diffusen Raumklang besitzen, der frhe Reflexionen (early reflections) erst nach ca. 2025 ms zulsst29. Dadurch werden die im Aufnahmesignal enthaltenen ersten Reflexionen nicht durch die ersten Reflexionen im Regierraum berdeckt. Diese Raumseite stellt also den "Live"-Bereich des Raumes dar (engl.="live end").
28

Zu den Schroeder-Diffusoren zhlen auch die sog. Quadratic-Residue-Diffusoren. initial time delay gap, dt.="Initiale Zeitverzgerungslcke"; vom engl. "initial"=Anfangs, anfnglich, Erst-, initial; "time delay"=Zeitverzgerung; "gap"=Lcke.
29sog.:

85

Audio-Mastering-Guide

Dieses Konzept bezeichnet man als Live End-Dead End (LEDE). Es hat sich weltweit in vielen Regierrumen bewhrt. Beim Regieraum geht es also um eine Mischung aus optimierter Raumakustik und jenes diffusen Raumklangs, wie man ihn oft auch in gewhnlichen Rumen vorfindet. Audiophile Hrer, die eine raumakustische Optimierung ihres Hi-Fi-Raums vornehmen, streben im Prinzip das gleiche an. Keine Raumakustik kann jedoch stellvertretend fr alle mglichen Rumlichkeiten stehen, in denen die Produktion spter einmal angehrt werden knnte. Ebenso wenig kann die Raumakustik im Abhr- bzw. Regierraum jemals so neutral sein, wie es z. B. in einem akustisch freien Feld (also drauen) mglich wre. Das LEDE-Konzept stellt natrlich nicht die einzige Mglichkeit fr die akustische Optimierung eines Regieraums da, ist aber das wohl am besten dokumentierte. Vor der Einfhrung von LEDE hat man Abhrrume brigens vollstndig schalltot konstruiert. Durch eine unbehandelte Raumakustik wird grade in kleinen Rumen und dabei besonders im Bassbereich (und im Bereich der kritischen Raummoden bis zu 300 Hz) das Klangbild stark verflscht: Je nach Standort der Lautsprecher und Abhrposition kann die Lautstrke bei den kritischen Raummoden z. B. auf +6 dB ansteigen oder auf -20 dB absinken. Bei einem sehr hohen Schalldruckpegel im Raum sind sogar erheblich hhere ortsspezifische Pegelunterschiede von z. B. 68 dB mglich. Das macht es nahezu unmglich, den Bassbereich und die unteren Mitten in solchen Rumen richtig einzuschtzen. Was zuvor ber Kopfhrer (oder in einem anderen Raum) noch stimmig klang, klingt dann zu basslastig oder eben zu schwach im Bass. Regelt man dann entsprechend nach, klingt der Mix im eigenen Raum (an der jeweiligen Abhrposition) zwar ausgewogen, wird in einer anderen Abhrposition und in anderen Rumen aber wieder unausgewogen klingen. Da sich in den Raumecken die Raummoden bis 300 Hz am strksten ausbilden, ist es sehr wichtig, sie mindestens erst mal dort zu beseitigen. Die baulich einfachste (wenn auch nicht effektivste und wohnlichste) Lsung dafr ist ein porser Kantenabsorber bzw. Bass-Chunk. Entlang der gesamten Raumecken (also bis hoch zur Decke) wird dafr einfach alles mit einer mglichst dicken Schicht Dmm-Material verkleidet. Hier haben sich in der Praxis bereits Schichtdicken von 40 cm bei Steinwollmatten bewhrt. Wie in diesem Buch bereits erwhnt wurde, wird theoretisch ein Absorptionsgrad von =1 erreicht, wenn die Schichtdicke (d) eines porsen Absorbers der Schallwellenlnge (in m) der zu absorbierenden Frequenz betrgt. Alle davon hher liegenden Frequenzen werden dabei ebenso absorbiert. Geht man also nach dieser Annahme, wren um =1 bei 100 Hz zu erreichen, bereits 85.75 cm Schichtdicke erforderlich, bei 70 Hz 122.5 cm bei 50 Hz sogar 171.5 cm! Es ist jedoch nicht so, dass Absorber nicht mehr ausreichend genug wirken knnen, wenn ihre Schichtdicke statt 1/4 z. B. nur 1/8 oder 1/16 der jeweiligen Schallwellenlnge betrgt. Denn sonst wre z. B. gar nicht mglich, dass bei einer 16 cm-Dmmschicht aus Thermohanf der messtechnisch ermittelte (praktische) Absorptionsgrad bei 125 Hz noch ganze =0.94 betrgt. Geht man nmlich nach der obigen Faustregel, wre fr

=1 bei 125 Hz ja schon eine Schichtdicke von 61.85 cm

86

LEDE tot und lebendig!

notwendig (also der Schallwellenlnge von 125 Hz). 16 cm sind also nicht einmal ein Viertel der theoretisch optimalen Schichtdicke und dennoch wird =0.94 erreicht. Der Thermohanf wurde in diesem Beispiel sogar ohne Luftraum direkt auf die Raumseite angebracht, was nahelegt, dass mit etwas Luftraum zwischen Dmmschicht und Raumseite die Absorption noch ein wenig strker ausgefallen wre. Das gute Messergebnis liegt daran, dass eben nicht nur die bloe Schichtdicke (inkl. eventuellem Wandabstand), sondern eben auch die Materialbeschaffenheit (Porositt, Dichte, lngenspezifischer und spezifischer Strmungswiderstand) fr die Absorption eine groe Rolle spielen. Ansonsten wre auch kaum zu erklren, wieso sich bereits dnne Schichten mancher Steinwollmatten--Fabrikate ohne Wandabstand noch berhaupt minimal auf 70 Hz auswirken knnen. Selbst manche Sofas gelten als sehr gute Tieftonschlucker. Sie sind aus akustischer Sicht aber nichts anderes als extrem dicke und groflchige porse Absorber. Dennoch erfordern Absorber fr einen hohen Absorptionsgrad (z. B. bis hinab zu 50 Hz) natrlich meist enorm groe Schichtdecken, was sie fr kleine Rume unpraktikabel macht. Sie wirken im Sub-Bass-Bereich auch weniger effizient als andere Verfahren zur Absorption des Bassbereichs. Dies liegt auch daran, dass jeder porse Absorber eine sog. untere Grenzfrequenz (u) besitzt, unter der es fr den Schall mit weiter sinkender Frequenz zunehmend leichter wird, ihn ungehindert zu durchdringen. Dadurch werden also unterhalb der Grenzfrequenz mit sinkender Frequenz tendenziell immer grere Schichtdicken notwendig. Formel zur Berechnung der unteren Grenzfrequenz porser Absorber: u=25 c/d c d Z. B.: u = 25 343/40 u = 25 8,575 u = ca. 214 Hz Dass es unterhalb der Grenzfrequenz jedoch zu keiner "nennenswerten" Absorption mehr kme, wre allerdings eine voreilige Schlussfolgerung, denn das sagt diese Formel (die ja eigentlich nur die Schichtdicke bercksichtigt) nicht aus. Statt porser Absorber nutzt man hufig Bassfallen ([rhrenfrmige] Helmholtzresonatoren) oder andere platzsparendere Verfahren, wie z. B. Folienschwinger, die bei 4 kg/m2 auf 1.6 mm Foliendicke im Bassbereich sehr effektiv sind. Auch kleinere Absorptionsgrade von Schallgeschwindigkeit (in m/s) Schichtdicke (in cm)

=0.2 im Bereich unter 100 Hz sind brigens immer noch

wesentlich besser, als wenn es bei =0 bleibt.

87

Audio-Mastering-Guide

Beim Einsatz porser Absorber ist eine berdmpfung der Hhen unbedingt zu vermeiden. Doch genau das passiert, wenn zu viele porse Absorber in einem Raum eingesetzt werden. Dann betrgt die Nachhallzeit in den hohen Frequenzen ab 1 kHz eventuell sogar praktisch 0 ms, aber der Reflexionsschall durch die nicht absorbierten tieferen Frequenzen fllt dadurch umso strender auf. Bei 300 Hz also z B. =0.5 zu erreichen, darf nicht auf Kosten davon gehen, dass im Frequenzbereich ab 1 Hz =1 betrgt. Deswegen ist es manchmal Absorptionsgrad ab 1 Hz 0.075 Mil als idealer Wert jedoch zu stark und bei 1.0 sinnvoll, porse Absorber mit Folie zu bespannen, denn dadurch wird der gesenkt. Bei Messungen mit PE-Folie stellte sich eine Foliendicke von heraus. Dickere PE-Folie mit 6.0 Mil reduzierte die Absorption ab 500 Hz Mil wurde die Absorption ab 2.5 kHz zu gering.

Sofern man Steinwolle als porsen Absorber verwendet, kann man durch das Auskleiden mit Folie sich auch einen Rieselschutz sparen, der ansonsten (zumindest bei Anbringen der Steinwolle an der Decke) ntig wre. Die Raumseiten hinter und seitlich der Lautsprecher sollte mglichst groflchig durch mglichst dicken Absorber-Elementen behandelt werden. Aber auch hier sind fr den Bassbereich unter 100 Hz Platz sparendere Verfahren wie z. B. Loch-, Schlitz-, Platten-, sowie Folien-Schwinger), Bassfallen, (mikro)perforierte Absorber besser geeignet. Natrlich knnen auch porse Absorber mit mehreren Meter Schichtdicke selbst im Subbass-Bereich eine gute Wirkung erzielen, aber das ist eben alles andere als Platz sparend. Die Wandseite gegenber der Lautsprecherfront darf, sofern sie mindestens 3.50 m entfernt steht, berwiegend schallhart bleiben. Sie sollte dann aber mit breitbandig wirkenden Diffusorelementen behandelt werden, damit mglichst keine harten Reflexionen entstehen. Bei geringerer Entfernung der Wandseite muss zumindest der Bereich, zu dem die Lautsprecher direkt hinstrahlen, breitbandig absorbieren knnen. Als Ergnzung (und weniger als Ersatz!) zu professionellen ein- und zweidimensionalen Diffusorelementen30 knnen halb-voll gestellte Bcherregale oder (fr Diffusitt bei hohen Frequenzen) sogar Zimmerpflanzen dienen. Die Aufstellung der Bcher sollte dabei eine mglichst stark zerklftete Oberflche nachbilden, hnlich wie man das von professionellen Diffusorelementen kennt: Die Bcher werden dafr unterschiedlich tief ins Regal geschoben und sollten in "Blcken" mit unterschiedlicher Breite angeordnet sein. So entstehen also "Blcke" und "Kammern" im Regal und bilden eine relativ zerklftete Oberflche. Je tiefer das Bcherregal ist, umso eher entsteht Diffusitt auch in den tiefen Frequenzen. Der Deckenbereich oberhalb der Lautsprecher muss bis hin zum Sitzplatz des Hrers (=Abhrposition) ebenso absorbierend verkleidet werden. Hierfr kann man die Absorber-Elementen auf unterhalb der Decke gespannten dicken Aluminium-Draht (Bastlerdraht) legen. Dafr mssen also an den Wnden nahe unterhalb der Decke (oder aber direkt an der Decke) passende Befestigungshaken fr dieses Drahtseil angebracht werden. Jeder Draht wird unter der Last der Absorber im Laufe der Zeit etwas nachgeben, selbst wenn diese keine Rahmen besitzen. Die ganze Konstruktion wird also einige Zentimeter absinken, was die Absorber aufgrund des greren Luftspalts zwischen Dmmstoff und Wand aber noch etwas effektiver macht.

30Primitive-Root-Diffusoren

sind fr Regierrume nicht geeignet, da sie eine unregelmige Diffusitt erzeugen.

88

LEDE tot und lebendig!

Eine przisere Lsung wre aber, mehrere kurze Holz-, oder Plastiklatten aneinander zu befestigen und diese dann zwischen den Wnden, unmittelbar unterhalb der Decke, einzuhngen oder gleich durchgehende Holzlatten unterhalb der Decke einzuhngen. Fr eine Absorption im Deckenbereich bieten sich besonders mikroperforierte Absorber bzw. Folienabsorber (nicht zu verwechseln mit Folienschwingern) an, die brigens auch ohne hinterlegte Dmmschicht wirken. Ebenso kann man natrlich auch Platten- bzw. Folienschwinger oder Schlitzplatten-Absorber oder -Resonator fr den Deckenbereich nehmen, sofern man diese stabil genug anbringen kann. Schaut man sich die Kostenpunkte von Fertigprodukten an und die des Materials, was man fr den Selbstbau von z. B. porsen Absorbern, perforierten Absorbern, Folienschwingern u. . bentigt, wird schnell klar, dass dies alles am Ende sehr teuer werden kann. Grade fr den Regieraum kommt es eben auf die tiefen Frequenzen an, im Gegensatz zu einer Gesangsaufnahme im Aufnahmeraum. Bei der Gesangsaufnahme werden zwar auch Frequenzen unter 100 Hz ausgebildet, aber das nur so minimal, dass eine Behandlung der Raumakustik unter 100 Hz in dem Fall nicht erfolgen "muss" (aber natrlich dennoch optimal wre). In einem Aufnahmeraum zhlt letztendlich, was am Mikrofon ankommt. Hier gibt es z. B. bei dynamischen Mikrofonen eine groe Unempfindlichkeit fr seitlichen und von hinten eintreffenden Schall, der oft nur "halb so laut" aufgenommen wird und einen schlechten Raumklang (bezogen auf den Schalleinfall von diesen Seiten) in den Hintergrund treten lsst. Das bedeutet aber nicht, dass sich raumakustische Probleme wie z. B. Kammfiltereffekte nicht mehr auf das Aufnahmesignal und somit auf dessen Klang auswirken. Doch im Regieraum ist das Gehr der Schallempfnger und das reagiert eben anders als ein Mikrofon. Wenn also das Geld fr die Gestaltung einer guten Akustik im Regieraum fehlt (und hierfr geben gute Studios nicht umsonst tausende von Euro aus!), ist es weitaus besser, ber geeignete Kopfhrer zu mixen und zu mastern oder seine Musik fr ein Mixing und Mastering einem Tonstudio anzuvertrauen, als in einem Raum voller akustischer Probleme mit Studiomonitoren zu arbeiten. Selbst die teuersten Studiomonitore werden diese Probleme nicht beseitigen knnen! Dennoch kann man bereits durch eine Beseitigung oder zumindest Abschwchung der Raummoden unter 300 Hz, die entweder durch eine breitbandige Absorption (z. B. durch porse [evtl. mit Folie umkleidete] Absorber) oder aber die gezielte Absorption einzelner Raummoden (z. B. durch Loch-, Schlitz, - Plattenresonatoren oder Bassfallen) bereits viel verbessert werden. Selbst ein Bcherregal als Diffusor ist zwar kein "professionelles" Mittel, zeigt aber bereits Wirkung.

89

Audio-Mastering-Guide

Nachhallzeit
Als ideale Nachhallzeit fr einen Abhrraum gelten 0.3 Sekunden. Im Frequenzspektrum darf es dabei (bei Messung in Terzabstnden) nicht mehr als 10 % Abweichung von diesem Wert geben. Fr einen guten Raumklang ist also wichtig, dass die Nachhallzeit zwischen verschiedenen Frequenzen keine zu groen Unterschiede aufweist. Frequenzspezifische Schwankungen der Nachhallzeit fallen nmlich bereits in Bereichen von 200 2000 ms strend auf. So wrde ein Raum, in dem z. B. bei hohen Frequenzen ab 1 kHz nahezu kein Reflexionsschall entsteht, dafr aber bei tieferen Frequenzen umso mehr, zwangslufig muffig und drhnend klingen. Auf die Berechnung der Nachhallzeit wird hier aus folgenden Grnden nur unter Vorbehalt eingegangen: Die Nachhallzeit wird u. a. nur anhand der Absorptionsgrade von Frequenzen ab 125 Hz errechnet und bezieht sich dabei nur auf grade Mal 6 Frequenzen. Der Bereich unterhalb von 125 Hz wird dabei leider nicht bercksichtigt. Grade dieser Bereich spielt aber eine groe Rolle fr den Klang eines Raumes, weswegen er eigentlich in die Berechnung der Nachhallzeit einflieen "sollte". Die Nachhallzeit kann man mit zahlreichen Online-Tools im Internet berechnen. Normalerweise nimmt man dafr die sog. Sabine`sche Formel: RT60= 0.163 V/A V A Raumvolumen quivalente Absorptionsflche

Berechnung der quivalenten Absorptionsflche (A): Der Absorptionsgrad jeder schallabsorbierenden Raumseite (S) wird mit ihrer Gre (in m2) multipliziert. Das Ergebnis trgt man jeweils als an ein. Also z. B.: = 0.72 S = 6 m2 0.72 6 = 4,32 = an1 Die Summe der jeweils fr an berechneten Werte ergibt dann die quivalente Absorptionsflche (A). an1 + an2 + an3 + ... = A Wird die quivalente Absorbtionsflche (A) in feet statt m2 berechnet, lautet die Sabinsche Formel: RT60= 0.049 V/A Die Sabine`sche Formel gilt jedoch nur fr groe (und somit entsprechend hallige) Rume ab 500 m3. Deswegen ist sie auf die Mehrzahl der Abhr- und Aufnahmerume genau genommen gar nicht bertragbar. Stattdessen msste die Nachhallzeit mit der komplizierteren Eyring Formel berechnet werden, die sich auch auf Rume bis 500 m3 und somit auch auf kleine Rume anwenden lsst. Dennoch kann eine Berechnung nach der Sabine`sche Formel natrlich nicht schaden, man sollte das errechnete Ergebnis aber nur unter Vorbehalt als Anhaltspunkt verwenden.

90

PC-Lfter

Eine andere Mglichkeit ist die Nachhallzeit und zahlreiche andere Werte durch die aufgezeichnete Impulsantwort des Raumes zu ermitteln, die mit spezieller Software, wie z. B. Ascendo Roomtools, ausgewertet werden kann. In einem Studio-Regieraum gibt es abgesehen vom Mischpult, Monitoren und weiterem Equipment nur uerst wenig Gegenstnde im Raum, die den Schall beeinflussen knnen. Jedoch ist der Regieraum in vielen kleinen Homestudios lediglich ein zum Regierraum umfunktionierter Wohnraum, der alles mgliche an weiterem Mobiliar und Gegenstnden enthlt, die sich auf den Schall auswirken. Streng genommen msste man grade in solchen Rumen auch den Einfluss jedes Einrichtungsgegenstandes auf die Raumakustik bercksichtigen. Doch das wrde selbst einen Akustiker zur Verzweiflung treiben, das alles zu errechnen, und daher sollte hier eher das eigene Gehr zu Rate gezogen werde.

7.6 Schluss mit lrmenden Recording-PCs wie man seinem PC das Schweigen beibringt, ohne ihn auszuschalten...

PCs sind heutzutage bei Musikproduktion oft nicht mehr wegzudenken. Das schon aufgrund ihrer Betriebsgerusche. Diese knnen nicht nur die Konzentration beeintrchtigen und Stress verursachen, sondern auch auf die Aufnahmen gelangen, sofern zu nah am PC recordet wurde. Die grten Lrmverursacher im PC sind CPU-, Gehuse-, Netzteil-, und Graphikkarten-Lfter sowie Festplatten und zeitweise auch die Betriebsgerusche von CD- und DVD-Laufwerken. Sind diese Komponenten zu laut, kann auch die oft empfohlene Abdmmung des PC-Gehuses den Lrm nicht ausreichend abdmmen.

PC-Lfter
Die mit Abstand grte Lrmquelle im PC ist meistens der Netzteil-Lfter. Ein 80 mm-Lfter befindet sich in vielen Netzteilen der 300- bis 350-Watt-Klasse und lsst sich leicht durch einen leiseren ersetzen (z. B. einen 12 dBA lauten Papst-Lfter). Wichtig ist, dass der Austausch-Lfter laut Herstellerangaben als Netzteil-Lfter geeignet ist! Der Lfter kann dabei durch Schnellverbinder fr 2-adrige Kabel ohne Ltarbeiten in das Netzteil eingebaut werden. Die Funktion des Lfters ist dabei vor Inbetriebnahme des PC separat zu testen: Man schliet das Netzteil an eine Steckdose an und schaut, ob sich der Lfter dreht. Das Netzteil darf dabei nicht mit den Mainboard-Anschlssen verbunden werden. Auerdem darf man natrlich nicht mit dem Gehuse-Innere des Netzteils in Berhrung kommen! Ein Lfteraustausch ist oft gnstiger als der Kauf eines speziellen Silent-Netzteils. Erst teure Silent-Netzteile bieten ein leises Betriebsgerusch. Billige, mit "silent" umschriebene Netzteile produzieren oft noch Betriebsgerusche von ca. 20 dBA und mehr. 300350 Watt-Netzteile sind normalerweise fr die meisten PC-Konfigurationen ausreichend. Die Wattangabe zeigt die maximal zur Verfgung stehende Leistung. Bei bescheidenen PC-Konfigurationen kann deshalb sogar ein 250 Watt-Netzteil gengen.

91

Audio-Mastering-Guide

Viele Netzteile besonders die der 400550 Watt-Klasse sind mit zwei Lftern oder einem groen 120 mm Lfter ausgestattet. Hier sind die Lfter oft temperaturgesteuert: Mit steigender Gehusetemperatur erhht sich die Drehzahl und damit das Betriebsgerusch. 120 mm-Lfter bentigen weniger Umdrehungen fr die gleiche Khlleistung. Deswegen sind sie tendenziell leiser als 80 mm-Lfter. Neben intern im PC-Gehuse angebrachten Netzteilen gibt es auch externe und sogar lfterlose PC-Netzteile. Ein im hinteren Gehuseteil liegendes Netzteil kann durch einen speziell dafr produzierten Aufsatz (der auf die Auenseite des Gehuses montiert wird) schallgedmmt werden. Durch einen Gummirahmen zwischen Netzteil und Gehuse, lsst sich das Netzteil akustisch etwas vom Gehuse entkoppeln.

Netzteillfter
Die mit Abstand grte Lrmquelle im PC ist meistens der Netzteil-Lfter. Ein 80 mm-Lfter befindet sich in vielen Netzteilen der 300- bis 350-Watt-Klasse und lsst sich leicht durch einen leiseren ersetzen (z. B. einen 12 dBA lauten Papst-Lfter). Wichtig ist, dass der Austausch-Lfter laut Herstellerangaben als Netzteil-Lfter geeignet ist! Der Lfter kann dabei durch Schnellverbinder fr 2-adrige Kabel ohne Ltarbeiten in das Netzteil eingebaut werden. Die Funktion des Lfters ist dabei vor Inbetriebnahme des PC separat zu testen: Man schliet das Netzteil an eine Steckdose an und schaut, ob sich der Lfter dreht. Das Netzteil darf dabei nicht mit den Mainboard-Anschlssen verbunden werden. Auerdem darf man natrlich nicht mit dem Gehuseinnere des Netzteils in Berhrung kommen! Ein Lfteraustausch ist oft gnstiger als der Kauf eines speziellen Silent-Netzteils. Erst teure Silent-Netzteile bieten ein leises Betriebsgerusch. Billige, mit "silent" umschriebene Netzteile produzieren oft noch Betriebsgerusche von ca. 20 dBA und mehr. 300350 Watt-Netzteile sind normalerweise fr die meisten PC-Konfigurationen ausreichend. Die Wattangabe zeigt die maximal zur Verfgung stehende Leistung. Bei bescheidenen PC-Konfigurationen kann deshalb sogar ein 250 Watt-Netzteil gengen. Viele Netzteile besonders die der 400550 Watt-Klasse sind mit zwei Lftern oder einem groen 120 mm Lfter ausgestattet. Hier sind die Lfter oft temperaturgesteuert: Mit steigender Gehusetemperatur erhht sich die Drehzahl und damit das Betriebsgerusch. 120 mm-Lfter bentigen weniger Umdrehungen fr die gleiche Khlleistung. Deswegen sind sie tendenziell leiser als 80 mm-Lfter. Neben intern im PC-Gehuse angebrachten Netzteilen gibt es auch externe und sogar lfterlose PC-Netzteile. Ein im hinteren Gehuseteil liegendes Netzteil kann durch einen speziell dafr produzierten Aufsatz (der auf die Auenseite des Gehuses montiert wird) schallgedmmt werden. Durch einen Gummirahmen zwischen Netzteil und Gehuse, lsst sich das Netzteil akustisch etwas vom Gehuse entkoppeln.

Gehuselfter
Gehuse-Lfter lassen sich durch Gummiaufstze und spezielle Gummischrauben vom Gehuse entkoppeln. Auch hier ist oft ein Austausch gegen einen leiseren Lfter mglich.

92

Mainboard

CPU-Lfter
Die Lautstrke eines CPU-Lfters liegt idealerweise zwischen 1220 dBSPL ( 1 Sone). In manchen PCs sind Lfter verbaut, die eine zu hohe Khlleistung bieten und dadurch unntig viel Lrm erzeugen. Ist ein Lfter bis zur oberen Leistungsklasse aktueller Prozessoren lizenziert, obwohl im PC ein viel leistungsschwcherer CPU betrieben wird, sollte man den Lfter gegen einen schwcheren aber dafr leiseren austauschen. Temperaturgeregelte CPU-Lfter knnen je nach Temperatur im Gehuseinneren ihre Umdrehungen und somit die Lautstrke reduzieren. Die Drehzahl solcher Lfter lsst sich oft im BIOS des Rechners konfigurieren. Eine Wasserkhlung ist selten eine gute Alternative, weil Wasserkhlungen oft hnlich laut arbeiten wie herkmmliche Lfter. Ein passiver CPU-Lfter hat oft den Nachteil nicht gengend Khlung zu bieten.

Graphikarten-Lfter
Generell sollte man in einem Recording-PC passiv gekhlte Graphik-Karten einsetzen. Bei aktiv gekhlten Karten erzeugen klein-dimensionierte Lfter oft einen enormen Lrm. Man kann jedoch versuchen, deren Lfter mit geringerer Umdrehungszahl zu betreiben oder ausprobieren, ob die Karte auch ganz ohne Lfter luft. Wenn man kein "Gamer" ist, wird die Karte nmlich meistens nicht besonders beansprucht und deren Wrmeentwicklung bleibt dann bei vielen Modellen im unkritischen Bereich. Fr manche Modelle gibt es auch spezielle Khlaufstze zu kaufen, wodurch oft auf den Lfter verzichtet werden kann.

Mainboard
Ein Mainboard lsst sich mit Gummiringen, die zwischen der Mainboard-Verschraubung und Gehuse angebracht werden, vom Gehuse entkoppeln. Dafr sind meist lngere Schrauben notwendig.

Festplatten
Festplatten erzeugen insgesamt eher hochfrequente Gerusche. Deswegen schafft eine Entkoppelung der Festplatte eher Abhilfe bei tieffrequenten Geruschen, die durch den Lesekopf ausgelst werden. Eine bessere Abdmmung erreicht man, wenn die Festplatte in ein schalldmmendes Festplattengehuse mit guter Wrmeableitung und integrierter Khlung untergebracht wird. Man kann sich solche Festplattenboxen natrlich auch selbst bauen, Anleitungen dazu finden sich im Internet. Allerdings sind diese D.I.Y.-Lsungen oft Konstruktionen, die zustzliche aktive Lfter bentigen, welche dann wieder den Geruschpegel anheben. Eine andere Lsung wre eine leisere oder eine externe Festplatte.

CD-, DVD-Laufwerke
Hohe Betriebslautstrke von CD- und DVD-Laufwerken lsst sich mit diversen Softwaretools regulieren.

93

Audio-Mastering-Guide

Silent-PC-Gehuse
Durch einen "Silent-Tower" (schallgedmmte Computergehuse) kann das Betriebsgerusch des PC abgedmmt werden. Solche Gehuse sind mit Schalldmm-Matten verlegt und meist auch anders konstruiert:

Netzteil vorne Lufteinzug durch ein Loch im Boden im Gehuse eingehngter Festplattenkfig schraublose Befestigung von PCI-Steckkarten Gehuse durch Gummife vom Boden entkoppelt

Ein schallgedmmtes Gehuse ist aber nur schallgedmmt und nicht schalldicht. Sind die PC-Komponenten an sich also zu laut, bringt es nur eine leichte Besserung. Der Austausch gegen leisere PC-Komponenten ist in jedem Fall effektiver. Ein schallgedmmtes Gehuse kann die Dmmwirkung dann so weit verstrken, dass der PC vollstndig unhrbar arbeitet. Will man das PC-Gehuse selber dmmen, kleidet man die Seitenwnde des PCs (von innen) mit selbstklebenden PC-Dmm-Matten oder Bitumenmatte aus, die man mit Heikleber aufklebt. Die oft empfohlenen Bitumenmatten riechen allerdings etwas unangenehm. Die PC-Dmmmatten sind vergleichsweise geruchsneutral und bequem anzubringen. Manche PC-Dmmmatten haben jedoch eine zu geringe Dmmwirkung. Falls man sich fr Bitumenmatten entscheidet, kann eine dnne Schicht Schaumstoff fr zustzliche Dmmung sorgen. Insgesamt darf die Dmmschicht nicht zu dick sein, weil das Gehuse sonst zu hei wird. Ebenso darf sie nicht die Rnder der Seiteninnenwnde umfassen, da man die Seitenwnde sonst nicht mehr einhngen kann. Die Front des PCs und leere Laufwerkschchte knnen mit Schaumstoffblcken oder alten Laufwerken aufgefllt werden. Durch das Auskleiden mit Dmm-Material kann sich die Innentemperatur des Gehuses so weit erhhen, dass man einen (zustzlichen) Gehuselfter bentigt. Das kann eventuell vermieden werden, wenn im PC eine sehr gute Luftzirkulation gewhrleistet ist. Alle Lftungsschlitze des Gehuses werden deshalb offen gelassen werden. Kabelstrnge werden mit Kabelbinder gebunden, um die Luftzirkulation nicht zu behindern. Eine Alternative zur PC-Dmmung wre, den PC-Tower einfach in das Nebenzimmer zu stellen. Durch ein Loch in der Wand werden die am PC-Tower angeschlossenen Gerte mit entsprechend lngeren Kabeln mit dem PC verbunden. Ein etwas pragmatischerer Ansatz wre, sich eine groe Holzbox zu bauen, die man ber den PC stellt. Diese Box muss natrlich Luftlcher haben. Durch die Luftlcher dringt zwar immer noch etwas Schall durch, aber es wird deutlich leiser. Sind zu wenig Luftlcher vorhanden oder steht diese Apparatur zu lange ber dem PC, riskiert man den Hitztod des Rechners. Dieses Kapitel ber PC-Dmmung wird immer nostalgischer. PC-Komponenten sind zwischenzeitlich nicht nur leistungsfhiger, sondern auch leiser geworden.

94

Anforderungen an den PC

Anforderungen an den PC

zuverlssige Stromversorgung Das Netzteil sollte pltzliche ber- und Unterspannungen aushalten und darf keine Ausflle haben. Neuere Markennetzteile sind oft nach aktuelleren und strengeren Spezifikationen gefertigt. Eine unterbrechungsfreie Stromversorgung (USV) kann selbst einen etwas lngeren Stromausfall ausgleichen, sodass genug Zeit zum Herunterfahren des Rechners bleibt. Stromausflle im laufenden Betrieb fhren zwar nur sehr selten zu einer Beschdigung der physikalischen Festplatte, knnen aber fr korrupte Sektoren sorgen, die das Booten des Systems verhindern knnen. Eine Steckdosenleiste, die Schutz bei Blitzeinschlag bietet, ist natrlich auch eine sinnvolle Investition. Abschirmung der Wandler von internen Soundkarten Hochwertige Festplatten Festplatten sollten fr den Dauer-Betrieb ausgelegt sein und mglichst unempfindlich gegen mechanische Einwirkungen (Erschtterungen) reagieren. Hochwertige Speicherbausteine (REM) Hier sollte man REM-Speicher namenhafter Hersteller kaufen und auf eine optimale Kompatibilitt achten. Es drfen keine unsauber programmierten Programme im Hintergrund laufen, die Abstrze der Musiksoftware verursachen knnen. Auch die Musiksoftware selbst sollte natrlich mglichst frei von Bugs sein. Regelmige Datensicherungen Alle wichtigen Daten sollten (sptestens nach jedem neuen Arbeitsfortschritt am Material) gesichert werden. Wenn Aktualisierungen, die viel Arbeit erforderten pltzlich verloren gehen (und eventuell nicht mehr genau reproduziert werden knnen), ist das sehr rgerlich. Anstatt eine Datensicherung im Wochenturnus vorzunehmen, kann man auch jede Aktualisierung seiner musikalischen Arbeiten sichern, der mehr Zeit bentigte, als eine Datensicherung erfordern wrde. Eine Datensicherung auf DVDs wird mit der Zeit teuer und erfordert stetig mehr Platz zur Archivierung. Gnstiger ist es, die Daten auf einer Festplatte fr Backups zu sichern. Da manchmal auch ein komplettes System oder eine Festplatte beschdigt werden kann, (was dann oft die Neuinstallation des Betriebssystems und aller Programme erfordert) kann es nicht schaden, immer ein Backup der gesamten Festplatte vorzunehmen. Das erfordert zwar mehr Speicherplatz, erspart im Notfall aber viel Arbeit.

95

Audio-Mastering-Guide

8. Studiomonitore (Abhrmonitore)

Studiomonitor. Die hnlichkeit zur Hi-Fi-Lautsprechern tuscht! Foto: Gnther Nubert, 2010

Als Monitoring bezeichnet man das Kontrollieren und Veranschaulichen von Zustnden mit Hilfe von Anzeige- oder Messgerte. Das analytische Durchhren einer Produktion durch Studiolautsprecher zhlt ebenfalls zum Monitoring. Deshalb werden Studiolautsprecher als Studiomonitore, Abhrmonitore (oder "Abhre") bezeichnet.31 Zum Mischen und Mastern von Musik nimmt keine gewhnlichen Hi-Fi-Lautsprecher, sondern sog. Studiomonitore. Das sind Lautsprecher, die (im Gegensatz zu Hi-Fi-Lautsprechern) ein lineareres und damit relativ neutrales Wiedergabeverhalten besitzen. Durch diese Eigenschaft eignen sie sich gut, um den Klang einer Produktion objektiver beurteilen zu knnen. Beim Betrieb von Studiomonitoren mssen jedoch auch die raumakustischen Verhltnisse eine akustisch (weitgehend) unverflschte Wiedergabe der Musik erlauben (vgl. Kapitel 7).

8.1 Aufstellung von Studiomonitoren


Die Lautsprecher werden entlang der lngsten Wandseite aufgestellt. Ihre Frontseite zeigt dabei zur am weitesten entfernten Wandseite. Sie sollten dabei mglichst weit entfernt von den Zimmerecken und Seitenwnden aufgestellt werden. Der Abstand zwischen den Lautsprechern betrgt idealerweise ca. 13 Meter zueinander, dabei sollte kein Objekt zwischen den Lautsprecherseiten stehen. Empfehlenswerter ist jedoch die Aufstellung der Lautsprecher in nur 1 Meter Abstand, wobei beide ca. 90 voneinander wegzeigen mssen. Diese ungewhnliche und bis heute weitgehend unbekannte Lautsprecheranordnung wurde vom "Boxenguru" Udo Petscher in den 90er Jahren bei dessen P-HiFi-System erfolgreich angewendet und fhrt zu einem deutlich besseren Stereo-Eindruck, der einem Dolby Sourround-Klang uerst nahekommt. Paradoxerweise stellt diese Anordnung das genaue Gegenteil zur sonst stets empfohlenen Stereo-Dreieck-Anordnung dar!

31Auch

Lautsprecher auf einer Bhne, die zu den Musikern gerichtet sind, um ihnen bessere Kontrolle ber ihre Performance zu ermglichen, bezeichnet man als Monitore.

96

8. Studiomonitore (Abhrmonitore)

Um Resonanzen mit der Standflche zu vermeiden, werden die Lautsprecher durch Gumminoppen, Spikes o. . entkoppelt. Hierfr lsst sich auch eine schwere Steinplatte nehmen, die auf Dmm-Material gelegt wird. Nach dem gleichen Prinzip kann man auch Lautsprecher-Stnder akustisch vom Boden entkoppeln. Die Lautsprecher sollten auf einer Linie mit der Vorderkante des Tisches stehen, um Reflexionen von der Tischflche zu vermeiden. Resonanzen bei zu nahem Wandabstand hinter und seitlich der Lautsprecher knnen zwar den Bassbereich erhhen, mindern aber gleichzeitig die Klarheit der Bsse und verflschen die Lautstrkeverhltnisse. Subwoofer sollten stets etwas vor den Mittel- und Hochton-Lautsprecher aufgestellt werden, da Tiefbsse (aufgrund der greren Wellenlnge und Einschwingzeit [Membrantrgheit]) relativ verzgert wiedergegeben werden.

8.2 Nahfeldmonitoring Musik aus nchster Nhe


Manche Rume sind zu klein, um als Regieraum genutzt werden zu knnen. Dort bringt selbst eine akustische Optimierung keine ausreichende Besserung. In anderen Fllen ist es aus finanziellen Grnden nicht mglich, die Raumakustik ausreichend zu optimieren. In solchen Fllen kann nur das Monitoring aus nchster Nhe oder ber geeignete Studio-Kopfhrer Abhilfe schaffen. Beim sog. Nahfeldmonitoring setzt man in ca. 1 m Abstand vor den Lautsprechern. Die Hochtner sind auch in diesem Fall auf Ohrhhe ausgerichtet. Bei diesem Abstand kann man die Lautsprecher sehr viel leiser stellen und hrt mehr vom Direktschall der Box. Reflektierenden Flchen (wie z. B. Wnde und Decke) sollten dennoch weit genug von den Lautsprechern entfernt stehen. Das Nahfeldmonitoring bei sehr leisen Pegeln ist nur als Notlsung zu betrachten. Schlielich ist aufgrund des frequenzabhngigen Lautheitsempfindens des Gehrs auch das Abhren in hheren Lautstrken wichtig. Zur Erinnerung: Die gehrte Lautheit (und somit die Intensitt der Wahrnehmbarkeit) vieler Frequenzbereiche ndert sich je nach Schalldruckpegel. Theoretisch ist sie bei ca. 85 dBSPL am gleichmigsten. Dennoch muss eine Produktion natrlich auch bei einem leisen Schalldruckpegel ausgewogen klingen. Klingt es leise sehr gut, erhht sich auch die Wahrscheinlichkeit, dass es bei hheren Schalldruckpegeln auch "noch" gut klingt. Sptestens fr den Sub-Bass-Bereich reicht das Abhren im Nahfeld der Lautsprecher bei leisem Pegel aber ganz eindeutig nicht mehr aus.

97

Audio-Mastering-Guide

8.3 Eigenschaften von Studiomonitoren Frequenzgang


Studiomonitore sollen einen mglichst groen Frequenzbereich (z. B. 5020.000 Hz) so linear wie mglich abbilden knnen. Linear bedeutet, dass durch die Lautsprecher keine Frequenzanhebungen oder -absenkungen entstehen. Eine absolut lineare Wiedergabe ist selbst bei Studiomonitoren nicht mglich: Lauten die Herstellerangaben z. B. "Frequenzgang: +/- 3 dB bei 80 Hz", heit das, bei 80 Hz wird das Signal bis zu 3 dB lauter oder leiser. Der Frequenzgang wird oft nur in dBA angegeben und ist dadurch weniger aussagekrftig. Die tatschliche Abweichung des Schalldruckpegels (dBSPL) kann nmlich hher sein. Der Frequenzgang sollte im gesamten Wirkungsbereich der Box mglichst gleich sein und der Abstrahlwinkel des Lautsprechers gro genug.

Neutraler Klang bei Lautsprechern?


Selbst wenn ein Lautsprecher messtechnisch einen absolut linearen Frequenzgang aufweisen wrde, garantiert das keine absolut neutrale Wiedergabe: Viele Lautsprecher haben sehr hnliche Frequenzgnge, klingen aber dennoch (auch unter gleichen raumakustischen Bedingungen) uerst unterschiedlich. Das liegt natrlich auch daran, dass der Frequenzgang normalerweise auf eine Art gemessen wird, die kein aussagekrftiges Ergebnis zulsst. Viele Hersteller arbeiten mit unterschiedlichen Messaufbauten, wodurch eine Vergleichbarkeit von Messdaten gar nicht mehr gegeben ist. Normalerweise nimmt man ein Messmikrofon und stellt es in festem Abstand und einem bestimmten Winkel vor dem Lautsprecher auf. Die Messung erfasst dann aber nur das bertragungsverhalten des Lautsprechers an einer einzigen Hrposition und dabei meist nur im Nahfeld der Box. Aussagekrftiger sind Messmethoden, die mehrere Hrpositionen, die gesamte Schallenergie (inkl. Reflexionsschall) und die akustische Phasenauslenkung bercksichtigen. Obwohl ein neutrales Klangverhalten bei Abhrmonitoren das wichtigste Kriterium ist, sagt man auch solchen Lautsprechern stets einen "Klang" nach. "Neutraler Klang" ist ein Widerspruch in sich, denn wenn etwas neutral klingt, fgt es selber dem Originalklang nichts hinzu und gibt ein Signal vollkommen unbeeinflusst wieder. Dass Studiomonitore nicht wirklich "neutral" klingen, sieht man daran, dass die Arbeit mit einem anderen Studiomonitor immer eine gewisse Eingewhnungszeit erfordert, da der andere Monitor eben anders "klingt". Dennoch geben Studiomonitoren ein Signal sehr viel neutraler wieder, als Hi-Fi-Lautsprecher. Das sollte aber deswegen nicht mit "Neutralitt" verwechselt werden. Der Klang eines Lautsprechers liegt immer wie eine Art Filter zwischen Hrer und Musik. Anstatt diesen Filter zu entfernen, versucht man seinen Klang zu verndern oder ihn (im Falle der Studiomonitore) mglichst "neutral" "klingen" zu lassen. Dennoch verflscht das Wiedergabesystem stets das eingehende Signal. Obwohl man den Unterschied zwischen Lautsprecherklang und dem zugrundeliegenden Originalklang erkennen sollte, neigt man dazu, das auszublenden. Es ist bislang weltweit nur einem Menschen gelungen, absolut lineare und neutrale Lautsprecher zu bauen. Diese wurden von Udo Petscher unter der Firma P-Hifi in Weienburg in den 90er-Jahren unter PETechnology verkauft und erlangten damals einen bundesweiten Bekanntheitsgrad.

98

Neutraler Klang bei Lautsprechern?

Logo von Petechnology

Eine namenhafte Audiofachzeitschrift hatte ber die Anlagen und Lautsprecher von P-Hifi berichtet und selbst Mitarbeiter und Chefs namenhafter HiFi-Firmen bevorzugten privat das Hren ber ein P-Hifi-System. Das Hrerlebnis ist bei diesen Anlagen derart realistisch gewesen, dass man z. B. beim Hren einer Gitarrenaufnahme oder einer Sprechstimme den Eindruck hatte, die Musiker stnden lebendig vor einem im Raum. Dieser gelang dadurch, dass bei der Konstruktion dieser Systeme paradoxerweise genau das Gegenteil von dem gemacht wurde, was in der Tontechnik gelehrt wird: Die Lautsprecher besaen messtechnisch gesehen nicht einmal annhernd einen linearen Frequenzgang, hatten aber dennoch ein absolut neutrales, lineares Klangverhalten ohne jeden Eigenklang und Verfrbungen. Die Membrane wurden knstlich beschwert und die Positionierung der Lautsprecher war genau das Gegenteil von der sonst empfohlenen Stereo-Dreiecks-Aufstellung. Dennoch konnte sogar eine Dolby-Sourround-hnliche Wirkung bei diesem System mit nur zwei Lautsprechern realisiert werden. Der Klang war zwar absolut unspektakulr, aber dafr auch absolut realistisch. Da der Klang einer solchen Anlage definitiv sehr schlicht ist, eignet sie sich aufgrund der heutigen Hrgewohnheiten, bei deinen ein spektakulrer Sound gefragt ist, nicht wirklich fr den Verkauf im groen Stil. Das Ideal von aufgedonnerten Bssen und geschnten Mitten heutiger Hi-Fi-Anlagen wird hier eben nicht bedient. Dennoch musste man nach einiger Eingewhnungszeit zum Resultat kommen, dass das Wiedergabeverhalten normaler Wiedergabesysteme definitiv knstlich klingt. Heutzutage ist man den Lautsprecherklang so sehr gewhnt, dass die Unterschiede zwischen dem natrlichen Hrereignis (z. B. ein Singvogel in freier Natur) und dem Hrereignis beim Hren einer Tonaufnahme ber Lautsprecher (z. B. Singvogel-Aufnahme auf CD) selbst in offensichtlichsten Fllen gar nicht mehr bemerkt werden. (Genauso wie die Bildqualitt heutigen Filmmaterials im Vergleich zu dem, was man mit eigenen Augen sieht, bertrieben scharf und kontrastreich ist und damit zwar besser aussieht als real, aber eben auch unrealistisch.) Man hre sich mal die Soundeffekte in einem Kino an. Als realittsbewusster Hrer hat man hier keineswegs den Eindruck, dass diese Geruschkulissen (z. B. Gewitter, Trknallen etc.) noch realistisch klingen. Man hre sich im Vergleich dazu mal die entsprechenden Gerusche real an und wird deutliche Unterschiede erkennen. Z. B. klingt ein Gewitterdonnern aus einer gewissen Entfernung niemals so, wie es im Kino durch die Lautsprecher inszeniert wird. Der Bassanteil eines echten Gewitters liegt mehr in einem sanften Infraschall und klingt real vollkommen anders.

P-Hifi Lautsprecher Modell "Alien"

99

Audio-Mastering-Guide

Das alles drngt zu folgenden Frage auf: Stellt ein Studiomonitor eine zuverlssige Referenz dar, wenn doch jedes Modell anders klingt? Was haben die Hrer von einem optimalen Resultat, wenn sie es sowieso fast immer in akustisch problematischen Rumen und somit verflscht hren? Studiomonitore sind eine oft unverzichtbare Erleichterung, um herauszuhren, was berhaupt alles in der Musik enthalten ist und eine neutralere Abbildung der Produktion zu erhalten. Da es aber selbst bei Studiomonitoren von Modell zu Modell wieder verschieden klingt, ist das alles dennoch ein wenig relativ. Man sollte also ruhig die Feuerprobe machen und die Abmischung auch auf anderen Wiedergabesystemen hren: kleine Kopfhrer (z. B. iPod), Hi-Fi-Kopfhrer, Kchenradios, Autoanlagen, PA- und Hi-Fi-Anlage, Fernseherlautsprecher. Erst dann wird sich (fr einen selbst berprfbar) zeigen, wie gut sich eine mit den Monitoren vorgenommene Abmischung auf andere Wiedergabesysteme bertrgt. Auf jeden Fall erlaubt ein guter Studiomonitor die bestmglichste Annherung, wie eine Produktion wirklich klingt. Wrde man z. B. nur ber billige Hi-Fi-Kopfhrer abmixen, die oft einen berbetonten Bassbereich haben und sehr mittenbetont klingen, wrde man automatisch an Bass und Mitten sparen. Das wrde zwar auf den Kopfhrern ausgewogen klingen, aber auf vielen anderen Wiedergabesystemen einen viel zu hhenbetonten, dnnen Sound liefern. Dennoch haben selbst billigste Kopfhrer und Lautsprecher eine Berechtigung fr das Abhren eingesetzt zu werden, professionelle Produktionen klingen schlielich am Ende auch auf den billigsten Kopfhrern noch ausgewogen. Grade der Frequenzbereich, auf den das Gehr am sensibelsten reagiert (also grade die hheren Frequenzen ab 1 kHz) sollten deswegen auch mit Hilfe billiger Kopfhrer und Lautsprecher abgehrt werden. Um einen Vergleich anzustellen: Jeder Graphik-Designer wei, dass seine Bilder auf jedem Monitor etwas anders aussehen werden. Er bemht sich daher, alle bertragungseigenschaften seines Monitors auf bestimmte Normwerte zu kalibrieren. Dadurch ist sicher, dass das Bild zumindest auf der Mehrzahl anderer Monitore noch "relativ" gut aussieht. Graphik-Designer steht also im visuell Bereich vor eine ganz hnliche Herausforderung, wie die Tontechniker im Audio-Bereich. Im Laufe der Jahrzehnte gab es auch bei Top-Studioproduktionen teilweise groe Unterschiede im Frequenzgang und anderen Klangfaktoren der Produktion. Ebenso benutzt nicht jedes Studio das gleiche Abhrsystem und natrlich sitzt vor jedem Abhrsystem auch ein anderes Paar Ohren. Doch trotz dieser Unterschiede und obwohl manche Produktionen etwas brillanter und andere etwas wrmer klingen, klingen alle an sich ausgewogen. Hierarchisch gesehen ist ein gutes Gehr wichtiger, als eine gute Abhre, denn auch die beste Abhre kann ein schlechtes Gehr nicht ausgleichen. Daher sagt man zu Recht, dass ein guter Toningenieur sogar mit Hi-Fi-Lautsprechern eine bessere Abmischung zu Stande bringen kann, als ein Anfnger mit der besten Studio-Abhre. Beim Groteil der Hrer wird der Klang der fertigen Produktion spter durch eine mangelhafte Raumakustik, minderwertige Lautsprecher u. . schlechter klingen. Zumindest wird die Produktion dort eben nicht mehr so gut klingen knnen wie im akustisch optimierten Regieraum ber hochwertige Monitore. Sie wrde aber noch wesentlich schlechter klingen, falls man den Hrern eine Produktion bietet, deren technisches Klangbild bereits im Studio fehlerhaft war. Dass man Fehler aufgrund raumakustischer Mngel oder schlechter Studio-Monitore nicht raushren konnte, wird nicht davor schtzen, dass sie sich dennoch auf den Systemen vieler Hrer bemerkbar machen werden.

100

Impulsverhalten

Impulsverhalten
Gute Lautsprecher zeichnen sich durch eine gute Impulswiedergabe aus. Sie sind also in der Lage, auch sehr kurze Schallimpulse (d. h. sehr hohe Frequenzen) akkurat wiederzugeben. So was ist nicht selbstverstndlich, denn die Membran eines Lautsprechers hat immer eine bestimmte Einschwingzeit (Trgheit). Ist eine Signalspitze krzer als die Membran schwingen kann, kann sie nicht bertragen werden. Daher darf eine Membran nicht zu lange nachschwingen.

Aktive und passive Frequenzweichen


Ein Basslautsprecher kann nur den Bassbereich optimal bertragen, ein Hochtner nur die Hhen. Deswegen mssen Frequenzweichen eingesetzt werden, um die fr einen Lautsprecher ungeeigneten Frequenzbereiche auszufiltern. Tieftnern teilt die Frequenzweiche (engl. "audio crossover") nur den Bassbereich zu (Low-Pass). Hochtnern den hochfrequenten Bereichs (High-Pass). Die Frequenz, ab der die Frequenzweiche einsetzt, ist die sog. bergangsfrequenz (engl. "crossover frequency"). Zwischen den bergangsfrequenzen zweier Lautsprecher entsteht eine berlappung. Damit diese minimal bleibt, mssen Frequenzweichen Filter mit hoher Flankensteilheit (engl. "slope") besitzen, typischerweise 24 dB/Oktave. Passive Monitore sind Studiomonitore ohne aktive Frequenzweichen. Sie werden mit einer externen Studio-Endstufe betrieben. Studio-Endstufen sind auf ein eher lineares Klangbild und auf einen lautlosen Betrieb ausgelegt. Die Endstufe muss etwas mehr Leistung abgeben, als es der Wattangabe der Box entspricht (empfehlenswert wre eine um hhere RMS-Leistung). Es ist durchaus mglich, mit einer zu hohen Verstrkerleistung den Lautsprecher zu zerstren. Viel wahrscheinlicher ist aber die Zerstrung eines Hochtners durch einen berlasteten Verstrker. Leistungsfhigere Verstrker bieten einen besseren Dmpfungsfaktor und knnen auch schnelle Spannungsanstiege fehlerfrei bertragen. Viele Verstrker besitzen einen eingebauten Limiter, der die Lautsprecher vor berlastung schtzt. Aktive Monitore besitzen aktive Frequenzweichen. Die Frequenzweichen arbeiten dort flexibel und knnen manchmal auch von auen nachjustiert werden. Die Endstufe ist bereits in das Lautsprechergehuse integriert. Weitere Vorteile aktiver Monitore sind krzere (und geschtzte) Kabelverbindungen, da die Endstufe im Inneren liegt. Nicht alle Monitore, die als aktiv bezeichnet werden, sind es auch. Manchmal handelt es sich nur um Lautsprecher mit passiven Frequenzweichen, die mit einer internen Endstufe betrieben werden. Die interne Endstufe ist bei billigen Modellen oft stark unterdimensioniert, sodass eine lineare, verzerrungsfreie Wiedergabe nicht immer gewhrleistet ist. Verstrker haben einen gewissen Eigenklang, der sich auf das Gesamtklangbild auswirkt. Selbst die Lautsprecher-Kabel haben einen gewissen Einfluss auf das Klang- und bertragungsverhalten. Sie sollten mglichst gut geschirmt und kurz sein und ber einen hohen Leiterquerschnitt verfgen. Koaxialkabel sind hier aufgrund des hohen Leitungsquerschnitts die ideale Verbindung. Die Anschlsse sollten mglichst massiv, mssen jedoch nicht vergoldet sein. Beachtet man dies alles, kann mit einer externer Endstufe natrlich ein ebenso gutes Ergebnis erzielt werden, wie mit einer internen. Im Bereich der Nahfeldmonitore haben sich 2-Wege-Boxen durchgesetzt. Sie lassen sich jederzeit um einem Monitor-Subwoofer fr den tiefen Bassbereich ergnzen.

101

Audio-Mastering-Guide

Lautsprechergehuse
Um Streuungseffekte des Schalls zu vermeiden, sollte die Gehusekonstruktion theoretisch keine Kanten aufweisen. Idealerweise wird ein Studiolautsprecher deshalb komplett in eine Wand eingelassen und kommt dadurch dem Ideal einer "unendlich" ausgedehnte Vorderseite nher. So etwas ist meist nur in groen Studios zu finden, die dafr aber nicht "unendlich" gro sein mssen. Bei kleinen Lautsprechergehusen wird die tiefste wiedergegebene Frequenz nicht mehr hrbar werden, aber oft als Residualton wahrgenommen.

Membranmaterial
Teure Hochtner sind meistens aus Titan gefertigt. Weniger solide Hochtnermembrane werden aus Textil angefertigt. Unbedingt abzuraten ist vom Kauf billiger Piezohochtner. Hochwertige Basslautsprecher-Membrane sind meistens aus Polypropylen. Billige Basslautsprecher-Membrane bestehen aus Pappe. Bndchenhochtner besitzen einen weicheren Klang besitzen und werden auch in manchen Studiomonitoren eingesetzt.

102

9. Mixing

9. Mixing

9.1 Klangqualitt der Aufnahmen


Ist die Soundqualitt der Aufnahmen nicht gut, lsst sich das durch Mixing (und/oder Mastering) nicht mehr korrigieren. Haben die Aufnahmen ein mittelmiges oder gar schlechtes technisches Klangbild ist ein Re-Recording also eindeutig vorzuziehen. Der Versuch ein schlechtes technisches Klangbild durch Mixing und Mastering zu "reparieren", also quasi erst "nachtrglich" einen professionellen Sound zu erzielen, scheitert oftmals. Auch kleine Nachlssigkeiten wie veraltete Drumfelle, alte (rostige) Saiten, schlecht gestimmte Instrumente (dazu zhlen auch ungestimmte Drums) verschlechtern bereits die Aufnahmequalitt. Es ist jedoch leider nicht damit getan, einfach nur professionelle Instrumente einzusetzen und beim Recording eine gute Performance abzuliefern. Viele wertvolle Infos ber erfolgreiches Recording finden Sie in meinem Buch Audio-Recording-Guide. Eine weitere Voraussetzung fr ein amtliches Ergebnis beim Mixing ist, dass das zur Signalbearbeitung genutzte Equipment qualitativ hochwertig genug ist. Etliche Plug-in-Lsungen scheiden hier, entgegen aller Werbung und Behauptungen, bereits aus.

103

Audio-Mastering-Guide

Natrlich wird bei einer sehr guten Aufnahme der Einsatz von professionellen Audio-Plug-ins die Gesamtqualitt nicht so auffllig trben knnen, wie bei schlechten Aufnahmen. Hingegen wird sehr gute Hardware den Sound auch noch bei weniger optimalen Aufnahmen deutlicher aufwerten knnen und guten Aufnahmen noch zum letzten fehlenden Glanz verhelfen.

9.2 Bitrate und Samplerate beim Mixing 24 Bit gegenber 16 Bit

Die Bitrate einer Audio-Datei hat nichts mit der Bitrate des internen Wertebereichs des Rechensystems zu tun. Deswegen bringt eine nachtrgliche Erhhung der Bitrate einer Audio-Datei auf 24 Bit keinen Vorteil. Die bei 24 Bit um 46 dB grere Dynamikspanne ist fr U-Musik kein Vorteil, denn bereits der bei 16 Bit maximal mgliche Dynamikumfang wird dort kaum ausgenutzt. Der Signal-to-Error und somit das Quantisierungsrauschen liegt bei 24 Bit im unhrbaren Bereich. Doch bereits bei 16 Bit ist der Signal-to-Error selbst fr klassische Aufnahmen noch gro genug. Da die Audio-Datei spter fr viele Formate sowieso wieder in einer Auflsung von 16 Bit vorliegen muss, bringt es nichts, vorher auf eine hhere Bitrate zu konvertieren.

Verschiedene Sampleraten im Vergleich


Erhht man die Samplerate einer Audio-Datei verbessert das nicht deren technisches Klangbild. Eine Konvertierung auf Ziel-Sampleraten von > 44.1 kHz macht fr eine CD-Produktion keinen Sinn, da die finale Samplerate dort sowieso wieder 44.1 kHz betragen muss. Wird dann mit einem mittelmigen Sample-Rate-Konverter auf > 44.1 kHz und am Ende wieder zurck auf 44.1 re-sampledt, hat man sogar ein schlechteres Ergebnis als zuvor.32 Durch eine Konvertierung auf 96 kHz knnen die von manchen Audio-Plug-Ins simulierten analogen Klangeigenschaften "authentischer" klingen, zumindest, solange das Signal mit 96 kHz wiedergegeben wird. Die Konvertierung auf 96 kHz ist natrlich angebracht, wenn das Zielformat der Produktion ebenso 96 kHz sein soll. Da 44.1 kHz (rein arithmetisch gesehen) genau die Hlfte von 88.2 kHz darstellt, knnte man meinen, dass ein Resampling zwischen diesen Sampleraten technisch leichter wre, als zwischen 44.1 kHz und 96 kHz, und deswegen auch mit mittelmigen Samplerate-Konvertern sauberere Ergebnisse hervorbringen. Das ist jedoch ein Irrtum!

32Um

zu prfen, ob ein Samplerate-Konverter saubere Ergebnisse ermglicht, konvertiert man eine Sinusschwingung auf die Ziel-Samplerate. Mit einem FFT-Analyzer wird dann das Ergebnis geprft: Bei einem guten Konverter wird die Anzeige von sampling-bedingten Deckfrequenzen min. 90 dB unter dem Signal liegen und bei 24 Bit sogar mindestens 120 dB darunter.

104

Destruktive und non-destruktive Signalbearbeitung

Destruktive und non-destruktive Signalbearbeitung


Eine destruktive Signalbearbeitung sorgt fr bleibende (="destruktive") nderungen am Audiomaterial und kann deswegen nicht (oder nur in einem begrenzten Umfang) wieder rckgngig gemacht werden. Bei der nicht-destruktiven (bzw. non-destruktiven) Signalbearbeitung erfolgt zunchst nur virtuell und nicht an der Originaldatei. Die letztendlich das Signal endgltig verndernden, also "destruktiven", Bearbeitungsschritte erfolgen erst beim Abspeichern. So gesehen ist also auch diese Form der Bearbeitung letztendlich destruktiv.

9.3 Grundstzliche EQ-Techniken beim Mixing Kompletives EQing Wie man Frequenzbereiche unterschiedlicher Signale aufeinander abstimmt
Strkere Eingriffe mit dem EQ verndern auch deutlich den Signalpegel der Spur. Das Abmischen der Lautstrkeverhltnisse erfolgt also nicht grundstzlich nur ber die Kanal-Fader. Ein EQ kann die Klangqualitt einer Aufnahme oder eines Sounds grundstzlich nicht verbessern. Er kann nur mit dem arbeiten, was tatschlich im Klangbild des Signals bereits vorhanden ist. Der EQ ist eigentlich nur als Korrekturmittel gedacht (daher auch die deutsche Bezeichnung "Entzerrer") und kann Frequenzbereiche anheben oder absenken. Manchmal wird er ein EQ auch dafr eingesetzt, den Klangcharakter des Signals zu frben. Bei Anhebungen wird das Klangverhalten des EQs manchmal deutlicher als bei Absenkungen. Schlecht klingende EQs trben den Klang aber auch bei Absenkungen. Zur Korrektur von Frequenzberschneidungen zwischen Instrumenten werden die beteiligten Spuren hufig kompletiv EQed: Das bedeutet, hebt man bei einem Signal einen bestimmten Frequenzbereich an (bzw. ist dieser Bereich bereits laut genug), schaut man, ob man dafr bei einem anderen Signal denselben Bereich absenken kann. Und umgekehrt: Senkt man bei einem Signal einen Bereich ab (bzw. ist dieser Bereich bereits leise genug), schaut man, ob man denselben Frequenzbereich dafr bei einem anderen Signal anheben kann. In anderen Worten: Was man dort, wo es zu viel ist, wegnimmt, gibt man woanders (falls angebracht!) dazu. Und: Was man dort, wo es zu wenig ist, hinzugibt, nimmt man woanders (falls angebracht!) wieder weg. Das ist eine mgliche Vorgehensweise und keine feste Regel! Sie verdeutlicht aber einen wichtigen Grundsatz beim Mixing: Jedes Instrument erhlt (in einem geeigneten Bereich des Frequenzspektrums) sein eigenes Wirkungsfeld und die anderen Instrumente lassen ihm entsprechend Platz dafr. Es geht also um das Aushandeln eines Gleichgewichts zwischen den Signalen im Mix.

Absenkungen allein knnen oft schon ausreichen, da sie automatisch die entsprechenden Frequenzbereiche anderer Instrumente deutlicher hrbar machen, ohne dass man diese Bereiche vom EQ bearbeitet werden mssen. Das ist deswegen gut, da sich die EQ-Bearbeitung speziell bei Anhebungen stellenweise auch mal negativ auswirken kann. Liegt z. B. bei einer Bassdrum bei 100 Hz bereits deutlich erkennbar der "Druck", reicht es den Bass bei 100 Hz etwas abzusenken und der

105

Audio-Mastering-Guide

druckvolle Sound der Bassdrum wrde automatisch besser zur Geltung kommen. Auch bei Anhebungen muss nicht zwangslufig eine Absenkung des gleichen Frequenzbereichs bei einem anderen Signal erfolgen: Hebt man z. B. die Bassdrum bei 100 Hz an, muss der Bass nicht zwangslufig bei 100 Hz abgesenkt werden. Eventuell ist der Bass nmlich bei 100 Hz bereits richtig dosiert (oder er ist dort sogar so schwach, dass er sogar ebenfalls angehoben werden sollte!). Dies sind also Aspekte, die man bei jedem Mixing selber heraushren und entscheiden lernen muss.

Subtraktives EQing Wie man Frequenzbereiche indirekt hervorhebt


Man kann einen Frequenzbereich auch indirekt betonen, Frequenzbereiche abgesenkt. Diesen Vorgang bezeichnet (Subtraktion=Minusrechnung, abziehen). indem man die benachbarten man als subtraktives EQing

Das erfordert also den Einsatz von mindestens zwei EQ-Filtern (also rechts und links des zu betonenden Frequenzbereichs). Deren Filtergte bzw. Bandbreite muss dafr genau abgestimmt werden, damit der zu betonende Frequenzbereich nicht mit abgesenkt wird. Soll nur ein (sehr) schmalbandiger Frequenzbereich hervorgehoben werden, wird durch die zwei EQ-Filter insgesamt ein groer Frequenzbereich bearbeitet. Da dieser Bereich aber sowieso abgeregelt werden soll, fllt dort auch die Auswirkung der EQ-Filter etwas weniger ins Gewicht, was nicht heien soll, dass sie nicht hrbar wre. Durch subtraktives EQing lassen sich unschn klingende Boost-Effekte vermeiden, die grade bei Low Budget EQs bei Anhebungen schneller entstehen. Der Signalpegel wird beim subtraktiven EQing (je nach Ausma der Bearbeitung) insgesamt verringert. Hufig muss der Signalpegel dadurch wieder ber den Ausgangspegel-Regler (engl. "Output") des EQs oder den Kanal-Fader erhht werden. Fr eine direkte EQ-Anhebung spricht jedoch, dass der gute Eigenklang hochwertiger EQs dadurch noch deutlicher wird und man fr eine direkte Anhebung eben jeweils nur einen EQ-Filter bentigt. Man sollte den fr die jeweilige Aufgabe geeignetsten EQ-Filtertyp auswhlen. Die meisten Bearbeitungen lassen sich mit einem Bell-Filter durchfhren. Soll ein groer Frequenzbereich bearbeitet werden, kann es hingegen praktischer sein, einen Low- oder High-Shelf-Filter zu benutzen. EQs knnen unterschiedliche Wirkungsgrade (engl.="Gain"), Filtergten (Q) bzw. Bandbreite in Oktaven bzw. Steilflankigkeit (engl.="slope") besitzen. Dadurch ermglichen manche EQs strkere und genauere Eingriffe als andere. Man kann den zu bearbeitenden Frequenzbereich leichter finden, wenn man zunchst eine breitbandige Filterung (=niedrigere Filtergte) ansetzt und diese dann schrittweise schmalbandiger (=hhere Filtergte) regelt. In einer Aufnahme sind oft Frequenzbereiche enthalten, die unwesentlich oder sogar strend sind. Welche das sind, ergibt sich hufig erst im Kontext mit den anderen Spuren der Abmischung. Diese Bereiche knnen abgeregelt oder gar ganz entfernt werden. Beim "Wegschneiden" von Frequenzbereichen durch High- und Low-Pass-Filter kann sich die

106

Subtraktives EQing Wie man Frequenzbereiche indirekt hervorhebt

Filterarchitektur des EQs auch noch mehr oder weniger weitrumig auf Frequenzbereiche auswirken, die eigentlich nicht mit bearbeitet werden sollen. So kann bei einem High-Pass- bereits oberhalb und bei einem Low-Pass-Filter bereits unterhalb der Centerfrequenz die Frequenzabsenkung beginnen. Wenn man in diesem Bereich jedoch sowieso eine gewisse Absenkung wnscht, hat man dadurch zwei Fliegen mit einer Klappe geschlagen. Ist das klangliche Ergebnis ernchternd, obwohl man die "richtigen" Frequenzbereiche bearbeitet hat, kann das durchaus auch am EQ selbst liegen. Hier wrde ein Vergleichstest mit einem anderen EQ Klarheit bringen. Das Klangverhalten eines EQs kann bei manchen Signalen und EQ-Bearbeitungen gut passen, bei anderen wiederum weniger. Es gibt z. B. EQs, die sich fr starke Eingriffe in das Signal eignen, andere klingen eher nur bei leichten Eingriffen noch gut. Manche eignen sich gut fr Anhebungen, anderen eher fr Absenkungen. Manche haben gute LP/HP-Filter und andere sind diesbezglich nicht mehr wirklich brauchbar. Zudem besitzen EQs, je nach Modell, einen etwas anderen Klangcharakter. Wie bereits angedeutet, liefert EQing nur mit guten EQs auch gute Ergebnisse. Solche EQs findet man fast ausschlielich im Sektor der Mid- und High-End Studio-Hardware. Durch EQ-Plug-ins luft man oft Gefahr, unntige Klangverschlechterungen in Kauf zu nehmen. Wenn das technische Klangbild der Aufnahmen bereits sehr gut ist, kann die Klangtrbung durch einen minderwertigen EQ durchaus berhrt werden. Bindet man dann aber noch weiteres minderwertiges Equipment fr die Abmischung ein, addiert sich die Klangtrbung durch den EQ mit den anderen Fehlerquellen. In der Summe werden dann letztendlich auch die Fehler kritisch, die fr sich allein noch unkritisch waren. Besonders wenn man noch nie mit Mid- und High-End Hardware-EQs gearbeitet hat, wird einem der Unterschied wahrscheinlich nicht auffallen. Oftmals klingen EQ-Plug-ins recht leblos und haben einen leicht harschen Klang an sich. Das fllt grade bei hohen Frequenzen auf. Manche EQ-Plug-ins prgen dem Material einen etwas deutlicheren Eigenklang auf. Doch der wirkt eben nicht wirklich wie von echter Hardware, sondern eben wie eine digitale Simulation und damit zwangslufig knstlich. Manche EQ-Plug-ins arbeiten hingegen auch angenehm unauffllig. Angesichts der Flle an Anbietern solcher Plug-in-Lsungen ist es bisweilen sehr schwer, fr den jeweiligen Anwendungszweck eine zumindest tolerable Lsung zu finden. Im professionellen Studiosektor sind EQ-Plug-ins meist nur als Ergnzung im Einsatz oder wenn es nur um sehr dezente Bearbeitungen oder Audiorestauration geht. EQ-Plug-ins haben durchaus eine Daseinsberechtigung, sie sind aber kein Ersatz fr Mid- und High-End-Hardware-EQs. Ansonsten wrden ja alle groen Studios ihre hochpreisigen Hardware-EQs sofort verkaufen oder nur noch als optisches Gimmick im Rack stehen lassen. Ein einzelner guter EQ ntzt nicht wirklich viel, wenn er zu wenig Filter hat oder nicht gengend Arbeitsfrequenzen zur Auswahl stehen.

107

Audio-Mastering-Guide

9.4 Grundstzliches zum Einsatz von Kompression beim Mixing Komprimieren von Einzelspuren
Durch das Komprimieren ergeben sich folgende Mglichkeiten:

Durch die Reduktion der genutzten Dynamikspanne lsst sich die Lautheit steigern, (weil nach der Reduktion der Dynamikspanne eine relativ strkere Erhhung des Signalpegels mglich wird!). Weil Pegel nach dem Komprimieren strker angehoben werden kann, erreichen leisere Pegelanteile eine relativ hhere Lautheit. Details wie z. B. Bogenstrich, Anzupfgerusche, Hallanteile kommen dadurch besser hervor. In manchen Fllen kann es aber sehr unnatrlich wirken, die Lautheit von eigentlich leiseren Klanganteile zu erhhen. Wenn der Kompressor Passagen mit hherem Pegel durchgehend reduziert, kann man deren Lautheit der von relativ leiserer Passagen angleichen. Der Kompressor kann also dazu genutzt werden, den Verlauf der Signal-Amplitude insgesamt einheitlicher zu machen. Dann stellt er einen Leveler (dt. "Gleichmacher") dar.

Mit Kompression ist hier brigens der Einsatz von Downward-Kompression gemeint. Deren Ziel ist stets das Herunterregeln (engl. "downward"=herunter, abwrts) der ber den Schwellenwert (engl. "Threshold") gelangenden Pegelanteile. Um einen geeigneten Schwellenwert zu finden, sollte man die Dynamik innerhalb der Spur vorher genau betrachten. Was fr einen Abschnitt nmlich ein optimaler Schwellenwert wre, kann fr einen anderen Abschnitt der Spur wieder weniger geeignet sein. Hier wird man einen gewissen Kompromiss eingehen oder aber einen zustzlichen Kompressor oder Limiter im Signalweg einsetzen mssen. Die Mglichkeit, dass sich der Threshold automatisch von selbst einstellt gibt es nicht! Eine Signal muss nicht immer komprimiert werden. Man muss selber entscheiden, ob Kompression berhaupt erforderlich ist und ob der Kompressor sich evtl. negativ auf den Klang auswirkt. Schlielich ruft jeder Kompressor eine gewisse Klangfrbung hervor. Die meisten Kompressoren lassen das Signal auch ein wenig dumpfer klingen. Schlielich werden durch das Absenken des Pegels auch die im Klangspektrum enthaltenen leisesten Obertne mit abgesenkt. Einige gelangen dadurch in Pegelbereiche, wo sie gar nicht mehr dargestellt werden knnen bzw. unhrbar werden. Das durch das berschreiten des Threshold erfolgende Abregeln des Pegels wirkt sich also nicht nur auf die Dezibel aus, die oberhalb des Thesholds liegen. Heute ist es blich, Signale recht stark zu komprimieren. Grade beim Gesang darf die Kompression aber niemals als solche hrbar werden. Ebenso muss man entscheiden, ob anstelle einer Downward-Kompression eventuell eine Upward-Kompression besser geeignet wre. Hier wird davon ausgegangen, dass das Ziel vor allem die effektive Erhhung der Lautheit sein soll, ohne dass es dabei unnatrlich klingt. Dafr ist es natrlich sehr hilfreich, wenn man die Attack- und Release-Time genau kennt. Bereits das Regelverhalten und die Skalierung mancher Attack- und Release-Regler steht dem leider schon im Wege. Die Dauer der Attack- und Release-Time stimmt nmlich nicht bei jedem Kompressor mit den auf der Regler-Skala angegebenen Werten berein. Die oft in ms angegebenen Werte knnen daher oft nur als Schtzwert herhalten. Manchmal gibt die Regler-Skala auch nur fr einige Regler-Positionen einen Wert an.

108

Komprimieren von Einzelspuren

Abgesehen davon, gibt es bereits fr das Regelverhalten des Attack-Parameters verschiede Definitionen, die je nach Hersteller variieren knnen. Es ist dabei nicht immer klar, wie der jeweilige Hersteller das Regelverhalten genau definiert. Ein Klang (z. B. von einer angezupfte Gitarrensaite) besteht aus drei Abschnitten: der Anschwellphase, dem sog. quasistationre Klangabschnit und der Anschwellphase. Innerhalb der Anschwellphase beginnt der Klang sich zu bilden, er "schwillt" sozusagen an und wird dabei lauter. Im quasistationre Klangabschnitt besitzt der Klang einen konstanten Pegel, er ist "quasi" (="sozusagen") "stationr" (=stillstehend, statisch). Die Lnge des quasistationren Klangabschnitts kann (je nach der Tondauer und Instrument) variieren. In der Abschwellphase "schwillt" der Klang wieder ab und wird somit leiser. Im Klang ist brigens nicht nur der Grundton enthalten, der die Tonhhe und somit die Grundfrequenz bestimmt, sondern auch zahlreiche Obertne. Die Obertne bestimmen nicht die Tonhhe, aber den "Klang" des Tons. Z. B. kann man ein gestrichenes c auf dem Klavier oder auf die Gitarre spielen. Die Tonhhe (Grundton) ist dabei die selbe, aber der Klang dennoch vollkommen anders. Die Obertne liegen, wie der Name schon sagt, "oberhalb" des Grundtons, sind also hhere Frequenzen. Lsst der Kompressor durch Ende der Release-Phase das Signal an einer "unpassenden" Stellen los, kann es passieren, dass inmitten einer An- oder Abschwellphase oder inmitten des quasistationren Klangabschnitts der Pegel pltzlich (innerhalb der Attack-Phase) ansteigt. Das kann einem natrlichen Klangeindruck trben. Eine intelligente flexible Regelung des Release-Parameters knnte das vermeiden. Eine so przise Regelung der Kompressor-Parameter ist aufgrund der gewissen Trgheit einer Schaltung nicht mglich. Auch ein automatischer Release (Auto-Release) arbeitet dafr zu unzuverlssig. Bei der Kompression geht es jedoch nicht darum, die Dynamikspanne, die "innerhalb" eines Klangspektrums (durch die Pegelunterschiede zwischen An-, Abschwellphase und dem quasistationren Klangabschnitt) besteht, gezielt zu verringern. Es geht stattdessen darum die Dynamikspanne, die zwischen hohen und weniger hohen Signalpegeln besteht zu verringern. Das ist ein Unterschied, denn dabei werden oft sowohl die Anschwellphase, der quasistationre Klangabschnitt und die Abschwellphase gleichermaen abgeregelt. Es geht also um insbesondere um einen gleichmigeren Amplitudenverlauf durch Absenkung hoher Pegelanteile. Dadurch lsst sich nachtrglich die Lautheit erhhen. Falls sich dabei stellenweise auch die Dynamikspanne zwischen An- und Abschwellphase verringert, ermglicht dies lediglich eine noch effektivere Lautheitssteigerung. Fr die Attack-Time liegt ein guter Ausgangswert im Bereich bis ca. 10 ms. Von dort aus kann man sich leicht an die jeweils passenden Werte "heranregeln". Bei greren Attack-Werten riskiert man, dass der Kompressor das Signal zu spt erfasst. Dann bleiben die zuerst ber den Schwellenwert gelangenden Pegelanteile (was oftmals Anschwellphasen sind) unkomprimiert. Das kann aber manchmal auch erwnscht sein. Fr die Release-Time liegt ein guter Ausgangswert bei 300 ms. Betrgt der Attack dann max. 10 ms und bersteigt der Pegel fr eine Sekunde den Threshold, wird der Pegel nach 10 ms zunchst fr 300 ms komprimiert. Danach setzt wieder fr 10 ms der Attack ein und

109

Audio-Mastering-Guide

der Pegel wird erneut fr 300 ms komprimiert usw. Bereits in einer Sekunde wird der Pegel dadurch ca. 3,2-mal komprimiert. Da mittlere und hohe Frequenzen weitaus schneller pro Sekunde schwingen als tiefe, ist das ein relativ "unaufflliger" Eingriff. Wre der Release hingegen 50 ms, wrde das Signal (bei einem Attack von 10 ms) in einer Sekunde ca. 16-mal komprimiert werden. Der Kompressor wrde das Signal durch den kurzen Release also entsprechend oft "loslassen", wodurch der Pegel jedes Mal wieder fr max. 10 ms ansteigen kann. Steigt der Pegel dann strker an, weil das Signal in der Release-Phase durch einen hohen Ratio strker abgeregelt wurde, knnen sich innerhalb der Signal-Amplitude natrlich strkere Pegelschwankungen ergeben. Weil durch die krzere Release Time die Kompression also tendenziell weniger gleichmig erfolgt, kann sich das auch der Natrlichkeit von An-, Abschwellphase und dem quasistationren Abschnitt in einem Ton bzw. in Tonfolgen schaden. Bei einem langen Release von z. B. 1000 ms, "prft" der Kompressor nur alle 1000 ms, ob das Signal den Threshold noch berschreitet. Dadurch wird also viel seltener neu bestimmt, ob und um wie viel dB das Signal abgesenkt werden muss. Kommt es innerhalb der Release-Phase zu starken Pegelschwankungen, bentigt der Kompressor viel lnger um darauf zu reagieren. So besteht besonders bei hohen und kurzen Tonfolgen das Risiko, dass die Signalamplitude tendenziell mal etwas zu lang, mal etwas zu gering und mal etwas zu stark komprimiert wird. Da bei mittlere und hohe Frequenzen die Signalamplitude durch einen kurzen Attack und Release keine hrbaren Verzerrungen bildet, ist ein Release von ca. 250300 ms eine gute Wahl.

Komprimieren des Bassbereiches ein Fall fr sich!


Fr tiefe Frequenzbereiche sollte man andere Kompressoreinstellungen whlen als bei hohen. Zu kurze Release- und Attack-Werte sind fr die stets langsamer schwingenden tiefen Frequenzen zu schnell und fhren schlimmstenfalls sogar zu Verzerrungen. Schlielich schwingt eine tiefe Frequenz wie z. B. 80 Hz pro Sekunde "nur" 80-mal, 8 kHz hingegen 8000-mal. Eine Release von <300 ms ist dann manchmal schon zu kurz (z. B. bei lang gehaltenen Bass-Tnen). Der Kompressor wrde die Kompression dann nmlich zu frh beenden. Er wrde das Signal also zu frh "loslassen". Dadurch kann sich die Signalamplitude mitten innerhalb einer Schwingung abrupt erhhen und wird (durch eine zu kurze Ansprechzeit von z. B. 2 ms) danach wieder unmittelbar bei einer der folgenden Schwingungen leiser. So wird die Signalamplitude teilweise zu Rechteckwellen verformt und es kann ein hrbares Knacksen entstehen. Deshalb sollte man fr basslastige Signale Release-Werte > 300 zu whlen. Zu hohe Release-Werte fhren jedoch zu einem "pumpenden", wie "aufgeblasen" wirkenden, Klangeindruck. Bei tieferen Frequenzen erhhen sich die Anschwellphasen von Klngen auf ca. 100500 ms. Es dauert also etwas lnger ehe ein Ton (z. B. Das E auf einer Bass-Gitarre) seinen maximalen Pegel erreicht. Dennoch ist auch hier ein kurzer Attack bis 10 ms geeignet, um das Signal nicht zu spt zu erfassen. Schlielich befindet sich auch in tiefen Tnen nicht nur die Grundschwingung, die die Tonhhe bestimmt, sondern auch noch zahlreiche schneller schwingende Obertne, die zum Klang dazugehren. Will man, dass die Einschwingphasen, den Threshold auch unkomprimiert bersteigen knnen, muss der Attack der Dauer einer Einschwingphase entsprechen. Immer wenn der Kompressor das Signal nach

110

Komprimieren des Bassbereiches ein Fall fr sich!

Ende der Release-Phase wieder "loslsst", bleibt durch den lngeren Attack dann ein ausreichend langes Zeitfenster, damit eine Einschwingphase (weitgehend) unkomprimiert durchkommen kann. Eine zu kurze Attack-Time (z. B. 2 ms) bewirkt jedoch, dass auch die (ber den Threshold gelangenden) Einschwingphasen von Klngen (z. B. der Kick von der Bassdrum) sehr frh abgeregelt werden knnen und dadurch unnatrlicher klingen. Das ist aber manchmal ein gewnschter Effekt.

9.5 Stellung im Panorama (Panning)


Durch die zwei Lautsprecher eines Stereo-Wiedergabesystems ergibt sich der akustische Eindruck von Rumlichkeit. Diesen Klangeindruck bezeichnet man bei Stereo als (Stereo-)Panorama. Dieser Rumlichkeitseindruck wirkt nicht so dreidimensional wie bei Dolby-Surround, dennoch wirkt ein Stereo-Klang "rumlich". Dieses Prinzip kann man durchaus etwas mit dem menschlichen Auge vergleichen: Mit einem Auge kann man nicht rumlich sehen, mit zwei Augen schon. Die Signale in der Abmischung kann man durch den Panorama-Regler (kurz: Panpot, "pot" steht hierbei fr "Potentiometer") im Panorama anordnen. Diesen Vorgang bezeichnet man als "Panning". Werden alle Instrumente im Panorama mittig angeordnet, fehlt es dem Mix an rumlicher Breite und den Instrumenten an Platz. Genauso hat ja auch jeder Musiker in einem Orchester seinen Platz und es drngeln sich nicht zwei auf einen Stuhl. Um einen transparenten Mix mit einer gewissen rumlichen "Breite" zu bekommen, sollten einzelne Spuren also im Panorama verteilt werden. Nur die grundlegenden Bestandteile des Beats (Bassdrum, Bass, evtl. auch Snare und Hi-Hat) und die dominierenden Instrumente (z. B. Gesang, Gitarrensolo) sollten im Stereobild genau mittig positioniert sein. Doppelungen von Spuren (auch der Gesangsspur) knnen fr einen breiteren Klangeindruck auch durchaus stark links und rechts im Panorama verteilt werden. Ebenso knnen E-Gitarren-Aufnahmen strker nach rechts und links im Panorama verteilt werden, damit in der Mitte genug Raum fr den Gesang bleibt. Generell sollte man es aber vermeiden, zu viele Signale extrem rechts- oder linkssteil zu verteilen. Bei Soundeffekten kann man dafr umso strker mit dem Panorama experimentieren. Eine Steigerung der Stereobreite durch Stereo-Enhancern kann dazu fhren, dass der Mix in Mono nicht mehr gut klingt. Die rumliche Anordnung der Schlagzeugsounds sollte auch im Mix der eines realen Drumsets nahekommen. Ein Zuhrer steht normalerweise in Richtung der Frontseite eines Drumsets und wrde in einer "natrlichen" Wiedergabesituation (also beim unverstrkten Drumset z. B. im Proberaum oder bei Gigs in kleinen Clubs) die Signale deswegen im Panorama anders herum orten als der Drummer. Die Hauptelemente des Rhythmus bilden Bassdrum, Snare und Hi-Hat. Die Bassdrum liegt grundstzlich in der Mitte. Wird die Musik spter auch in Mono gehrt, sollten auch Hi-Hat und Snare mglichst in der Mitte liegen.

111

Audio-Mastering-Guide

Panoramaverteilung des Drumsets

Bei klassischer Musik bzw. Filmmusik sollte die Sitzverteilung in einem Orchester sinngem auf das Panorama im Mix bertragen werden. Hier ein Beispiel fr eine, von mehreren mglichen, Orchesterbesetzungen und Sitzverteilungen:

Panorama-Positionen von Orchesterinstrumenten

9.6 Mehr Tiefenstaffelung durch Reverb und Delay


Digitale Halleffekte (engl.="digital reverb unit") knnen die Raumakustik realer Rume virtuell (mehr oder weniger authentisch) simulieren. Andererseits knnen sie auch Raumakustiken generieren, die es in der Realitt nicht gibt. Analoge Halleffekte enthalten hingegen manchmal selber winzige reale Rume, z. B. bei Plate Reverb, Spring Reverb. Auch kleinere speziell konstruierte Gehuse oder Rume dienen manchmal zur Erzeugung von Halleffekten. Ebenso stellen Halleffekte, die mit Hilfe von Tonbandgerten erzeugt werden, eine eigene Kategorie analoger Halleffektgerte dar. Durch den geschickten Einsatz von Halleffekten kann der Eindruck von rumlicher Tiefe erzeugt werden: Signale in der Abmischung scheinen dadurch unterschiedlich weit entfernt vom Hrer zu liegen (Tiefenstaffelung). Auf diese Weise lassen sich Signale wesentlich besser in den Mix einbetten. Der Mix gewinnt quasi eine dritte Dimension.

112

Komprimieren des Bassbereiches ein Fall fr sich!

Die Beeinflussung der rumlichen Wirkung durch Halleffekte kann man mit einem Landschaftsbild vergleichen: Dort wird die Illusion von rumlicher Tiefe ja auch dadurch erzeugt, dass bestimmte Elemente rumlich "vorne" und andere "hinten" zu liegen scheinen, obwohl das Bild selbst zweidimensional bleibt. Hallzugabe stellt bei trocken klingenden Signalen eine ideale Ergnzung zur Panorama-Regelung dar. Ohne Tiefenstaffelung wrde das Panorma bei trockenen Signalen nmlich nur zweidimensional klingen. Die Signale wrden dann also wie auf einer Ebene wirken und nicht rumlich. Je grer der Reverbtail (dt.="Hallfahne") und die Halldauer und je kleiner der Anteil der Early Reflections (dt.="Frhe Reflexionen") und hohen Frequenzen ist, desto weiter entfernt wirkt das Signal. Es entsteht der Eindruck, das Instrument befnde sich in einem groen Raum. Je geringer der Anteil des Reverbtails und die Halldauer und je grer der Anteil von Early Reflections und hohen Frequenzen, desto nher wirkt das Signal. Es entsteht dann der Eindruck, das Instrument wre in einem sehr kleinen Raum bzw. unmittelbar vor dem Hrer. Der Einsatz von Halleffekten zielt heute meist gar nicht darauf ab, dass die Halligkeit als solche hrbar wird. Es geht meist nur darum, dem Signal um einen dreidimensionalen Klangcharakter zu verleihen, es in eine Rumlichkeit einzubetten, ohne dass der Raum wirklich als "Raum" oder gar Hallfahnen hrbar werden. Das wird durch sehr dezente Hallzugaben, genaues Abstimmen der Hall-Parameter und entsprechend hochwertige Hallprozessoren oder sogar reale Rumlichkeiten erreicht. Ein Hallgert wird also hufig eher im Sinne eines Soundtools, anstatt eines hrbaren Halls eingesetzt. Hallgerte knnen natrlichen Hall bzw. Raumklang nicht wirklich ersetzen und das mssen sie auch nicht. Signale in einen Mix werden spter in Rumen gehrt, die schon von sich aus viele frhe Reflexionen bilden und damit das Signal auf natrliche Weise weiter verhallen. Hallgerte erfordern deswegen ein etwas anderes Klangverhalten, als man es bei realen Rumen findet. Das zu 100 % mit Hall bearbeitete Signal (100 % Wet) wird grundstzlich per Sent- oder Aux-Bus auf der gewnschten Spur leise hinzugemischt und nicht ber den Insert zugefhrt. Grade den Hall auf einer Vocal-Spur soll man nicht bewusst als Hall wahrnehmen. Durch ein Pre-Delay von (je nach Tempo des Gesangs) ca. 10 bis 80 ms kann der Hallanteil etwas vom Gesang entkoppelt werden, was manchmal gewnscht ist, um den Klangkrper des Gesangs besser durchkommen zu lassen. Durch das verzgerte Einsetzen bleibt der Gesang (bei kurzer Halldauer) klarer. Ein zu trockenes, unbearbeitetes Signal erschwert jedoch die Einbettung in den Mix. Um den Gesang im Mix nher zu bringen, kann ein kurzes vor den Reverb geschaltetes Delay den Eindruck von Direktheit und Nhe verstrken. Besonders Gesang kommt nur mit sehr hochwertigen Hardware-Hall-Prozessoren wirklich gut zur Geltung. Schon die sehr beliebten Lexicon-Hallgerte der Oberklasse kosten teilweise bereits mehrere 1000 Euro. Es gibt zurzeit keine Softwarelsung, die an die Klangqualitt hochwertiger Hallprozessoren heranreichen kann. Ebenso stellen IRs (Impulse Responses) keine brauchbare Lsung dar. (Durch geschickte Effektkombinationen von zwei Software-Faltungs-Hallprozessoren, von denen einer die Early-Reflections, der andere die Hallfahne regelt, sowie einem Software-Delay-Effekt und einem Software-Hall-Prozessor ist es jedoch manchmal mglich, sogar mit Software einen zumindest brauchbaren Hall zu simulieren. Dieser wird natrlich dennoch nicht an die Qualitt von Halleffektgerte der Oberklasse [selbst ltester Modelle] heranreichen.)

113

Audio-Mastering-Guide

Parameter von Halleffektgerten


Early Reflections (ER, Frhe Reflexionen) Dieser Parameter kann meist separat geregelt werden. Erhht man den Anteil der ERs, gelangt ein Signal mehr in den Vordergrund. Reverb Tail (Hallfahne) Auch die Hallfahne lsst sich meist separat regeln. Erhht man den Anteil der Hallfahne, tritt das Signal mehr in den Hintergrund. Pre-Delay Regelt die Zeit vom Nutzsignal bis zum Einsetzen der ersten Reflexion (ER). Es stellt also die Verzgerungszeit bis zum tatschlichen Einsatz des Halls dar. Reverb Time (Halldauer)

Size, Room-Size (Raumgre) Damping (Bedmpfung) Bestimmt, wie viel vom Hhenanteil des Halls vermindert wird und simuliert dadurch die Bedmpfung des Halls. Dies ist also prinzipiell eine Art Low-Pass-Filter. Auerdem gilt: Weiter entfernte Signale besitzen weniger Hhen. Nhere Signale haben einen strkeren Hhenanteil. Width (Weite) Simuliert die rumliche Weite des Halls im Stereofeld. Wet/Dry (Hallbalance) Bestimmt, wie viel vom Signal mit Hall versehen wird (wet) und wie viel vom Signal unbearbeitet (trocken) bleibt (dry). Da man Halleffekte normalerweise im AUX- bzw. Sent-Kanal einsetzt, sollte der Wet-Anteil 100 % betragen.

Einsatz von Delay-Effekten


1 ms: Bei solch kurzen Delay-Zeiten kommt es schnell zu unschnen Phasenauslschungen. 230 ms: Durch einen sehr kurzes Delay von 230 ms kann ein Signal voluminser wirken und an Rumlichkeit und Prsenz gewinnen. 1135 ms: Bei Delays von 1135 ms kann es Problemen bei Mixen geben, die nur mono gehrt werden sollen. Da ein Delay oft nur sehr leise hinzugemischt wird, relativiert sich die Problematik mit dem Klang in Mono allerdings wieder.

114

Einsatz von Delay-Effekten

2035 ms: Ein hufig gewhlter Wert fr Vocals. Der Delay-Einsatz bei Vocal-Spuren ist heute eher dezent und soll zur Verbeiterung der Stimme beitragen. >3560 ms: Delay-Zeiten von 3550 ms wirken meist nur in Stereo gut.

Will man den Eindruck von Doppelungen erzeugen, whlt man Zeiten von ca. 3560 ms. Dies kann jedoch die Signalklarheit vermindern.

>60 ms: Fr extreme Effekte und bestimmte Stilarten wie Rockabilly interessant.

Beim Drumset sind Delay-Effekte eher nur bei Snare und Toms blich.

9.7 Exciter und Enhancer Neuer Glanz fr matte Tne!


Exciter fgen dem Signal zustzliche Obertne hinzu, indem sie ein knstliches Obertonspektrum generieren. Dadurch klingt das Signal transparenter, heller und gewinnt meist etwas an Lautheit. Das ist sinnvoll, falls Signale nach dem Durchlaufen langer Signalketten oder nach analogen Aufnahmen dumpf klingen und deswegen eine Auffrischung im Obertonbereich bentigen. Ebenso eignen sich Exiter fr bessere Verstndlichkeit von Sprachaufnahmen (verstrken dort aber auch Zischlaute und eventuelles Lispeln) und um die Einschwingphase (Attack) einzelner Instrumente hervorzuheben, wie z. B.: Anzupf- und Anschlaggerusche Anblasgerusche bei Blasinstrumenten Attack von Drums Bogenstrich und Pizzicato bei Streichern Beim Einsatz von Excitern sollte man mglichst sparsam sein. Der Effekt ist dann richtig dosiert, wenn erst durch das Ausschalten des Exciters "bewusst" auffllt, dass er vorher auf das Signal eingewirkt hat. Enhancer arbeite hnlich wie Exciter, blo werden hier Frequenzen betont, indem die Phasenlage der Frequenz gendert wird, wodurch diese dann lauter wirkt, ohne dafr per EQ angehoben werden zu mssen.

9.8 Saturationseffekte digital oder original?


Saturationseffekte sind digitale Effekte, die das Klangverhalten von Bandmaschinen oder analogen Verstrkern (im Sttigungsbereich) digital simulieren sollen. Sie werden manchmal zur Aufwertung digitaler Produktionen eingesetzt, wenn entsprechende analoge Hardware nicht zur Verfgung steht. Ihr Haupteinsatzgebiet ist dabei die Simulation von Bandsttigung oder bersttigungseffekten. Solche Simulationen sind im Bereich der Software-Plug-ins ihren analogen Vorbildern in der Regel haushoch unterlegen und stellen daher einen sehr groen Kompromiss dar.

115

Audio-Mastering-Guide

Bei Musikstilen wie Klassik und Jazz, die absolute Originaltreue des Signals erfordern, wird echte Bandsttigung normalerweise nicht eingesetzt. Hier wre dann ein per Hardware simulierter Bandsttigungseffekt, wie der Empiricial Labs FATSO jr., eine mgliche Alternative. Sofern man spter nicht selber mastern will, sollte man es dem Mastering-Engineer berlassen, ob und wie Saturation der Summe hinzugefgt wird. Dieser wird sie sicherlich nicht auf digitalem Wege erzeugen, sondern dafr eine Studiobandmaschine bzw. geeignetes analoges Equipment einsetzen.

9.9 Vom Rough-Mix zum finalen Mix

I. Abhrlautstrke
Bei hohen Schalldruckpegeln wird der Bassbereich lauter empfunden und dadurch besser durchhrbar. Dadurch kann es passieren, dass man die tiefen Frequenzen zu leise abmischt (insbesondere wenn diese durch eine schlechte Raumakustik sowieso zu laut klingen). Mixt man hingegen bei leisen Pegeln, neigt man hufig dazu, tiefe Frequenzen zu laut abzumischen. Bei 85 dBSPL ist die Lautheit (also die gehrte Lautstrke [psychoakustische Lautstrke]) fr die meisten Frequenzen am hnlichsten. Jedoch kommt es bei solch hoher Lautstrke auch schneller zur Gehrermdung, die dann zum regelmigen Einlegen von Pausen zwingt. Zudem kann eine Mischung, die bei 85 dBSPL optimal klingt, wenn man sie leiser hrt, eventuell nicht mehr ausgewogen genug klingen. Das Wiedergabeverhalten von Lautsprechern ist ab einer bestimmten Lautstrke (in vielen Fllen schon unterhalb von 85 dBSPL) nicht mehr linear. Trotz des "theoretisch" richtig gewhlten Abhrpegels kann es dann zur Fehleinschtzung der Abmischung kommen. In dem Lautstrkebereich, indem die eigenen Lautsprecher Signale nicht mehr linear genug wiedergeben knnen, sollte man daher gar nicht erst abmischen. Die Musik wird spter von den Hrern natrlich in allen mglichen Lautstrken gehrt und nicht nur bei 85 dB. Auch die Loudness-Funktion, die frequenzabhngige Lautheitsunterschiede bei geringerer Abhrlautstrke ausgleichen helfen soll, findet man nicht in jedem Wiedergabesystem. Deswegen ist es empfehlenswert, fr eine Abmischung verschiedene Schalldruckpegel als Referenz festzulegen (vgl. Kapitel "Mastering", "Kalibrierung der Studiomonitore").

116

Pegelangleichungen

II. Korrekturen Pegelangleichungen


Hat man beim Aufnehmen manche Spuren zu niedrig ausgesteuert, zeigt das Peakmeter des Kanalzugs eventuell nur noch an deren lauteren Stellen ein Signal an. Hat man manche Spuren zu hoch ausgesteuert, verdecken diese evtl. die leiseren Spuren so stark, dass man sie gar nicht mehr raushrt. Zu groe Signalpegel-Unterschiede sind also keine gute Ausgangsbasis zum Abmischen. Dieses Problem kann man zwar durch die Kanal-Fader ausgleichen, doch dann liefert die Position der Kanalfader schnell ein verwirrendes Bild, das den tatschlichen Lautheits-Eindrcken entgegensteht: Die Kanal-Fader der lauten Spuren befinden sich dann relativ weit unten, die Kanal-Fader der leisen Spuren hingegen weiter oben. Ebenso besitzen manche Spuren evtl. zu wenig Headroom (dt.="Aussteuerungsreserve"). Durch das Normalisieren der Spuren auf den gleichen Ziel-Pegel, lassen sich die Pegel-Unterschiede zwischen den Spuren etwas ausgleichen. Dabei sollte man einen Ziel-Pegel whlen, der ausreichend Headroom lsst. Doch auch wenn die Aufnahmen relativ gleichmig ausgesteuert wurden, kann man durch das Normalisieren den Headroom aller Spuren vereinheitlichen. Normalisiert man z. B. auf -6 dBFS wei man, dass man jede Spur nicht strker als 6 dBFS anheben kann, ohne dass durch mindestens eine Pegelspitze ein Clipping ausgelst wird. Ebenso ist es zum evtl. Limitieren und Komprimieren der Spur durchaus sinnvoll, die Hhe der hchsten Pegelspitze zu kennen.

DC-Versatz (DC-Offset)
Wenn analoges Musikequipment bei der Aufnahme nicht richtig aufeinander abgestimmt wird, kann eine zu groe Gleichstromkomponente im Audiosignal entstehen. Dadurch ist die Signal-Amplitude nicht mehr korrekt auf der Nullachse zentriert, der Amplitudenverlauf ist also versetzt. Das bezeichnet man deswegen als DC-Versatz (engl. "DC-Offset") oder Gleichstromversatz. Durch den DC-Versatz kann es z. B. Schwierigkeiten beim Komprimieren des Signals geben. Ein leichter DC-Versatz ist auf den ersten Blick (ohne starkes Einzoomen) nicht sichtbar. Obwohl ein Versatz zumindest bei rein digitalen Produktionen uerst unwahrscheinlich ist, sollte man das Material sicherheitshalber immer auf einen DC-Versatz prfen und diesen dann entfernen.

Audiosignal links mit und rechts ohne DC-Versatz

117

Audio-Mastering-Guide

De-Noising De-Humming De-Clicking


De-Noising: Bezeichnet das Entfernen von Strsignalen und Rauschen (engl. "noise"=Rauschen, Strsignal, Strschall). De-Humming: Bezeichnet das Entfernen von Netzbrummen (engl. "hum"=Brummton, Brummen). De-Clicking: Bezeichnet das Entfernen von Knacksern und Klickgeruschen (engl. "click"=Knackser, Klick). man Noise-Gates, gezieltes EQing oder spezielle

Fr diese Verfahren nutzt Audio-Restaurations-Software.

III. Mixing
Ein Musikstck muss man sich wie ein mehrfach-belegtes Sandwich vorstellen. Erst alle Teile zusammen im ausgewogenen Verhltnis ergeben einen guten Geschmack. Der Gesang steht dabei stets im Vordergrund, darf aber niemals entkoppelt vom Rest der Musik wirken. Er steht also weder zu weit "vorne" oder "hinten", noch ist er zu laut oder zu leise. Der (E-)Gitarrensound bewegt sich immer etwas unterhalb des Gesangs und ist scheinbar "zwischen" dem Gesang und den Drums eingebettet. Verzerrte E-Gitarrensounds neigen oft dazu, den Gesang zu verdecken und ragen manchmal unntig weit in den Bassbereich hinein. Neben Rhythmusgitarren dient oft auch ein Synthesizer-Flchen-Sound dazu, den Mix voller klingen zu lassen. Tiefe, voluminse Flchensounds knnen Gitarrensignale und den Gesang ebenfalls verdecken und mssen entsprechend EQed werden. Die Lautstrkeverhltnisse von Instrumenten im Mix knnen je nach Song und Stilrichtung unterschiedlich abgestimmt werden. Gitarren werden bei manchen Stcken und Musikrichtungen relativ leise im Mix platziert, bei anderen sind sie hingegen sehr dominant. Ebenso knnen die Drums sehr deutlich und facettenreich oder eben eher leise und hintergrndig abgemischt werden. Auch der Bass kann sich gut wahrnehmbar absetzen oder sich eher unauffllig in die Abmischung einfgen. Solche Eindrcke knnen je nach Wiedergabesystem auch etwas variieren. Das Fundament im Mix bilden die Drums, deren einzelne Bestandteile ein weites Frequenzspektrum abdecken. Der Drumsound und ein authentisch klingendes Drumming (engl.="Schlagzeugspiel") sind sehr entscheidend fr den professionellen Charakter einer Produktion. Toms, Bassdrum und Snare knnen leicht Frequenzbereiche anderer Instrumente und des Gesangs verdecken. Die Low-Tom kann dabei sogar tiefer als eine Bass-Drum reichen. Die Cymbals (Becken) knnen sogar Frequenzen bis zu 21 kHz produzieren und dadurch auch schnell zu dominant wirken.

118

Vorbereitungen

Songelemente im Mix Wie man sieht, dominiert entweder die Bass-Drum oder der Bass das Bassfundament im Mix.

Vorbereitungen

Der Masterregler steht beim Abmischen immer auf 0 dBFS. Falls nicht, kann Clipping eventuell nicht mehr angezeigt werden. Die Einzelkanalzge des Mischpults sollten vor dem Mixen ganz heruntergeregelt werden. Das ist jedoch nicht zwangslufig notwendig. Wenn sich schon whrend des Recordens ein erster "Rough-Mix" ergeben hat, kann man diesen in vielen Fllen als Ausgangsbasis nutzen. Das verwendete digitale Mischpult sollte intern mit mglichst hoher Bit-Auflsung arbeiten, um Rundungsfehlern durch die digitale Bearbeitung einzuschrnken (Mix Engine). Total Recall: Alle Parameter eines Kanalzugs, z. B. Effektbelegung der Spur, Aussteuerung des Faders usw. knnen in den meisten digitalen Mischpulten abgespeichert werden. Ansonsten sollte man sich die Einstellungen notieren. Volumen-Automatisierung: Durch Einzeichnen einer Volumen-Kurve bzw. Automatisierung des Kanal-Faders lsst sich der Signalpegel sehr gut anpassen. Ebenso kann man unterschiedliche laute Passagen schneiden, und den Signalpegel dieser Abschnitte neu einstellen. Dabei ist es wichtig, den Schnitt stets in Nulldurchgngen anzusetzen und gegebenenfalls Crossfades einzusetzen, damit keine Knackser an der Schnittstelle entstehen. Referenz: Um den Mix besser beurteilen zu knnen, sollte verschiedene Referenz-Studio-Produktion des gleichen Genres zum Vergleich herangezogen werden. Diese sollten ein mglichst "audiophiles" technisches Klangbild besitzen. Abmischen per Studio-Kopfhrer: Um den gesamten Frequenzbereich einer Abmischung per Kopfhrer richtig einschtzen zu knnen, bentigt man Kopfhrer mit mglichst linearen bertragungsverhalten. Kopfhrer sind sehr hilfreich, um Feinheiten besser rauszuhren und einen Eindruck zu gewinnen, wie der Mix unabhngig von raumakustischen Einflssen klingt. Das Vorurteil, dass man Kopfhrer nicht zum Abmischen einsetzen kann, sind weit verbreitet und etwas bertrieben. Natrlich sind schnfrbenden oder basslastigen Kopfhrer zum Abmischen

119

Audio-Mastering-Guide

komplett ungeeignet. Ebenso klingt eine Abmischung ber Kopfhrer etwas anders als beim Hren ber Monitore. Doch: Auch ber Kopfhrer kann man die Lautheit der Spuren beurteilen, auch ber Kopfhrer kann man die Verteilung der Spuren im Panorama einschtzen und auch ber Kopfhrer kann man beurteilen, ob etwas zu hhenlastig, drhnend, muffig oder in anderer Weise unausgewogen klingt. Nicht zuletzt klingen auch amtliche Produktionen selbst ber die schnfrbendsten Kopfhrer noch relativ gut. Dort klingen z. B. die Hhen also nicht pltzlich "beiend" und "kratzig", nur weil ein Kopfhrer hhenbetonter ausgelegt ist. Es kann sogar sehr hilfreich sein, auch mit ganz normalen billigen Kopfhrern gegenzuhren. Ein Beispiel fr einen relativ "neutralen" professionellen Kopfhrer zum Abmischen ist der Equation RP-21.

Abmischen per Studio-Monitoren: Die Monitore mssen so gut sein, dass sich dort erstellte Mixe optimal auf andere Wiedergabesystemen "bersetzen", also auch dort noch relativ ausgewogen klingen. Nicht zu leise abmischen: Pegelt man z. B. eine Spur in 16 Bit Audio beim Abmischen auf durchschnittlich -40 dBFS aus, ist es sehr wahrscheinlich, dass deren leiseren Pegelanteile den Signal-to-Error-Ratio bersteigen und dadurch Quantisierungsrauschen hervorrufen. Exportiert man eine derart leise abgemischte Spur und erhht auf der Summe durch Kompression u. . nachtrglich den Pegel, wird das Quantisierungsrauschen durchaus strend hrbar und lsst sich nicht mehr nachtrglich entfernen. Zu leise ausgesteuerte Spuren knnen ebenfalls Probleme machen, wenn sie mit Outboard-Equipment re-recordet werden sollen und das Outboard-Equipment ein hohes Grundrauschen besitzt. Das Rauschen kann dann auf dem re-recordeten Track hrbar werden.

EQing- und Kompressor-Tabelle - Frequenz- und Dynamikbearbeitung einzelner Instrumente


Hufig findet man bei Tabellen zum EQing sehr pauschale Anleitungen wie "bei 8 kHz +3 dB fr mehr Biss" usw.) Solcherlei Umschreibungen knnen zur Annahme verleiten, dass sich mit der empfohlenen EQ-Einstellung tatschlich ein Klangeindruck "hinzufgen" oder steigern lsst, der der jeweiligen Umschreibung entspricht. Was aber, wenn der Eindruck, dass das Signal "mehr Biss" erhlt, gar nicht entstehen kann, weil die Aufnahme bzw. der Klang des Instruments solch einen Klangeindruck gar nicht hergeben? Was, wenn der Eindruck, dass das Signal "mehr Biss" erhlt, bei einer anderen Frequenz viel eher zutreffen wrde? Was wre, wenn eine Frequenzanhebung um 3 dB nicht ausreicht oder gar zu viel wre, um den klanglichen Eindruck, dass es "mehr Biss" htte, entstehen zu lassen? EQ-Einstellungen, die bei einem Audio-Signal zu den gewnschten Resultaten fhren, lassen sich nicht pauschal 1:1 auf jede andere Produktion bertragen.

120

Strende Resonanzen finden

Ein Instrument hat bestimmte Frequenzbereiche, innerhalb derer man fr das Instrument typische Klangaspekte finden kann. Manche Klangaspekte knnen dabei bereits schon in der Aufnahme prsent genug sein, andere wiederum sind zu schwach oder gar nicht vorhanden. So kann dann z. B. das Befolgen eines pauschalen EQ-Tipps, der z. B. bei 100 Hz eine 5 dB-Anhebung fr "mehr Druck" vorsieht, bei der einen Produktion genau richtig sein, bei der anderen zu Drhnen im Bassbereich fhren. Deswegen bringt es in den allermeisten Fllen absolut nichts, EQ-Einstellungen, die fr eine fremde Produktion ideal gewesen sein mgen, einfach 1:1 fr die eigene Produktion zu bernehmen.

Strende Resonanzen finden


Resonanzfrequenzen gelten grade bei Drumaufnahmen als problematisch, da Resonanzen der Drumkessel oft ein drhniges, strendes Klangbild erzeugen. Drumsamples sind hingegen in vielen Fllen bereits nachbearbeitet und dadurch bereits von solchen strenden Resonanzen bereinigt.

Sweeping berschtzte Methode


Manchmal wird empfohlen, Resonanzen durch extrem schmalbandige Frequenzanhebungen mit + 15 dB aufzuspren. Dabei wird das Frequenzspektrum langsam mit dem EQ durchlaufen. Bei dem Frequenzbereich, bei dem sich ein "besonders" hohler und schriller Klang ergibt, soll dann eine Resonanzfrequenz liegen. Diese Vorgehensweise bezeichnet man als Sweeping. Durch solch extrem hohe Frequenzanhebungen klingen bei fast jede Frequenz und besonders bei Low Budget-EQs hohl und schrill (sog. Boost-Effekt). Deswegen ist das Sweeping keine sichere Methode, um Resonanzfrequenzen aufzuspren. Resonanzfrequenzen lassen sich etwas leichter finden, wenn man die Spur im Zusammenhang mit den anderen Spuren hrt und verschiedene EQ-Einstellung ausprobiert. Man wird nmlich eine gewisse Klangverbesserung heraushren, sobald man eine strende Resonanzfrequenz abregelt. (Typische Frequenz-Bereiche fr Kesselresonanzen bei akustischen Drumsets sind in der nachfolgenden Tabelle brigens angegeben.)

Zur Tabelle
Die "Minus"-Spalte der Tabelle umfasst Frequenzbereiche, die meist bedenkenlos abgesenkt bzw. komplett ausgeregelt werden knnen. In der daneben liegenden Spalte wird angegeben, welche Klangeigenschaften eines Instruments mit welchen Frequenzbereichen assoziiert werden knnen. Diese charakteristischen Frequenzbereiche sind tendenziell fr eine Anhebung geeignet. In der Spalte "Pan" findet man Empfehlungen fr die Platzierung im Panorama (mittels Panpot-Regler). Der Tabellenabschnitt Kompression ist bewusst rudimentr gehalten. Dort werden berwiegend nur geeignete Ausgangswerte fr Attack- und Release- angegeben. Die Wahl geeigneter Ratio- und Threshold-Werte setzt nmlich voraus, den Verlauf der Signalamplitude der jeweiligen Spur sehen zu knnen. Der ist jedoch oft sehr unterschiedlich, weshalb pauschale Empfehlungen hier nur selten und nur bedingt Sinn machen.

121

Audio-Mastering-Guide

Viele Synthesizersounds und Sounds von Sample-CDs sind bereits stark komprimiert. Sofern sie beim recorden mit mglichst wenig Dynamik eingespielt wurden (Anschlagstrke), ist meist nur wenig oder keine Kompression erforderlich.

E-GITARRE
EQing LC ab ~ 90120 Hz abwrts Hhen E-Gitarren haben bei ca. 100 Hz noch genug ~ 38 kHz Bassanteil. Druckbereich und Tiefe Auch bei hheren Frequenzen mglich, z. B. wenn ~ 80 Hz ~300 Hz eine Gitarre nur in sehr hohen Lagen spielt. Solis berschneidungsbereich mit Vocals 8001000 Hz schriller, kratziger Sound ~ 16 kHz Kompression (Bei stark verzerrten Sounds ist keine Kompression notwendig.) Attack ~ 510 ms Release ~ 80200 ms Ratio Hauptspur und Doppelungen mglichst symmetrisch im Panorama verteilen. Vollerer Sound Doppelungen stark nach recht und links pannen. Soli eher 12 Uhr Pan

A-GITARRE
EQing Tiefen (~ 80120 Hz) Volumen (~ 250 Hz) Hhen (und Saitensound) (~ 815 kHz) Griffgerusche (~ 4.56 kHz) Kompression Attack ~ 10 ms Release ~ 200 ms Ratio Pan

122

Sweeping berschtzte Methode

E-BASS
EQing LC meist alles < 40 Hz Druck Je nachdem ob der Bass im Frequenzbereich unter oder oberhalb der Bassdrum sein soll, wird innerhalb von 40110 Hz ein passender schmaler Frequenzbereich entsprechend hervorgehoben. Mitten und Definition ~ 400500 Hz Anschlag, Slap Saitengerusche, Plektrum ~ 1.55 kHz; schmalbandig Kompression Attack Release Ratio 12 Uhr Pan

Geslapte Tne: krzerer Attack und hherer Ratio

Kurze Tne: ~ 3 ms Lange Tne: max. 1 Sek

BASS-DRUM
EQing LC ab ~ 50 Hz abwrts Kesselresonanzen ~ 200500 Hz mehrere breitbandige Absenkungen ~ 600800 Hz mehrere schmalbandige Absenkungen Kick ~ 15 Hz Druckpunkt ~ 50100 Hz Bei Electro, Hip-Hop u. . tiefer als bei Rock/Pop. Fell ~ 800 Hz Hhen ~ 812 kHz Kompression Attack ~ 250 ms Popmusik: ~ 2 ms bei ~ 4:1 Ratio Schnellere Songs: ~ 510 ms bei ~ 8:1 Ratio Hrtere Genres: kurzer Attack und Release Release ~ 50300 ms Ratio 12 Uhr Pan

123

Audio-Mastering-Guide

SNARE
EQing LC, Snare Schlagfell (top) ~ 100 Hz LC, Snare (bottom) ~ 80 Hz Kesselresonanzen ~ 250800 Hz, ~ 12 kHz Oft mehrere Absenkungen ntig. Druck ~ 150200 Hz Anschlag ~ 35 kHz Pappiger Klang ~ 400500 kHz Hhen ~ 10 kHz 1415 Uhr Pan

Kompression Attack Popmusik: ~ 2 ms (bei ~ 1 Sek. Release und ~ 4:1 Ratio) Pegelspitzen werden schneller abgesenkt. Geeignet um den Sound softer zu gestalten. Tanzmusik: ~ 515 ms (bei kurzem Release und ~ 4:1 Ratio) Pegelspitzen werden weniger schnell abgesenkt. Attack bleibt erhalten. Hrtere Genres: Kurzer Attack (bei ~ 2 Sek. Release und ~ 8:1 Ratio) Release ~ 200 ms max. 2 Sek. Ratio

HI-HAT
EQing LC (ab ~ 500 Hz abwrts) Auch abhngig davon, ab wann und wie stark bersprechende Drumbestandteile hrbar sind Metallischer Sound 8001500 Hz Kompression Anschlag ~ 34 kHz Hhen ~ 815 kHz 12 oder 15 Uhr Pan

124

Sweeping berschtzte Methode

TOMS
EQing LC ab ~ 150 Hz abwrts Kesselfrequenzen ~ 200300 Hz Oft Absenkungen ntig Kompression Falls sich Toms nicht durchsetzen Attack ~ 520 ms Release 150 ms1 Sek Ratio Druck ~ 80120 Hz Anschlag (und Fell) ~ 16 kHz Low Tom: 10 Uhr Middle Tom:12 Uhr High Tom: 13 Uhr Pan

OVERHEAD (Drumset/Cymbals)
EQing LS ~ 100; ~ 300 Hz abwrts Abhngig davon wie viel vom Rest des Drumsets zu hren sein soll. LC ab ~ 40 Hz abwrts ~ 400600 Hier strende Frequenzen schmalbandig abregeln Hhen ~ 615 kHz, auch: ~ 1 kHz Anschlag ~ 67 kHz Abbildung des gesamten Sets 12 Uhr Abbildung der Cymbals Linke Cymbals: links Rechte Cymbals: rechts (Aus Sicht des Hrers vor dem Drumset, nicht aus Sicht des Drummers!) Pan

Kompression Attack Release Ratio

125

Audio-Mastering-Guide

VOCALS (GESANG)
EQing LC ab ~ 6080 Hz abwrts Zisch- und S-Laute ~ 57 kHz; schmalbandig Prgnanzbereich (stimmhafte Konsonanten) ~ 14 kHz Artikulationsbereich ~ 38 kHz Eine Anhebung kann hier einen offeneren Sound erzeugen. ~ 26 kHz; ~ 46 kHz evtl. im Chorus anheben. Bei Backing-Vocals absenken. Hauptstimme 12 Uhr, mono Doppelungen leise rechts und links im Panorama verteilen. Pan

13 kHz evtl. absenken

Nahbesprechungseffekt 300 Hz Hhen 1112 kHz Grundtonhhe mnnlich: ~ 120160 Hz weiblich: ~ 230330 Hz Vokale: 2502000 Hz Kompression (Meist mit mittlerer Ratio von z. B. 4:1. Anstatt mit einem Kompressor knnen Pegel bei groen Dynamischwankungen auch erst einmal manuell angeglichen werden.) Attack ~ 250 ms hohen Stimmen und Sprache: eher kurzer Attack- und Release Release ~ 502 Sek. Ratio

PIANO (FLGEL)
EQing LC ab ~ 80 Hz abwrts Hhen ~ 1015 kHz Tiefen ~ 60160 Hz Kompression Attack Release Ratio Tiefe Tne: links Hohe Tne: rechts Pan

126

Exemplarischer Ablauf eines Mixings

STRINGS (STREICHER)
EQing Flle ~ 200300 Hz Hhen ~ 711 kHz Kompression Attack Release Ratio Pan

BLASINSTRUMENTE
EQing Flle ~ 100300 Hz Hhen ~ 48 kHz Kompression Attack ~ 1050 ms Anblasgerusche: lngerer Attack zur Hervorhebung Release ~ 300 ms Ratio Pan

~ LC LS < >

circa (ca.) Low-Cut Low-Shelf weniger als... oder gleich weniger als... grer als oder gleich grer als...

Exemplarischer Ablauf eines Mixings


Man kann das Abmischen prinzipiell von jedem beliebigen Instrument in der Abmischung beginnen. Je nachdem, welche Reihenfolge fr einen selber den besten Workflow darstellt. Da der Gesang bei fast jedem Genre im Mittelpunkt steht und sich der Rest des Stckes "drum herum" aufbaut, ist es oft auch empfehlenswert, das Abmischen mit dem Gesang zu beginnen. Im nachfolgenden Beispiel bilden jedoch Bass und Bass-Drum den Ausgangspunkt der Abmischung.

127

Audio-Mastering-Guide

Natrlich werden beim Abmischen auch einzelne Instrumentengruppen separat fr sich gehrt und abgemischt: Vocal-Mix (Hauptstimme mit Doppelungen und evtl. Background-Vocals) Gitarren-Mix Drum-Mix bzw. Drum-and-Bass-Mix u. a. Um passende Einstellungen zum EQen, die Verteilung im Panorama und gegebenenfalls fr die Kompression zu finden, dient die Tabelle aus dem vorherigen Abschnitt als Hilfestellung. 1. Bass und Bassdrum abmischen Low-Cut-Filter (High-Pass) Bass und Bass-Drum sind normalerweise die basslastigsten Signale einer Abmischung. Entfernt man dort die berflssigen Bassanteile bereits beim Abmischen, wird die Abmischung besser durchhrbar. So wird ein an sich berflssiger oder unhrbarer Bassbereich auch gar nicht erst bei der RMS-Pegelanzeige bercksichtigt, was zu aussagekrftigeren Messergebnissen fhrt. Beim nachfolgenden Mastering kann das eventuell auf einen Low-Cut auf der Summe verzichtet werden.

Setzt man den Low-Cut im Bassbereich nicht zu tief an, kann man auf den Einsatz von Monitor-Subwoofern verzichten. Bei einem Low Cut ist stets darauf zu achten, dass er steil genug verluft, ohne darber liegende Frequenzen zu stark (bzw. zu weitrumig) zu beeinflussen. Bei hoher Steilflankigkeit (slope) des Low Cut-Filters erfolgt der Low-Cut nmlich nicht wirklich sauber ab der Centerfrequenz, sondern beeinflusst auch noch die benachbarten hheren Frequenzen. Diese werden bei sehr hoher Steilflankigkeit meist strker mit abgesenkt. Dann ist es sinnvoll, eine niedrigere Steilflankigkeit zu