Michael Horn

Audio-Mastering-Guide

Dieses Werk ist in seiner Gesamtheit und in Teilen notariell urheberrechtlich geschützt worden. Jede Verbreitung, photomechanische, elektronische oder vertonte Wiedergabe, Vervielfältigung, Verwertung, Übersetzung, auch auszugsweise, bedarf der ausdrücklichen schriftlichen Genehmigung des Verfassers. Dies gilt auch für jede Art der Digitalisierung und Einspeisung in Datennetzen. Alle im Rahmen des Werkes genannten und genutzten und ggf. durch Dritte geschützten Marken- und Warenzeichen unterliegen uneingeschränkt den Bestimmungen des jeweils gültigen Kennzeichenrechts und den Besitzrechten der jeweiligen eingetragenen Eigentümer. Allein aufgrund der Nennung ist nicht der Schluss zu ziehen, dass Markenzeichen nicht durch Rechte Dritter geschützt sind. Dieses Werk dient nur zu Informationszwecken. Es wurde mit größter Sorgfalt gearbeitet, dennoch können Unrichtigkeiten nicht ausgeschlossen werden. Für eventuelle inhaltliche Fehler und deren Folgen wird keine Haftung übernommen. Der Autor behält sich das Recht vor, dieses Werk jederzeit ohne Vorankündigung zu ändern. Alle Verwertungs- und Veröffentlichungsrechte dieses Werkes liegen allein beim Verfasser. Dieses Buch dient in seiner elektronischen Form (E-Book) nur dem privaten Besitz, es darf – auch auszugsweise – nicht an Dritte weitergegeben werden. Vervielfältigung, Verbreitung, Wiedergabe, Verleih, Verkauf sind strengstens untersagt. Durch ein Anbieten dieses E-Books, egal in welcher Form, machen Sie sich strafbar. Grafiken und Bilder werden in diesem Buch nur dort eingesetzt, wo sie wirklich Sinn machen. Dadurch ist es druckfreundlich und bietet sehr viele Infos bei einer noch überschaubaren Seitenzahl. Der Textsatz wurde so gewählt, dass ein ansprechendes Schriftbild entsteht und dennoch viel Text untergebracht werden konnte, ohne die Gesamtseitenzahl ausufern zu lassen. Übertragen auf Normseiten hätte dieses Buch gut 500 Seiten. Dieses Buch verwendet die progressive deutsche Rechtschreibung. Bei Alternativen wurde eher die progressive Variante gewählt.

Audio-Mastering-Guide, vollständig aktualisierte Fassung (Juni 2012) Copyright © 2005–2013 by Michael Horn Herausgeber: Arrange Projektstudio Autor: Michael Horn Umschlaggestaltung: Michael Horn Satz und Lektorat: Michael Horn

INHALT

1. Einführung - Mixing, Mastering, Pre-Mastering

10

1.1 Mixing (Abmischung) Automatisierung Spuren-Routing Total Recall – (Nein, nicht der Film....) Für die einen ist es ein Mixdown, für die anderen ein Trackbouncing... 1.2 Was ist Mastering und wann macht es Sinn? Typische Bestandteile eines Masterings Vorbedingungen und Effizienz Warum das Konzept "loudness race" nicht aufgeht Wie man es sich erzählt – Ursprünge der Dynamikbearbeitung 1.3 Was ist Pre-Mastering und wann macht es Sinn? Pre-Mastering und technisches Mastering Zielformate 1.4 Wer kann was...!? – Vom Tontechniker bis zum Mastering-Engineer
2. Psychoakustische Grundlagen
– Wie psychoakustische Phänomene die Wahrnehmung von Musik beeinflussen

10 11 11 12 12 13 13 14 14 17 17 17 19 20

23

2.1 Wichtige psychoakustische Phänomene Lautstärke? – Ansichtssache! Verdeckungseffekt (Maskierung) Schwebungen – Wenn zwei sich aneinander reiben, werden sie manchmal auch eins Residualton – Hören, was nicht da ist... Gehörgewöhnung (Adaptation) – Alles reine Gewöhnungssache... Absolutes Gehör (Tonhöhengedächtnis) – Nicht nur für Mozart! Selektives Hören (Cocktail-Party-Effekt) – Wahrnehmung schafft Wirklichkeit
3. Frequenz und Lautstärke

23 23 23 24 24 24 24 25
27

3.1 Frequenz (Tonhöhe) Hertz (Hz) Phase Hörumfang Frequenzbereiche und ihre Charakteristika 3.2 Lautstärke (Schalldruckpegel) und Signalpegel Amplitude Messung des Pegels Schalldruckpegel-Angaben in Pascal (pa) und dBSPL Signalpegel in dBu

27 27 27 28 29 29 29 30 30 31

dB-Angaben mit Bewertungsfilter Von der Hörschwelle zur Schmerzgrenze... Tabelle: Lautstärke (in dBA) von Schallereignissen – Ohne Bezug auf den Hörabstand ziemlich sinnlos! Lautheit (psychoakustische Lautstärke) – Alles ist genauso laut, wie du es hörst... Phon und Sone – ... aber messen wollen wir es trotzdem! dB RMS Digitaler Signalpegel in dB Full Scale (dBFS) – Wenn aus Spannung plötzlich Zahlen werden... 3.3 Signal-Übersteuerungen (Clipping) Übersteuerungen im digitalen Bereich Übersteuerungen bei digitalen Wiedergabegeräten Übersteuerungen im analogen Bereich 3.4 Signalpegelmessung (Metering) Peakmeter (PPM) und VU-Meter Skalierungen von Peakmetern – Eine Vielzahl von Definitionen 3.5 Frequenzabhängige Lautstärkewahrnehmung (Kurven gleicher Lautstärkepegel) Gehörrichtige Lautstärke-Entzerrung (Loudness, Contour)
4. Grundlagen in Digital-Audio – Analog wird digital!?

31 32 33 34 35 36 36 36 36 37 38 39 39 39 42 43
44

4.1 Digitalisierung (A/D-Wandlung) Sampling und Samplerate – Abtastung mal häppchenweise! Quantisierung und Bitrate – Rein ins Schema! Bitrate und Samplewert 4.2 Dynamikumfang (Systemdynamik) Signal-to-Error-Ratio – Nicht immer praxistauglich! Signal-Rausch-Abstand, Signal-to-Noise-Ratio (SNR) Störspannungs- und Geräuschspannungs-Abstand – Je nach Messmethode! Footroom und Headroom – Abstandshalter...! 4.3 D/A-Wandlung (Digital-Analog-Conversion, DAC) 4.4 Fehlerquellen im digitalen Bereich und Lösungsansätze Rundungsfehler, Quantisierungsfehler Berechnungen im Fixkomma- und Gleitkommaformat Quantisierungsrauschen Sampling-Jitter – Das unterschätze Problem Aliasingeffekt Argumente für 96 kHz Argumente gegen 96 kHz 4.5 Auf dem Weg zur CD Red-Book-Format und Bitratenkonvertierung Der Re-Quantisierungsfehler Truncation – Einfach "Wegschneiden"? 4.6 Dithering – Sinn oder Unsinn? Noiseshaping Die wichtigsten Dither-Algorithmen 4.7 Was ist besser? – Digital oder Analog? 4.8 Auf dem Abweg zur MP3

44 44 45 47 47 48 49 49 49 49 50 50 50 51 51 52 52 53 54 54 54 54 55 56 56 57 58

5. Dynamikbearbeitung

60

5.1 Audio-Kompression (Audio-Compression) (Downward)-Kompression 5.2 Kompressor-Parameter Threshold und Ratio (Schwellenwert und Kompressionsgrad) Attack und Release (Ansprechzeit und Abschwellzeit) Make-Up-Gain und Auto-Gain Hard Knee und Soft Knee Ducking 5.3 Arten von Audio-Kompressoren Optokoppler-Kompressoren – behutsam! Multiband-Kompressoren – Mehr Möglichkeiten, mehr Risiken! Vintage-Kompressoren Limitierung (Limiting) – Grenzen setzen! Brickwall- und Soft-Limiting 5.4 Upward-Kompression 5.5 Audio-Expansion Downward- und Upward-Expansion 5.6 Normalisierung (Normalising)
6. Frequenzbearbeitung

60 60 61 61 62 63 63 64 64 64 64 64 65 66 66 66 66 67
69

6.1 EQing (Equalization) 6.2 EQ-Parameter Filtergüte und Q-Faktor (Q), Bandbreite (N) Flankensteilheit (slope) Wirkungsgrad (Gain, Range) 6.3 EQ-Filtertypen Filterverhalten bei Low- und High-Cut-Filtern 6.4 Arten von Equalizern Parametrischer EQ – halb oder voll? Graphischer EQ – Alles auf einen Blick! Para-graphischer EQ Linearer EQ Umrechnung der Bandbreite (N) in den Gütefaktor (Q)
7. Raumakustik – mehr Platz für Musik!

69 69 69 69 70 70 72 73 73 73 74 74 74
76

7.1 Schall Direktschall – Direkt von der Quelle Reflexionsschall Schallabsorption – Den Schall schlucken Schallhindernisse Schallbeugung (Diffraktion) und Schallbrechung (Refraktion) Hall – Early Reflections – Pre-Delay – Echo Raumeigenmoden Flatterechos 7.2 Schalldämpfung

76 78 78 78 79 79 79 79 80 80

Poröse Absorber Porösität Strömungswiderstand (R) Lochplatten-Absorber (perforierte und mikroperforierte Absorber) (Mikroperforierte) Folien-Absorber Schlitzplatten-Absorber Resonatoren Plattenresonatoren (Plattenschwinger) Helmholtzresonatoren 7.3 Versatzkonstruktionen 7.4 Diffuser Raumklang (Diffusität) 7.5 Akustik des Regieraums LEDE – tot und lebendig! Nachhallzeit 7.6 Schluss mit lärmenden Recording-PCs – wie man seinem PC das Schweigen beibringt, ohne ihn auszuschalten... PC-Lüfter Mainboard Festplatten CD-, DVD-Laufwerke Silent-PC-Gehäuse Anforderungen an den PC
8. Studiomonitore (Abhörmonitore)

81 81 81 82 83 83 83 83 83 84 84 85 85 90 91 91 93 93 93 93 95
96

8.1 Aufstellung von Studiomonitoren 8.2 Nahfeldmonitoring – Musik aus nächster Nähe 8.3 Eigenschaften von Studiomonitoren Frequenzgang Neutraler Klang bei Lautsprechern? Impulsverhalten Aktive und passive Frequenzweichen Lautsprechergehäuse Membranmaterial
9. Mixing

96 97 98 98 98 101 101 102 102
103

9.1 Klangqualität der Aufnahmen 9.2 Bitrate und Samplerate beim Mixing 24 Bit gegenüber 16 Bit Verschiedene Sampleraten im Vergleich Destruktive und non-destruktive Signalbearbeitung 9.3 Grundsätzliche EQ-Techniken beim Mixing Kompletives EQing – Wie man Frequenzbereiche unterschiedlicher Signale aufeinander abstimmt Subtraktives EQing – Wie man Frequenzbereiche indirekt hervorhebt 9.4 Grundsätzliches zum Einsatz von Kompression beim Mixing Komprimieren von Einzelspuren Komprimieren des Bassbereiches – ein Fall für sich! 9.5 Stellung im Panorama (Panning)

103 104 104 104 105 105 105 106 108 108 110 111

9.6 Mehr Tiefenstaffelung durch Reverb und Delay Parameter von Halleffektgeräten Einsatz von Delay-Effekten 9.7 Exciter und Enhancer – Neuer Glanz für matte Töne! 9.8 Saturationseffekte – digital oder original? 9.9 Vom Rough-Mix zum finalen Mix I. Abhörlautstärke II. Korrekturen Pegelangleichungen DC-Versatz (DC-Offset) De-Noising – De-Humming – De-Clicking III. Mixing Vorbereitungen EQing- und Kompressor-Tabelle - Frequenz- und Dynamikbearbeitung einzelner Instrumente Störende Resonanzen finden Sweeping – Überschätzte Methode Exemplarischer Ablauf eines Mixings 9.10 Monokompatibilität und Korrelationsgrad 9.11 Mixdown, Summierung Analoges Summieren Aussteuerung des Signalpegels beim Mixdown 9.12 Ziel-Formate
10. Summenbearbeitung

112 114 114 115 115 116 116 117 117 117 118 118 119 120 120 121 121 127 133 133 133 134 134
135

10.1 Mastering Sicherungskopie Projekt-Workflow A/B-Hören Kopfhörer beim Mastern? Kalibrierung der Studiomonitore I. Überprüfung auf DC-Versatz II. Überprüfung auf Monokompatibilität III. Sweetening – Tontechnischer Zuckerguss! Transparente EQ-Bearbeitung Reihenfolge von EQing und Kompression IV. Optimierung des Frequenzgangs Korrekturen im Bassbereich Low- und High-Cut EQing beim Mastering V. Optimierung der Lautheit Multiband-Kompression Layback-Mastering Kalibrierung von Bandmaschinen

135 137 137 137 139 139 140 140 140 140 140 140 140 141 142 142 145 146 148

VI. Weitere Effekte beim Mastering Exciter und Enhancer Summen-Hall VII. Limitieren 10.2 Pre-Mastering I. Re-Sampling II. Konvertierung der Bitrate, Dithering III. Normalisieren der Musikzusammenstellung IV. Tracklist – Mit der richtigen Tracklist Wirkung erzielen V. PQ-Editing Subindizes ISCR-Codes Kopierschutz-Flags CD-Text VI. Fade-Outs und -Ins als Gestaltungsmittel (Spacing) VII. Erstellen einer Pre-Master-CD DAO & TAO-Schreibweise Die CD als Pre-Master-Medium Exkurs: Audio-CD und CD-R – Mastern auf CD-R? Qualität von CD-Rs Qualitätsgrad und CD-Fehlerspezifikationen Beschichtungen (Dye) Handhabung EAN- und UPC-Code Erstellen von mp3s
11. Musikrecht

149 149 149 149 151 153 153 153 155 156 156 156 156 157 157 157 157 158 159 159 159 160 161 161 162
164

11.1 Urheberrecht 11.2 Vervielfältigungs-, Verbreitungs-, Veröffentlichungsrecht 11.3 Verwendung des Copyright-Vermerks 11.4 Häufige Irrtümer über den Beleg der Urheberschaft 11.5 Gemeinsame Urheberschaft 11.6 Urheberschutz von Arrangements 11.7 Plagiate Wirksamer Schutz vor Plagiarismus Plagiarismus – Panikmache?!
Anhang 169

164 164 165 165 165 166 166 166 167

432 Hertz – Musik in neuen Tönen Argumente für einen neuen Kammerton mit a1=432 Hz Nachwort

169 169 172

Wichtige Maßeinheiten und Formeln sind (bei deren erster Erwähnung) im Text blau markiert. So können Sie sich diese besser einprägen. Fachbegriffe (sofern nicht bereits Bestandteil einer Überschrift) sind im Text fett hervorgehoben, um sie beim Nachschlagen schneller zu finden. Im Register finden Sie eine Übersicht vieler Fachbegriffe. Ausgelassen wurden dabei Begriffe, die bereits in einer Überschrift stehen und dadurch ja schon auf die entsprechenden Kapitel verweisen, in denen diese Fachbegriffe erklärt werden. – Das Register dient also als Ergänzung. In den Fußnoten werden einige Inhalte ergänzt oder vertieft. Diejenigen, die solche Vertiefungen nicht benötigen, müssen die Fußnoten nicht mitlesen. – Daraus ergeben sich keine Nachteile für die praktische Anwendbarkeit dieses Buches. Dieses Buch ist so gegliedert, dass alle Themen so logisch und nachvollziehbar wie möglich aufeinander aufbauen. Man es dennoch auch sehr gut quer lesen. Bei meinem anderen Buch, dem Audio-Recording-Guide, liegt der Schwerpunkt auf Recording, Aufnahmeakustik und Mikrofonierung.

1. Einführung - Mixing, Mastering, Pre-Mastering
1.1 Mixing (Abmischung)
Wenn man ein Mischpult sieht, weiß jeder, was damit gemacht wird. Genau das, was der Name schon sagt: Man mischt damit. – Darf diesen Vorgang aber auch als "abmischen" (engl.=to mix) oder "mixen" bezeichnen. Substantiviert macht man daraus im Englischen den Begriff "Mixing" (dt.=Abmischen) und bezeichnet das Resultat als "Mix" oder "Abmischung". Eine fertig abgemischte ("gemixte") Produktion wird als finale Abmischung oder finaler Mix (engl.="final mix") bezeichnet. Wörter wie "mixen" und "mischen" sind jedoch vieldeutig: "Mixen" tut man z. B. auch mit einem Stabmixer und Zutaten lassen sich bekanntlich ebenso "mischen"... – In der Tontechnik bevorzugen wir deswegen manchmal das Wort "abmischen", damit niemand in die Küche rennt, wenn es heißt: "Wir wollen jetzt den Song mixen!". Versuchen wir den Begriff Mixing einmal genauer zu definieren: Mixing bedeutet, die in verschiedene Aufnahmespuren enthaltenen Bestandteile einer Musikproduktion (ton)technisch richtig und musikalisch ansprechend aufeinander abzustimmen. Das geschieht überwiegend, indem man die (auf den Aufnahmespuren enthaltenen) Aufnahmen einzeln bearbeitet. Daher zählt das Mixing zur sog. Einzelsignal-Bearbeitung. Die auf einer Tonspur enthaltene Aufnahme bezeichnen wir also (so ganz "unpersönlich") als Audiosignal (bzw. vereinfacht als "Signal"). Das Ziel ist natürlich, einen professionell klingenden Mix zu erreichen. Doch was ist unter "professionell" zu verstehen? – Zu einem gewissen Teil ist das Geschmackssache und damit subjektiv. Jeder professionelle Mix hat aber auch "intersubjektiv" wahrnehmbare Klangmerkmale. Intersubjektiv heißt, dass diese Merkmale von jedem Hörer mit gesundem Gehör und unabhängig vom Wiedergabesystem (sofern es korrekt funktioniert und nicht übersteuert wird) wahrgenommen werden können, also wirklich "objektiv" vorhanden sind. • Bass-, Mitten- und Höhenbereiche klingt ausgewogen. – Kein Dröhnen im Bassbereich, keine scharfen Höhen oder mulmig klingenden Mitten. • Alle musikalischen Bestandteile sind (auf guten Wiedergabesystemen) gut heraushörbar ("transparent"). Dennoch wirken sie wie eine Einheit zusammen ("organisch"). • Die musikalisch wichtigsten Bestandteile (z. B. Gesang) stehen im Vordergrund, sind aber dennoch gut im Mix "eingebettet". • Die Lautstärkeverhältnisse der Einzelsignale sind in musikalisch ansprechender und technisch richtiger Weise aufeinander abgestimmt. Der Mix klingt zwar "räumlich", der Raumhallanteil ist aber nicht als Hall direkt heraushörbar. Außer natürlich bei Stellen im Mix, bei denen der Raumhall deutlich hörbar sein soll (z. B. bei Gitarren-Soli). In einer nicht abgemischten Produktion verdecken sich meistens die Einzelsignale. Häufig kommt es Dröhnen im Bassbereich und die Signale wirken (besonders bei digitalen Aufnahmen) oft leblos und trocken. Zu so einem Klangeindruck sagt man dann, der Mix ist schlecht "durchhörbar". Wie gut oder schlecht eine nicht abgemischte Produktion klingt, hängt auch sehr stark von der Qualität der Aufnahmen ab.

Automatisierung

Idealerweise versucht man schon vor dem Mixing den bestmöglichen Aufnahmesound zu erzielen. Dann besteht das Mixing überwiegend nur aus dem Abmischen der Lautstärke Tonspuren und das Positionieren der Signale im Stereo-Bild (Panorama). Weitere Einzelsignalbearbeitung wie z. B. der Einsatz von sog. Equalizern und Audio-Kompressoren ist dann teilweise gar nicht oder nur im geringen Maße notwendig. Es ist also ein Irrtum, wenn man glaubt, dass der gute Sound einer Produktion erst durch das Mixing entsteht. Bereit im ungemixten Stück liegt also die Substanz und die muss gut sein. – Es fehlt dann nur noch die letztendliche Form und Struktur, die man praktisch wie ein Bildhauer frei legen muss. Nach den Aufnahmen sind in einem Mix meist überflüssige Ton-Spuren bzw. Aufnahme-Bestandteile vorhanden, die aussortiert werden müssen. Die verbleibenden Spuren sollten sinnvoll geordnet und der Inhalt jeder Spur eindeutig sein. Tipp: Die Spuren beschriften und je nach Instrument farblich markieren und entsprechend ordnen. Einzel-Spuren und Gruppen-Spuren (BUS-Spuren) sind auf einem Mischpult getrennt voneinander angeordnet, z. B.: "Spur 1–8, Gruppenspur (BUS) 1 und 2, Master-Spur". – Dieses Schema sollte man auch auf digitale Software-Mischpulte übertragen.

Track-by-Track
Durch Track-by-Track-Recording kann man mehrere Spuren "Spur für Spur" (engl.="track-by-track"), also nacheinander, aufnehmen. So lassen sich häufig mehr Aufnahmen in eine Produktion integrieren und gleichzeitig wiedergeben, als dies live möglich wäre. Die Live-Umsetzung einer solch komplexen Produktion stößt dann ohne genug Live-Musiker (bzw. Halb-Playback) an ihre Grenzen. Die fertig abgemischte (gemixte) Produktion wird als finale Abmischung oder finaler Mix (engl.="final mix") bezeichnet.

Automatisierung
Was besonders im Vordergrund steht, kann sich im Laufe eines Songs ändern. (Damit hat eine Produktion einiges mit dem richtigen Leben gemeinsam...). Die Lautstärke einer Spur muss also manchmal an einigen Stellen angepasst werden. Bei digitalen Mischpulten kann man durch das sog. Automatisieren die Position der Mischpult-Kanalzüge (engl.="fader") während des Playbacks einprogrammieren. So kann man Lautstärkeschwankungen innerhalb einer Aufnahme-Spur ausgleichen oder Signale zeitweise lauter oder leiser regeln. Zumindest bei Software-Mischpulten kann man nahezu jeden Spur-Parameter, wie z. B. Pan-Pot (= Pan, Panorama), Equalizer (EQ) automatisieren und häufig auch die an der Spur (per Insert oder Aux) anliegenden Effekte (Hall etc.).

Spuren-Routing
Das Wort "Bus" kennt jeder aus dem Straßenverkehr. In einem Bus werden mehrere Personen zu einer "Gruppe" zusammenfasst und gemeinsam "transportiert". Dieses Prinzip findet man auch bei den sog. BUS--Spuren eines Mischpults. Eine BUS-Spur (Gruppen-Spur) fasst die Signale mehrerer Einzel-Spuren zusammen und gibt dadurch deren Audio-Summe wieder.

11

Audio-Mastering-Guide

Effekte auf einer BUS-Spur betreffen deswegen die Signale aller Spuren, die zur BUS-Spur gerouted werden. So kann man z. B. mehreren Spuren den gleichen Effekt zuweisen. Das ist natürlich nur sinnvoll, wenn die auf der BUS-Spur zusammenlaufenden Spuren tatsächlich mit dem gleichen Effektgerät bearbeitet werden sollen. Ohne BUS-Spur bräuchte man das jeweilige Effektgerät mehrmals (bzw. müsste mehrere Instanzen desselben Audio-Plug-Ins einsetzen). Durch BUS-Spuren bearbeitet man häufig Instrumenten-Gruppen (z. B. alle Drum-Spuren) innerhalb einer Mischung separat. Ein solcher sog. Submix (engl. "sub"=unter...) ist also eine (hierarchisch untergeordnete) Abmischung innerhalb der Abmischung, – ein "Mix im Mix".

Total Recall – (Nein, nicht der Film....)
Es gibt verschiedene Möglichkeiten ein Stück technisch richtig und musikalisch ansprechend zu mixen, die auf unterschiedliche Arten interessant sein können. Dies ist auch eine Frage des Musik-Genres und derzeitiger allgemeiner Hörgewohnheiten. Oft werden verschiedene Mixe erstellt, wie z. B. Radio-Edits, Vocal-Mixe und Re-Mixe, die jeweils andere Einstellungen am Mischpult erfordern. Bei analogen Mischpulten muss man die Einstellungen der Mischpult-Parameter aufschreiben, um sie später wieder identisch einstellen zu können. Bei digitalen Pulten können die Einstellungen abgespeichert werden. Vorher aufgezeichnete Mischpult-Einstellungen wieder zu übernehmen, bezeichnet man als Total Recall (engl. "total recall"=absolutes Erinnerungsvermögen). Grade weil viele Tontechniker kein absolutes Gedächtnis haben, benötigen sie ein "total recall".

Für die einen ist es ein Mixdown, für die anderen ein Trackbouncing...
Nach dem Abmischen erfolgt der Mixdown, bei dem man alle benötigten Spuren auf eine Summenspur routet (=summiert) und die Audio-Summe dann auf einer Tonspur aufzeichnet bzw. digital generiert. Im analogen Audiobereich erfolgt ein Mixdown meist über den Master-Ausgang des Mischpults auf eine 2-Spur-Master-Bandmaschine. Dafür muss die Abmischung also in Echtzeit (engl.="realtime") überspielt werden. Im digitalen Bereich wird beim Mixdown das Summensignal der Einzel-Spuren berechnet und als Audio-Datei abgespeichert. Jedoch ist auch im digitalen Bereich oft ein Mixdown in Echtzeit möglich. Häufig werden die Begriffe Mixdown und Trackbouncing verwechselt. Trackbouncing (engl. "to bounce"=hinausschmeißen) wird notwendig, wenn bereits zu viele Aufnahmspuren belegt sind. Dann summiert man mehrere Spuren auf eine andere Spur. Die so frei werdenden Einzel-Spuren kann man wieder für neue Aufnahmen nutzen. Es geht also darum, Platz zu schaffen, wodurch man diesen Vorgang durchaus als "hinausschmeißen" verstehen kann. Z. B.: Spur 5–8 werden auf Spur 9 summiert (gebounced) und danach werden Spur 5–8 für neue Aufnahmen genutzt.

12

Typische Bestandteile eines Masterings

1.2 Was ist Mastering und wann macht es Sinn? Typische Bestandteile eines Masterings
Ohne Mastering ist eine Produktion nur in äußerst seltenen Fällen veröffentlichungstauglich. – Alle Arbeitsschritte des Masterings beziehen sich auf das Summensignal. – Einzelne Spuren im Mix können beim Mastering also nicht bearbeitet werden. Beim Mastering werden Frequenzgang, Panorama, Lautstärke und Dynamik mit folgender Zielsetzung bearbeitet: • Die Lautheit der Produktion soll sich gegenüber aktuellen kommerziellen Produktionen durchsetzen. • Der Frequenzgang soll auf allen Lautsprechern (einschließlich Kopfhörern bzw. Ohrhörern) ein "relativ" ausgewogenes Klangbild ermöglichen. • Die Produktion soll auch in Mono gut klingen und alle musikalischen Bestandteile enthalten (monokompatibel). • Produktionen, die in verschiedenen Aufnahme-Studios entstanden, sollen durch das Mastering Zusammenhalt gewinnen. • Durch Klangveredelung (engl. "sweetening") soll das technische Klangbild professioneller wirken. In manchen Fällen können beim Mastering auch kleinere Fehler im Summen-Signal korrigiert werden. Für Mixing und Mastering zieht man eine hoch-professionelle1 Studioproduktion als Referenz (Vergleich) hinzu. Die Referenz sollte als Beispiel für ein absolut hervorragendes und natürliches Klangbild dienen, also "audiophilen" Charakter haben. Der Begriff "audiophil "setzt sich aus dem lat. "audio" (= Gehör haben, hören [können], anhören, zuhören) und dem griechischen "philia" (= Liebe) zusammen. Er bedeutet – frei übersetzt – "die Liebe zum Hören". Über Klangqualität sagt die "Etymologie" (= die im Wort enthaltenen Bedeutung) des Wortes "audiophil" also nichts aus. Es ist jedoch logisch, dass die "Liebe zum Hören" durch eine hervorragend klingende Produktion gefördert wird. Da bei der Referenz-Produktion meist mit anderem Equipment und unter anderer Aufnahmeakustik produziert wurde, wird das technische Klangbild der eigenen Produktion nicht genauso so klingen können, wie das der Referenz-Produkion. Wurde eine Produktion z. B. mit 2-Zoll-Bandmaschinen recordet und wird dann als Referenz für eine rein digitale Produktion genutzt, wird die digitale Produktion immer ein etwas anderes technisches Klangbild besitzen.

1Ab

wann man von einer "professionell" klingenden Produktion oder einer „sehr guten Produktionsqualität“ versteht, ist nicht eindeutig definiert. Es gibt dafür also keine DIN-Norm o. ä. und deswegen besitzt diese Frage einen gewissen Interpretations-Spielraum. Selbst bei Bandübernahme-Verträgen wird "sehr gute Produktionsqualität" nicht genau definiert. In der Praxis versteht man unter einer "professionell" klingenden Produktionen ein technisches Klangbild, das (aktuellen) kommerziellen Produktionen entspricht. Um dies zu gewährleisten, setzt man hochwertige Tonstudio-Technik, akustisch optimierte Aufnahme- und Regierräume und professionelle Fachkräfte (Tontechniker, Aufnahmeleiter, Akustiker u. a.) ein.

13

Audio-Mastering-Guide

Die Instrumentierung und das Genre der Referenz sollten der eigenen Produktion entsprechen oder so weit wie möglich ähneln. Dann kann man z. B. den durchschnittlichen Frequenzgang, die durchschnittliche "Lautstärke" und die Panorama-Verteilung beider Produktionen durchaus miteinander vergleichen.

Vorbedingungen und Effizienz
Recording und Mixing sind die Grundlagen für ein gutes Mastering. Das Mastering selbst dient nur der Optimierung. Wie viel ein Mastering klanglich bringen kann, hängt damit nicht nur vom Audio-Engineer, sondern auch von der Produktionsqualität des Songs ab. Mastering kann nur dann ein hoch-professionell klingendes Resultat erzielen, wenn Aufnahmen und Abmischung professionell genug sind. Selbst eine tontechnisch mittelmäßige Produktion wird durch ein Mastering aber deutlich besser klingen. Mastering garantiert also eine Aufwertung. Vergleichen wir es mit dem Polieren einer Lackierung: Selbst bei einer stümperhaften Lackierung (mit Lacknasen, Luftbläschen und Schlieren) wird das Polieren eine optische Aufwertung bringen. Eine Lackierung wird dadurch aber noch lange nicht professionell wirken, nur "besser"! Die Wirkung des Polierens kommt erst dann voll zum tragen, wenn die Lackierung gut genug ist. Nach dem Mastering erfüllt eine Produktion alle Voraussetzungen, um durch das anschließende Pre-Mastering auf ein (vervielfältigungsfähiges) Medium übertragen zu werden (z. B. CD, Schallplatte).

Warum das Konzept "loudness race" nicht aufgeht
In der Tontechnik bezeichnet man die "subjektiv wahrgenommene", also die tatsächlich "gehörte Lautstärke" nicht als "Lautstärke", sondern mit dem Begriff Lautheit [engl.="loudness"]. "Lautheit" bezeichnet also das, wofür man im Alltagsdeutsch das Wort "Lautstärke" verwendet. Beim Mastering legt man besonders Wert darauf, dass die Produktion eine möglichst hohe Lautheit besitzt und druckvoll klingt. Die Musik soll (bei gleicher Wiedergabe-Lautstärke!) mindestens so laut klingen wie andere aktuelle kommerzielle Produktion aus der gleichen Musikrichtung. Wenn die subjektiv wahrgenommene Lautstärke also als Lautheit (und nicht als Lautstärke!) bezeichnet wird, was versteht man in der Tontechnik dann unter "Lautstärke"? – "Lautstärke" ist dort nur ein anderes Wort für den Schalldruckpegel (engl.="sound pressure level", SPL). Den Schalldruckpegel kann man objektiv messen, wie laut etwas klingt, kann man nur selber hören, aber nicht wirklich objektiv messen.Der Schalldruckpegel sagt deswegen nichts Genaues darüber aus, wie laut der jeweilige Schalldruck vom Hörer tatsächlich subjektiv wahrgenommen wird. – Er sagt also nichts Genaues über die Lautheit (gehörte Lautstärke) des Schalldrucks aus. Erhöht man den Schalldruckpegel, erhöht sich damit tendenziell auch die "gehörte Lautstärke" (Lautheit). Davon kann sich jeder selbst überzeugen, indem er seine Anlage schrittweise weiter aufdreht! – Dennoch entspricht die "Lautstärke" (Schalldruckpegel) nicht der "gehörten Lautstärke", denn es ist möglich, dass der Schalldruck sehr hoch ist, aber aus Tönen besteht, die außerhalb des Wahrnehmungsbereichs des Menschen liegen. Ebenso können sich Alter, Krankheiten, Medikamente und andere Faktoren darauf auswirken, wie "laut" ein Schallsignal subjektiv wahrgenommen wird. Z. B. empfindet man kurz vor dem Einschlafen Schallereignisse oft lauter als sonst. Schallereignisse, die man als subjektiv störend empfunden wirken,

14

Warum das Konzept "loudness race" nicht aufgeht

werden subjektiv oft lauter wahrgenommen als solche, die man als subjektiv angenehm empfunden werden. Da die Höhe des Schalldruckpegels also keine eindeutige Aussage über die Lautheit zulässt, kann der Schalldruckpegel unterschiedlicher Produktionen (bei gleicher Aussteuerung) gleich hoch sein, aber dennoch eine unterschiedliche "gehörte Lautstärke" (Lautheit) besitzen. Der Schalldruckpegel ist ein theoretischer Wert, – etwas, was man messen aber "als Ding an sich" nicht wahrnehmen kann. Die Lautheit kann man aber mit eigenen Sinnen wahrnehmen. Dadurch ist Lautheit ein Wahrnehmungsphänomen, dessen Existenz man ohne technische Hilfsmittel und deswegen (im wahrsten Sinne des Wortes) "empirisch" überprüfen kann. ("Empirisch" bedeutet: "aus eigener Erfahrung und Beobachtung gewonnen" [gr. émpeiros = erfahren, kundig]). Man könnte voreilig schlussfolgern, dass man den Pegel der Produktion nur hoch genug einstellen muss, damit sich "tendenziell" auch eine höhere Lautheit ergibt. Dann hätte man doch, was man will: Eine möglichst laut klingende Produktion! Jedoch müssen Lautstärkeschwankungen möglichst gering sein, damit ein Stück eine gleichmäßige Lautheit bekommt. Das kann man nicht durch eine bloße Anhebung des Pegels erreichen. Außerdem gibt es eine technische Grenze für die Maximal-Höhe des Audio-Signal-Pegels. Dadurch kann das Signal also nicht beliebig weit erhöhen. Überschreitet man diese Grenze, kommt es bei digitalen Systemen sofort zur totalen Verzerrung des Signals. Bei analogen Systemen setzt die Verzerrung ab dem Überschreiten der kritischen Grenze langsam ein und erreicht noch nicht ihr volles Ausmaß. Mehr oder weniger weit oberhalb der kritischen Grenze kommt es auch bei analogen Systemen sofort zu einer totalen Verzerrung. Um die Lautheit dennoch effektiv steigern zu können, verringert man die Dynamik. Dynamik ist der Lautstärkeunterschied (bzw. die Spanne) vom leisesten bis zum lautesten Signal in einer Signalfolge. Schon eine einzige aus dem restlichen Audio-Signal weit herausragende Pegelspitze führt also zu einer Erhöhung der genutzten Dynamikspanne. Eine solche Pegelspitze erreicht als erstes die kritische Grenze, wenn man den Signalpegel eines Musikstücks erhöht. Dadurch liegt es an den höchsten Pegelspitzen, wie weit man ein den Signalpegel erhöhen kann. Damit der Pegel einer Produktion effektiver erhöht werden kann, müssen hohen Pegelspitzen also abgesenkt werden. Dann liegen die hohen Pegelspitzen näher an den restlichen Pegelspitzen. Dadurch kann der Pegel des Stücks etwas weiter erhöht werden. Aber auch dann hängt es von der höchste Pegelspitze ab, wie weit eine Erhöhung möglich ist. – Um hohe Pegelspitzen abzusenken, kommen Audio-Kompressoren und Audio-Limiter (dt.="Begrenzer") zum Einsatz. Limiter machen prinzipiell das gleiche wie Kompressoren, nur wesentlich schneller und drastischer. Limiter werden deswegen dafür genutzt, die Höhe des Maximalpegels eindeutig zu "begrenzen". Sie setzen dem Signalpegel also eine "Grenze", die nicht überschritten werden kann. Bei einem Kompressor ist das etwas anders. Die Ansprache des Kompressors ist etwas träger. Je nach Einstellung der Kompressor-Parameter kann das Signal also die vom Kompressor gesetzte Grenze zeitweise und in einem bestimmten Maße überschreiten. Eine wirklich exakte und vollkommene "Begrenzung" ist dadurch nicht möglich. Bei beiden Verfahren werden hohe Pegelanteile abgesenkt. Kompressoren und Limiter machen das Signal dadurch leiser, aber auf eine Art und Weise, die es ermöglicht, den Signal-Pegel nachträglich höher auszusteuern, als es ohne sie möglich gewesen wäre! Es ist also ein immer noch weit verbreiteter Irrtum, dass Kompressoren und Limiter das Signal lauter machen würden. – Sie schaffen nur die Voraussetzungen dafür, es "effektiv" erhöhen zu "können".

15

Audio-Mastering-Guide

Außerdem können sie durch das Abregeln hoher Pegelanteile Lautstärke-Schwankungen reduzieren, wodurch die Lautheit gleichmäßiger werden kann. Die unterschiedliche Lautheit von Produktionen fällt meist nur im direkten Vergleich und bei gleicher Wiedergabelautstärke auf. Mit größerer Lautheit die Aufmerksamkeit des Hörers erlangen zu wollen, führt manchmal eher zum Gegenteil. – TV- und Radio-Werbespots trimmt man heute so stark auf Lautheit, dass sie sich störend vom restlichen Programm absetzen. So was ist eher marktschreierisch als kundenfreundlich. Die häufige Folge: Anstatt die Werbung brav zu "konsumieren" ist man genervt vom plötzlichen "Lautstärkeanstieg" und zappt zum nächsten Sender oder stellt den Ton einfach stumm. Eine relativ leise Produktion hat jedoch den Nachteil, dass der Hörer die Wiedergabelautstärke am Gerät erhöhen muss. Nachfolgende lautere Produktionen würden dadurch wieder das Nachregeln der Wiedergabelautstärke erfordern. Das gilt natürlich nur, wenn der Hörer direkt hintereinander Titel unterschiedlich lauter Produktionen hört. Den scheinbar nicht endenden Wettstreit um die lauteste Produktion bezeichnet man als loudness-race. Viele Tontechniker versuchen heute durch massiven Kompressor- und Limiter-Einsatz Produktionen noch lauter zu machen, als die ohnehin schon sehr lauten Konkurrenzproduktionen. Radiosender trimmen Produktionen vor dem Senden nochmals auf höhere Lautheit. Die Lautheitssteigerung von Produktionen ist ab Mitte der 1990er an einen Punkt gelangt, der bedenklich auf Kosten der Musikalität geht. Im Zuge der "loudness-race" nehmen manche Tontechniker selbst digitale Übersteuerungen in Kauf, um die Lautheit noch weiter zu maximieren. Im Bereich elektronischer Tanzmusik beurteilen viele DJs sogar die Vorführtauglichkeit eines Titels aufgrund der Lautheit und weigern sich "leisere" Produktionen in ihr Set aufzunehmen. Muss man bei diesem Trend mitziehen, um nicht ganz im Schwarm der "loudness-race" unterzugehen? – Gerade das würde die "loudness race" weiter aufrechterhalten. Das Argument "Das machen doch alle so!", ist die Ursache dafür, dass es garantiert weiterhin "alle" so machen werden. Da heute scheinbar jeder möglichst laut produziert, kann sich eine laute Produktion nicht mehr wirkungsvoll von anderen (aktuellen) Produktionen absetzen. Wenn dem Hörer die Musik nicht gefällt, nützt auch der erste Platz bei der "loudness race" nichts. In allen anderen "natürlichen" Wiedergabesituationen, von Bandproben bis hin zur Orchesterdarbietung, wird man immer eine gewisse Dynamik finden. Diese trägt zu einem lebendig wirkenden Klangbild bei. Viele Aufnahmen wirken mit mäßiger Kompression deswegen musikalischer. Das Steigern der Lautheit ist sinnvoll, wenn (bezogen auf das jeweilige Genre) genug Dynamik für eine musikalisch ansprechende Wirkung erhalten bleibt. Durch digitale Aufnahmeverfahren ist es möglich, sehr große Dynamikspannen "fehlerfrei" (d. h. ohne Rauschen) wiederzugeben. Das ist sinnvoll für E-Musik, wie z. B. Klassik und Jazz. – Die meiste U-Musik (Unterhaltungsmusik) benötigt hingegen nur eine sehr geringe Dynamikspanne.

16

Wie man es sich erzählt – Ursprünge der Dynamikbearbeitung

Wie man es sich erzählt – Ursprünge der Dynamikbearbeitung
Früher war die Dynamikreduzierung eine technische Notwendigkeit, um Aufnahmen mit großer Dynamik-Spanne (z. B. eine klassische Symphonie) auf den geringen Dynamik-Umfang einer Schallplatte übertragen zu können. – Ohne die Dynamik nachträglich zu reduzieren, war es sehr schwer, solche Aufnahmen fehlerfrei auf Platte zu schneiden: Die leisen Signale gingen im Grundrauschen und Knistern der Platte unter. Laute Signale führten zu Verzerrungen oder zum Springen der Nadel. Sie konnten beim Schneiden der Platte sogar die Vinyl-Matrize zerstören. Der Einsatz von Audio-Kompressoren ab den 1950er Jahren war also eine technische Notwendigkeit und diente nicht als stilistisches Mittel. Die komprimierte Musik ermöglichte eine bessere Übertragung per Rundfunk und der Hörer konnte leichter eine optimale Wiedergabe-Lautstärke finden, da die Lautstärke-Schwankungen nicht zu hoch waren. Ab den 1970ern wurden Kompressoren im Bereich der U-Musik auch als Stilmittel eingesetzt. Man konnte der Musik mehr Druck und Lautheit verleihen, was grade der damaligen Disco-Musik gut stand. Die Dynamik-Spanne für U-Musik wurde seitdem kontinuierlich reduziert.

1.3 Was ist Pre-Mastering und wann macht es Sinn? Pre-Mastering und technisches Mastering
Das Pre-Mastering erfolgt nach dem Mastering, wird aber vor vorgenommen.
(lat.="pre")

dem sog. technischen Mastering

Beim Pre-Mastering erstellt man eine Tracklist2 und überträgt die Musik auf einen physischen Tonträger (z. B. Schallplatte, DAT, CD). Der Tonträger dient als Pre-Master. Erst danach entsteht beim technischen Mastering das Master (z. B. ein CD-Glasmaster oder eine Matrize für die Schallplatten-Pressung). Erst mit dem "technischen Mastering" ist die Produktion also wirklich "gemeistert" (engl.="to master"). In der Hierarchie steht das Master als Vorlage für die Tonträgerherstellung also an erster Stelle. – Das engl. Wort "master" bedeutet schließlich u. a. auch "Vorlage" [eines Originals oder Musters] und "Haupt-...". Das Wort "master-tape" bedeutet "Stamm-", bzw. "Mutterband" und zeigt damit schon, dass durch das Master – als symbolische "Mutter" – die industrielle Produktion der Musik überhaupt erst möglich wird. Das technische Mastering wird manchmal einfach nur als "Mastering" bezeichnet. Es hat aber mit einem Mastering – im Sinne einer klanglichen Summen-Bearbeitung – genauso wenig zu tun, wie das Pre-Mastering! Für ausschließlich digital erscheinende Veröffentlichungen braucht man keine Tonträger und dadurch weder ein physisches Pre-Master, noch ein physisches Master. Stattdessen wird die Musik-Zusammenstellung auf das gewünschte Datei-Format (=Ziel-Format) konvertiert (z. B. wav oder mp3). Diese Datei stellt dann quasi das "Master" dar. Wenn das Zielformat eine mp3 sein soll und dafür z. B. eine wav-Datei als Vorlage dient, wäre die wav-Datei quasi das "Pre-Master" und die mp3 das "Master". Die "Master-mp3" dient dann als Vorlage zur Vervielfältigung der mp3s.

2Auswahl

und Abfolge der Musikstücke für eine Musikzusammenstellung.

17

Audio-Mastering-Guide

Der Versuch, für Pre-Mastering und technischen Masterings Entsprechungen in der "virtuellen Welt" zu finden, entbehrt nicht einer gewissen Ironie. Da die technische Anfertigung eines physischer Tonträger ausbleibt, gibt es nämlich kein "technisches Mastering" mehr. Die fertig gemasterte (und häufig bereits digital vorliegende Produktion) wird ja nur in andere digitale Formate konvertiert. Im Gegensatz zu einem CD-Glasmaster oder einer Vinylmatrize unterscheidet sich das virtuelle "Master" meist auch nicht von dessen Vervielfältigungen. Aus diesem Grund ist es verständlich, wenn Mastering und Pre-Mastering manchmal synonym als Mastering bezeichnet werden. Gibt es nämlich kein technisches Mastering mehr, bildet das Pre-Mastering den letzten Schritt der Produktion und in dem Fall ist die Vorsilbe "pre" nicht mehr angebracht. Es kann ja kein "vorher" mehr geben, wenn es kein "nachher" gibt. Die Arbeitsschritte, die man einem Pre-Mastering zurechnen könnte, müssten in dem Fall also "Post-Mastering" heißen. Eine andere Lösung wäre, den Begriff "technisches Mastering" so zu verstehen, dass er sich "auch" auf die Anfertigung eines "virtuellen" Masters (also einer Audio-Datei) beziehen darf.

18

Zielformate

Zielformate
Medium Audio-CD (Compact Disc Digital Audio) Audio-DVD AufzeichnungsVerfahren Digital Physischer Datenträger Disc Ø 12 cm Speicherplatz 650 MB 700 MB Max. Laufzeit 74 Min 80 Min

Digital

Disc Ø 12 cm

DAT (Digital Audio Tape) Schallplatte

Digital

Kassette mit Magnetband

4,38 GB 160 Min. (engl. "single layered") ≥ 9,92 GB (engl. "double layered") 120 Min.

Analog

Vinyl Schallplatte Ø ca. 30 (12’’) oder 48 cm (19’’) doppelseitig bespielt

Tonband

Analog

¼, ½, 1- oder 2-Zoll-Magnettonb and Spulengrößen: max. 41 cm

(Je nach Bandlänge und Abspielgeschwindigkeit, z. B.: Für 1 Min. Laufzeit sind bei 19 cm/s Bandlauf 11.4 m Band erforderlich.) Min. 16.05 32.10 66.84 87.71 96.49

Bandlängen bis zu mehreren 1000 m m 183 366 762 1000 1100

19

Audio-Mastering-Guide

1.4 Wer kann was...!? – Vom Tontechniker bis zum Mastering-Engineer
Mastering-Engineer ist die englische Bezeichnung für einen Tontechniker (engl. "audio technician") oder einen "Mediengestalter für Bild und Ton" oder einen "Tonmeister" (engl. "recording engineer") oder einen Ton-Ingenieur (engl. "audio engineer"), der Produktionen mastered. Der Mastering-Engineer arbeitet unter optimierter Raumakustik mit hoch-professionellem Studio-Equipment. Dadurch kann er beim Mastering intersubjektiv richtige Entscheidungen treffen und ein ansprechendes Klangbild ermöglichen. Mastering-Engineers besitzen entweder Erfahrungen mit dem Mastern nahezu aller Genres, – oder haben sich auf wenige oder nur ein Genre spezialisiert. Es ist meistens (aber nicht zwingend!) ein Zeichen von hoher Kompetenz für diese Aufgabe, wenn ein Mastering-Engineer über eine langjährige Erfahrung im Mastern und entsprechende Referenzen verfügt. Der Titel Diplom-Ton-Ingenieur (engl. "graduate audio engineer") kann häufig im Rahmen eines Elektronikoder Informationstechnik-Studiums erworben werden. Ebenso wird der Titel Diplom-Tonmeister über entsprechende Hochschul-Studiengänge erworben. Diese Titel zeigen, dass Kompetenzen durch einen (universitären) Ausbildungsweg erworben wurden. Ein Diplom ist zur Ausübung der Tätigkeit jedoch nicht erforderlich und in der Praxis selten anzutreffen. – Die fachliche Ausbildung entsteht meist durch die Berufserfahrung im Studio. Dort kann man sich vom Praktikanten, bis hin zum Tonassistenten und Tontechniker (oder Tonmeister) in der Hierarchie hocharbeiten. Auch eine autodidaktische Ausbildung, z. B. durch das selbstständige Betreiben eines Studios, das Belegen von Audio-Workshops u. ä., kann zu einem Ausbildungsgrad führen, der den Titel "Tonmeister", "Audio Engineer" und "Tontechniker" berechtigt. Die Berufsbezeichnung Tonmeister und auch englische Bezeichnungen wie z. B. "Audio Engineer" sind (in Deutschland) nicht geschützt, sodass sich prinzipiell jeder als Tonmeister ausgeben kann. Es gibt außerdem recht junge Ausbildungsgänge wie Mediengestalter für Bild und Ton, die mit dem Ausbildungsstand eines Tontechnikers vergleichbar sind, sowie Hochschul-Studiengänge und private, staatlich anerkannte Fernstudiengänge in Tontechnik. – Wurde ein Teilnahmezertifikat oder Titel in einer privaten Einrichtung erworben (z. B. im Rahmen eines Workshops), ist es fraglich, ob solche Leistungsnachweise auch von jedem anerkannt werden. Eine Weiterbildung im Rahmen eines Wochenend-Seminars kann wegen der kurzen Lernphase natürlich nicht mit staatlich anerkannten Abschlüssen, langjähriger Berufserfahrung oder einer langjährigen autodidaktischen Ausbildung verglichen werden. Kommt es im Rahmen eines autodidaktischen Ausbildungswegs jedoch zur Teilnahme an mehreren Workshops bzw. Seminaren und mehreren Praktika, ist solch ein Kompetenzprofil natürlich auch schon was wert! Am unmittelbarsten zeigen aber vorhandene Referenzen oder Arbeitsproben, dass Kompetenz vorhanden ist. Im Grunde braucht man in diesem Berufsfeld nur ausgezeichnet mixen und mastern können und "wie" man diese Fähigkeiten genau erlernt, "ob" man sie mit einem Diplom, staatlich anerkannten Titel u. ä. "untermauern" kann, ist zweitrangig. Traditionellerweise wird aber dennoch gern nach "offiziellen" Nachweisen für die Kompetenzen eines Bewerbers geschaut.

20

Zielformate

Da es durchaus mehrere "richtige" Ausbildungswege gibt, sollte man versuchen, die Ausbildungsinhalte miteinander zu vergleichen. Genau das ist aber oft nur ungenügend möglich, sodass letztendlich die Ergebnisse für sich sprechen müssen und sich entsprechend rumsprechen werden. – Viele international hoch angesehene Tontechniker sind in der Tat reine Autodidakten. Manche Leute, die Mastering anbieten, bezeichnen sich selber als Mastering-Engineer. Dies ist berechtigt, sofern es durch gute Arbeitsproben (oder Referenzen) bzw. eine kompetente Ausbildung nachgewiesen werden kann. Selbst wenn jemand eine gute Ausbildung genossen hat, ist er dadurch aber nicht automatisch ein "Spezialist" in Sachen Mastering. So kann jemand als Tonmeister (Recording Engineer) in seinem Studio mit Bands sehr gute Aufnahmen hervorbringen, die er dann auch selber mastered. Jedoch können bestimmte Faktoren dazu führen, dass er dabei als Mastering-Engineer nicht so gute Ergebnisse erreicht, wie als Recording Engineer. Z. B. wenn im Studio die Akustik des Abhörraums nicht so optimal ist, wie die des Aufnahme-Raums. Oder wenn das zum Mastering eingesetzte Equipment für diese Aufgabe weniger geeignet ist oder einiges an Fachwissen fehlt, das speziell für das Mastering von Relevanz ist. So gibt es zwischen den einzelnen Anbietern von Mastering-Dienstleistungen teilweise überraschend starke qualitative Schwankungen. Leider tummeln sich in dem Bereich der Mixing- und Mastering-Anbieter auch einige schwarze Schafe, die trotz ungenügender Qualifikation Mixing und Mastering-Dienstleistungen anbieten. Wenn z. B. der Background nur darin bestand, hobbymäßig als Bühnentechniker bei Kleinveranstaltungen zu mischen oder in einem "freien Radiosender" zu arbeiten oder kein zum Mixing/Mastering geeignetes professionelles Equipment vorliegt, sollte man skeptisch werden. Solche Leute stellen ihre Erfahrungen im reinen Amateur-Bereich, in dem Sachkenntnisse und technische Ausrüstung oft mangelhaft sind, gern als Berufs-"Erfahrung" und "Know-how" dar. – Mixen im Bierzelt kann jeder, denn das alkoholisierte Publikum wird den einen oder anderen Patzer schon nicht merken! "Erfahrungen" müssen also nicht zwangsläufig zu Fortschritten führen. Fortschritte werden durch das Sammeln praktischer Erfahrungen aber zumindest ermöglicht. Es kommt vor, dass einige Leute durch eine autodidaktische Weiterbildung und professionelles Equipment Audiobearbeitung in professioneller Studioqualität abliefern können, obwohl sie das Ganze nur als Hobby betreiben. Genauso kommt es – in seltenen Fällen vor – dass im Studiobereich unfachmännisch vorgegangen wird. Diese Gefahr besteht bei Personen, die zwar Studioinhaber sind, aber dennoch wenig Arbeitserfahrung und wenig Ahnung von Tontechnik besitzen. Solche Leute geben sich manchmal als "Tonmeister", "Aufnahmeleiter" oder "Audio Engineer" aus und missbrauchen die Tatsache Inhaber eines Tonstudios zu sein, als Legitimation für das Tragen solcher Berufsbezeichnungen. Sie sind aber häufig eben "nur" Musiker, die sich die Anschaffung eines eigenen Studios leisten konnten. Schlimmstenfalls sind sie nichtmal Musiker, sondern nur reine Studiobesitzer. Vor der Krise der Musikbranche gab es mehr große Studios als heute. Solche Studios besitzen u. a. auch große Aufnahmeräume und können dadurch für nahezu jedes Genre eine Produktionsqualität gewährleisten, die sich für internationale Veröffentlichungen eignet. Für ein Mixing und Mastering sollte man grundsätzlich eine kostenfreie Arbeitsprobe verlangen. Eine Hörprobe von anderem Material sagt nichts darüber aus, welche klanglichen Ergebnisse das jeweilige Mixing- bzw. Mastering-Angebot bei der eigenen Produktion bringen wird.

21

Audio-Mastering-Guide

Bei Autoren und Dozenten findet man natürlich auch unterschiedliche Kompetenzen. Titel und Berufserfahrung in einem bestimmten Wissensgebiet heißen noch lange nicht, dass so eine Person zu diesem Thema auch ein gutes Sachbuch verfassen kann. Dieses Phänomen kennt manch einer auch noch aus der Uni, wo Dozenten zwar enorme Fachkenntnisse haben aber ihr Wissen dennoch unverständlich vermitteln.

22

2. Psychoakustische Grundlagen – Wie psychoakustische Phänomene die Wahrnehmung von Musik beeinflussen

2. Psychoakustische Grundlagen – Wie psychoakustische
Phänomene die Wahrnehmung von Musik beeinflussen
In der Psychoakustik werden die Auswirkungen von Schallereignissen (also Geräuschen, Lärm, Musik) auf das mentale (lat. "mentis"=Bewusstsein) Empfinden von Lebewesen erforscht. Dafür spielen sowohl messbare (physikalische) als auch indirekt messbare (=subjektive) Phänomene eine Rolle. Hierbei sucht man oft nach Merkmal-Zusammenhängen und Gesetzmäßigkeiten zwischen Schallsignalen und subjektiven Höreindrücken der Testpersonen (Probanden).

2.1 Wichtige psychoakustische Phänomene Lautstärke? – Ansichtssache!
Je nachdem wie man die Qualität der Musik bewertet, kann sich dies auf die subjektiv wahrgenommene Lautstärke (=Lautheit) auswirken. Viele Personen neigen dazu, die Musik, die sie "gut" finden, sogar bei sehr hohem Schalldruck-Pegelnicht als "zu laut" zu empfinden. Musikstücke, die man subjektiv als "schlecht" bewertet, wird oft schon bei relativ geringem Schalldruck-Pegel als "zu laut" (bzw. "störend") empfunden. Auch optische Eindrücke können dabei eine große Rolle spielen, – wie es heute allgemein viel zu oft der Fall ist. So hat eine wissenschaftliche Studie belegt, dass die Musik in dunklen Räumen klanglich anders empfunden wurde, als in hellen. Dieses Phänomen lässt sich möglicherweise auch auf das Erscheinungsbild von Musikequipment übertragen. Es liegt dadurch nah, dass manche Hörer sozusagen, das "hören", was sie sehen bzw. wissen: Farben und Formen werden dadurch mit bestimmten Klangeigenschaften assoziiert. Einer "hässlichen" Anlage im grauen, kantigen Plastik-Look der 80er trauen die wenigsten Leute die Klangqualität einer qualitativ gleich guten Designer-Anlage zu. Ein ansprechendes Design machen sich viele Hersteller zunutze, um dadurch auch eine hohe klangliche Wertigkeit zu suggerieren. Die Schale ist aber eben noch lange nicht das Gelbe vom Ei.

Verdeckungseffekt (Maskierung)
Der Verdeckungseffekt beschreibt die Tatsache, dass bestimmte klangliche Bestandteile der Musik durch andere verdeckt werden können. Laute Töne überdecken dabei leisere benachbarte Töne. Ebenso können tiefe Töne bestimmte höhere verdecken und umgekehrt. Es gibt also in einem Musikstück Audioinformationen, die (zeitweise) für den Gesamtklang keine tragende Rolle mehr zu spielen "scheinen". Sie können (rein theoretisch gesehen) dem Signal entnommen werden, ohne dass man bewusst den Höreindruck hätte, dass da was fehlt. Den Verdeckungseffekt macht man sich deshalb bei der Reduzierung der Datengröße von Audiodateien zu nutzen, z. B. für das MP3-Format oder der Mini-Disc (MD). Deswegen werden solche Formate als "verlustbehaftet" bezeichnet und in der Tat sind sie dies auch! Maskierungseffekte eigenen sich auch dafür, störende Geräusche zu neutralisieren. – So entdeckte man in den 50er Jahren, dass weißes Rauschen, wenn man es kaum hörbar in Büros einspielt, die

23

Audio-Mastering-Guide

Lärmbelästigung durch PCs, Lüfter, Trafos etc. verdecken kann und so zu einem stressfreien Arbeitsklima beiträgt. Leider machen sich diese einfache Tatsache die meisten Betriebe bis heute nicht zunutze.

Schwebungen – Wenn zwei sich aneinander reiben, werden sie manchmal auch eins
Gibt es in der Tonhöhe von zwei (gleichzeitig wiedergegebenen) Tönen nur einen minimalen Unterschied, werden sie als an- und abschwellender einzelner Ton wahrgenommenen. Das menschliche Gehör besitzt in diesem Fall nicht mehr die Trennschärfe, um so dicht beieinanderliegende Töne separat wahrnehmen zu können.

Residualton – Hören, was nicht da ist...
Das ungefähre Gegenteil vom Verdeckungseffekt ist der Residuum-Effekt (auch als sog. Residual-Ton bezeichnet). Die Grund-Frequenz (= Grundton) einer Tonfolge wird hierbei vom Gehör, anhand der in der Tonfolge vorhandenen Obertöne, "hinzu konstruiert". Dadurch wird ein passender Grundton wahrgenommen, obwohl er (physikalisch gesehen) nicht im Signal vorhanden ist!

Gehörgewöhnung (Adaptation) – Alles reine Gewöhnungssache...
Die Gehörgewöhnung beschreibt die Tatsache, dass sich das Gehör an Veränderungen im Klangbild gewöhnt. Das Gehör passt sich sehr schnell an ("adaptiert" sich) und empfindet das neue Klangbild dann "normal". Stellt man z. B. die Klangregelung einer Stereo-Anlage sehr höhenlastig ein, wirkt der Klang durch die Gehörgewöhnung schnell wieder so, als wäre der Klang gar nicht mehr höhenlastig. Das liegt daran, dass der vorherige Klangeindruck recht schnell aus dem Kurzzeitgedächtnis verschwindet. – Und wo es keine zwei Sachen gibt, die man miteinander vergleichen kann, gibt es auch keinen "wahrnehmbaren" Unterschied mehr. Gewöhnungseffekte sind natürlich ebenso bei Lautstärke-Veränderungen möglich. Durch die Neigung des Gehörs zur Adaptation wird das korrekte Abmischen und Mastern von Musik erheblich erschwert.

Absolutes Gehör (Tonhöhengedächtnis) – Nicht nur für Mozart!
Die Entwicklung des Hörsinns spielt eine entscheidende Rolle bei der Wahrnehmung von Musik. Menschen mit einem trainierten absoluten Gehör können sich unterschiedliche Tonhöhen sehr gut merken. Ob also z. B. das "gestrichene c" auf einer Orgel, Gitarre oder Trompete gespielt wird. – Sie erkennen die Tonhöhe jedes Mal genau wieder! Durch ein absolutes Gehör lässt sich relativ leicht lernen, welche Tonhöhe man welcher Note im Notensystem zuordnet. Dadurch wird es möglich, Töne, Intervalle und sogar Akkorde rein nach Gehör dem Notensystem zuzuordnen. Außerdem kann man dann bereits beim Notenlesen die Töne innerlich hören. Je nach Talent und Fleiß können sich solche Fähigkeiten auch Menschen aneignen, die nicht über die Gabe eines absoluten Gehörs verfügen. Blinde Menschen haben bekanntlich ebenfalls einen außergewöhnlich gut entwickelten Hörsinn, der ihr Defizit im Sehen nahezu ausgleicht. In anderen Fällen kann der Hörsinn aber durchaus so gering entwickelt sein, dass nichtmal "schiefe Töne" und andere Patzer beim Vortragen eines Musikstücks erkannt werden.

24

Selektives Hören (Cocktail-Party-Effekt) – Wahrnehmung schafft Wirklichkeit

Umso geübter man im analytischen Hören von Musik ist, je mehr musikalische Klangbilder man kennen gelernt hat, umso differenzierter wird man Musik auch wahrnehmen können.

Selektives Hören (Cocktail-Party-Effekt) – Wahrnehmung schafft Wirklichkeit
Je nachdem auf welche Aspekte des Musikstücks die Aufmerksamkeit gerichtet wird, wirken diese subjektiv präsenter und andere rücken dadurch scheinbar in den Hintergrund. Dieses Phänomen ermöglicht es einem beispielsweise noch inmitten der Unterhaltungen mehrerer Leute auf einer Feier die Worte eines bestimmten Sprechers gezielt herauszuhören (sog. Cocktail-Party-Effekt), wobei die gehörte Lautstärke (Lautheit) der Worte der anderen Sprecher geringer wird. Beim Sehvorgang trifft man auf ein sehr ähnliches Prinzip: Auch dort fokussiert man sich auf bestimmte Objekte im Gesichtsfeld, wobei alles andere dann mehr oder weniger unscharf im Hintergrund verschwimmt. Trotzdem wird auch hier das Bild im Sehfeld als ein Ganzes wahrgenommen. Ein Musikstück kann unter ganz verschiedenen Gesichtspunkten gehört werden. Die Stimme zieht naturgemäß am meisten Aufmerksamkeit auf sich und steht bei einer Abmischung sowieso im Vordergrund. Dennoch kann man sich ebenso auf andere Bestandteile der Produktion fokussieren, z. B. den Klang vom Bass, das Spiel der Snare-Drum, der Gitarren usw. Man kann ein Stück dabei unter rein musikalischen Gesichtspunkten hören oder eher auf das technische Klangbild einer Produktion achten. Wie bereits erwähnt, kann selbst Wissen das Hörempfinden beeinflussen. Wenn z. B. in einer Fachzeitschrift eine Anlage ein "sehr gutes" Testergebnis erhält, rechnet man mit einem entsprechenden Klang. Der Käufer geht dadurch mit einer vorgeprägten Erwartungshaltung an den Kauf heran, die sein Beurteilungsvermögen durchaus beeinflussen kann. Wie man ein Musikstück qualitativ beurteilt, was für einen Musikgeschmack man entwickelt, wird entscheidend geprägt von der Gesellschaft und unserem persönlichen Lebensumfeld. Die Massen-Medien, Charts usw. legen uns eine Auswahl an Musik vor. Sie suggerieren uns dadurch indirekt, dass es sich dabei um das derzeit inter-subjektiv "Beste" handeln würde, was weltweit an Musik zur Verfügung steht. Der Teil davon, der sich besonders gut verkaufen lässt, wird entsprechend stärker beworben, wodurch er sich noch besser verkaufen lässt. So erhalten manche Artists sogar eine mediale Omni-Präzens. Sofern einen von anderen Seiten keine andere Musik vorgestellt wird, wird man seinen Musikgeschmack also anhand der populären Musik formen und dort eben das wählen, mit dem man am stärksten auf Resonanz geht. Oftmals wird sich dabei auch am eigenen Freundeskreis bzw. Lebensumfeld orientiert. Da jede Wahrnehmung letztendlich immer subjektiv ist, kann genau genommen niemals eine 100%ig objektive Beurteilung stattfinden. – Objektivität ist immer nur die Schnittmenge von miteinander übereinstimmenden subjektiven Wahrnehmungen. Wenn alle Leute zum gleichen Ergebnis kommen (z. B. die Beobachtung, dass alle Elefanten grau wären), heißt das nicht, dass das deswegen wirklich ein objektives Ergebnis ist. – Schon eine einzige Ausnahme kann die Objektivität eines Ergebnisses infrage stellen oder sogar widerlegen. Diese Tatsache muss auch beim gesamten Produktionsablauf berücksichtigt werden. Es wird z. B. immer Hörer-Meinungen geben, die von der eigenen Auffassung abweichen. Zu jeder Meinung wird man irgendwo eine gegenteilige Meinung finden können. Negative Kritik sagt oft sehr viel mehr über die Wertvorstellungen und den Charakter der anderen Person aus, als über das Kritisierte. Daher sollte man negative Kritik nicht zu ernst nehmen und diese zu nah an sich herankommen lassen, da man es grade

25

Audio-Mastering-Guide

in der Musik unmöglich allen Hörern Recht machen kann. Eine konstruktive negative Kritik beinhaltet jedoch oft Ansätze, die uns die Tür für wertvolle Verbesserungen öffnen können. Hierbei sollte man aber erkennen können, was konstruktive Kritik ist und was nicht. Kleinliches Rumkritteln an unwesentlichen Details wird gern mal unter dem Deckmantel "konstruktiver Kritik" vorgenommen, ist aber im schlimmsten Fall sogar Hinweis auf das Vorliegen psychischer Probleme (z. B. einer zwanghaften (anakastischen) Persönlichkeitsstörung, bei der sich der Betroffene unnormal stark auf Details fokussiert).

26

3. Frequenz und Lautstärke

3. Frequenz und Lautstärke
3.1 Frequenz (Tonhöhe) Hertz (Hz)
Jeder Ton besitzt eine Grundschwingung. Die Häufigkeit (lat.="frequentia") dieser Schwingung pro Sekunde wird als Frequenz (ƒ) bezeichnet. Die Höhe der Frequenz wird durch die Einheit Hz (Hertz) angegeben, – dabei gilt: 1 Hz = 1 Schwingung (ƒ) pro Sekunde Die Frequenz kann auch in der Einheit kHz (Kilohertz) angegeben werden: 1 kHz=1000 Hz Je höher die Frequenz, desto höher die Tonhöhe.

Phase
Eine Schwingung lässt sich durch eine sog. Phase darstellen. – Die Phase gibt die Entfernung eines "in der Zeit verlaufenden Signals" (wie z. B. Schall) zu seinem Ursprungspunkt an. Der Verlauf des Signals wird dabei mit Hilfe von Winkelmaßen angegeben. Der Ursprungspunkt des Signals wird immer mit 0° angegeben. Eine Schwingung wird in zwei Halbwellen dargestellt: Der Ursprung beider Halbwellen liegt direkt auf der horizontalen Achsen-Ebene (x-Achse). Die Phase beider Halbwellen beträgt jeweils 180°. Die Phase der ersten Halbwelle reicht also von 0° bis 180°, die der zweiten von 180° bis 360°. Eine Halbwelle verläuft oberhalb der x-Achse. Sie liegt dadurch im positiven Wertebereich der vertikalen Achsen-Ebene (y-Achse), weswegen man sie als positive Halbwelle bezeichnet. Die andere Halbwelle verläuft unterhalb der x-Achse. Sie liegt somit im negativen Wertebereich der y-Achse und wird deswegen negative Halbwelle genannt. Bildlich gesprochen bildet die positive Halbwelle einen "Wellenberg", die negative ein "Wellental". Die erste Halbwelle schneidet bei 180° die x-Achse. 180° entsprechen ½ Schwingungsdurchgang. Am Ende der zweiten Halbwelle liegt der Schnittpunkt mit der x-Achse dann bei 360°. 360° entsprechen einem vollständigen Schwingungsdurchgang. 360° ist auch die Gradzahl eines Kreises. Eine einzelne Schwingung ist also nichts anderes als eine in der Zeit verlaufende Kreisumdrehung.

27

Audio-Mastering-Guide

Signalphase

Hörumfang
Der Hörumfang des menschlichen Gehörs reicht offiziell von 16 Hz bis ≤ 20 kHz. Der Hörumfang für hohe Frequenzen verringert sich mit steigendem Alter bis hinab zu ≤ 15 kHz. Frequenzen < 16 Hz gehören zum Infraschallbereich. Frequenzen < 70 Hz gelten als Tiefbässe (Subbass). Oberhalb von 20 kHz beginnt der Ultraschallbereich. – Untersuchungen der Universität Heidelberg haben jedoch ergeben, dass Menschen (wenn auch unter Schmerzen und bei sehr hoher Lautstärke) in der Lage sind, Frequenzen bis 40 kHz wahrzunehmen.

28

Frequenzbereiche und ihre Charakteristika

Frequenzbereiche und ihre Charakteristika
16 Hz 16–40 Hz Untere Hörschwelle Bassfundament I Alles unterhalb von 16 Hz ist unhörbar. Dieser Bereich ist mehr fühl- als hörbar und kommt in Musikproduktionen nur vor, um entsprechende Soundeffekte zu realisieren (Gewitter, Explosionen, tief-frequente Soundeffekte). Die genaue Reproduktion dieses Bereiches ist nur mit Subwoofern möglich, gestaltet sich aber als schwierig. Da in diesem Bereich in vielen Genres bzw. Produktionen im Bereich der U-Musik nichts Wesentliches mehr vorhanden ist, wird er normalerweise entfernt. 40–63 Hz Die Wiedergabe dieses Bereichs erfordert ebenfalls oft Subwoofer.

63–80 Hz

Bassfundament II

Ab ca. 63 Hz beginnt der Bassbereich, wo Tonhöhen bereits wahrgenommen werden können. Hier beginnt auch der Frequenzbereich der menschlichen Stimme. Ein oft stark betonter Bereich, den die meisten Wiedergabesysteme auch ohne Subwoofer problemlos wiedergeben können.

80–125 Hz

200–500 Hz

Fundament eines Musikstücks

Dieser Bereich gilt als das Fundament eines Musikstücks. Es ist abzugrenzen vom eigenständigen Bassfundament von 60–125 Hz. Wird der Bereich 200–500 Hz überbetont, kommt es leicht zu Dröhnen und einem matschigen Klang. Bereich für das Timbre der menschlichen Stimme. Diesen Frequenzbereich nimmt das Gehör gegenüber anderen Frequenzbereichen tendenziell am lautesten wahr. Bei ~ 1–1,6 kHz liegt der Bereich für den sog. „Telefonsound“. Bereich der S- und Zischlaute. Ist dieser Bereich zu stark betont, können Signale zu höhenlastig und zischelnd klingen. Ist dieser Bereich ausgewogen, kann bei manchen Signalen der Eindruck von Transparenz und Präsenz betont werden. Frequenzbereich für sehr hohe Töne. Ist dieser Bereich überbetont, kann ein nasaler, zischelnder Klang entstehen, der daher als "Schlangenzischeln" bezeichnet wird.

800 Hz–4 kHz 1–4 kHz

6–8 kHz

8–11 kHz 11–20 kHz

~ 15–19 kHz

Obere Hörschwelle

Beginn der oberen Hörschwelle (abhängig vom Alter und Zustand des Gehörs). Ende der oberen Hörschwelle

20 kHz

3.2 Lautstärke (Schalldruckpegel) und Signalpegel
Unter dem Begriff Lautstärke versteht man in der Tontechnik die Intensität des Schalldrucks. Hierbei ist natürlich der Luftschalldruck gemeint.

Amplitude
Die Höhe des Schalldruckpegels oder des Signalpegels lässt sich grafisch anhand einer sog. Amplitude darstellen. Während die Phase ja nur die Entfernung zum Ursprungspunkt (eines in der Zeit verlaufenden) Signals angibt, gibt die Amplitude die "Auslenkung" eines in der Zeit verlaufenden Signals an. Bei der Signal-Amplitude entspricht dies praktisch der "Höhe" des Signalpegels.

29

Audio-Mastering-Guide

Die Schwingung wird auch hier wieder in zwei Halbwellen dargestellt, die zusammen eine Schwingung (=einen Schwingungsdurchgang) ergeben. Der höchste Punkt der Halbwelle ist der, an dem sie am meisten von der x-Achse entfernt ist. Er bildet den Amplitudenwert der Halbwelle, den man Spitzenwert (engl. "Peak")3 nennt. Pegelmessgeräte messen den Spitzenwert (Peak) eines Signals und werden deshalb auch Peak Program Meter (PPM) genannt.

Spitzenwert

Spitze-Tal-Wert
Schwingungszustände

Der Peak-to-Peak-Level (Spitze-Spitze-Wert [Spitze-Tal-Wert]) entspricht hingegen die Höhe beider Halbwellen und gibt dadurch den Amplitudenwert eines Schwingungsdurchgangs (=positive und negative Halbwelle) an. Ein Schallsignal verläuft (im Gegensatz zu reinen Sinus-Signalen) typischerweise nicht periodisch, daher sind beide Halbwellen in dem Fall auch nicht gleichgroß.

Messung des Pegels Schalldruckpegel-Angaben in Pascal (pa) und dBSPL
Der Schalldruck wird in der Einheit Pascal (Pa) gemessen und als Schalldruckpegel (Lp) bzw. Sound Pressure Level (SPL) angegeben. Die Darstellung in Pascal bringt leider sehr große unübersichtliche Zahlenwerte mit sich, die von 2 ∙ 10-5 bis 1,5 ∙ 102 Pa reichen können. Pascal kann man jedoch in Newton-Meter (N/m2) umrechnen. Dabei gilt:
1 Pa = 1 Newton pro m2 (1 N/m2)

Doch auch dann wir die Darstellung nicht übersichtlicher: 0.00002 bis > 200 N/m2

3Bei

rein periodisch verlaufenden Signalen (z. B. Sinusschwingung) benutzt man für die höchste Amplituden-Auslenkung die Bezeichnung Maximalwert oder Scheitelwert. "Periodisch" bedeutet, dass die Intervalle zwischen den Maximalwerten gleich sind. Das ist im Allgemeinen bei Klängen der Fall, – nicht aber bei Geräuschen.

30

Signalpegel in dBu

– Deswegen nutzt man zur Darstellung des Schalldruckpegels (SPL) das Dezibel (dB). Damit das Dezibel (dB) überhaupt als Maßeinheit dienen kann, benötigt es einen Referenzwert. Der Referenzwert wird immer für die Angabe "0 dB" festgelegt. Er bestimmt, für was "0 dB" stehen soll. Die Angabe "0 dB" veranschaulicht dabei, dass es zwischen 0 dB und dessen jeweiligen Referenzwert keinen (also "null") Unterschied gibt! Für die Darstellung des Schalldruckpegels wird 0 dB mit 2 ∙ 10-5 Pa definiert. Umgerechnet in µPa kann man es sich besser merken: 0 dB = 20 µPa Um klarzustellen, dass mit Dezibel der Schalldruckpegel gemeint ist, schreibt man (zumindest im englischen Sprachraum4) dBSPL. Eine Erhöhung des dB-Pegels um 6 dB entspricht einer Verdoppelung des Schalldrucks.

Signalpegel in dBu
Bei einer Mikrofon-Aufnahme werden Schall-Signale in elektrische Spannungswerte "übersetzt". Elektrische Spannungswerte lassen sich natürlich auch erzeugen, ohne dass man sie über Lautsprecher zu Schallsignalen umwandeln muss5. – Deswegen spricht man beim Pegel eines aufgezeichneten Audio-Signals nicht mehr vom "Schalldruckpegel", sondern vom Spannungspegel oder Signalpegel. Wenn z. B. ein Musikstück am PC abgespielt wird, ist das, was auf der jeweiligen Pegel-Anzeige angezeigt wird, der Signalpegel und nicht der Schalldruckpegel! (Wie hoch beim jeweiligen Signalpegel der über die Lautsprecher abgegebene Schalldruckpegel sein wird, liegt daran, wie stark man den Signalpegel mit Hilfe von Vorverstärkern, Endstufen und Lautsprechern verstärkt.) Der Signalpegel wird bei analogen Geräten in dBU (und manchmal in dBV) angegeben. Dabei gibt es verschiedene Definitionen, welche Spannung (in Volt) 0 dBu entsprechen. Bei digitalen Geräten wird der Spannungswert digital (als binäre Zahl) codiert und dann in dBFS (dB FullScale) angegeben. Auch dort wird 0 dBFS durch einen bestimmten dBu-Referenzwert definiert.

dB-Angaben mit Bewertungsfilter
dB-Angaben des Schalldruckpegels, die mit Hilfe eines sog. "Bewertungsfilters" durchgeführt wurden, werden unter Angabe des verwendeten Bewertungsfilters dargestellt. Jeder Bewertungsfilter ist durch einen Buchstaben benannt, den man einfach der dB-Angabe hinzufügt: dBA, dBB, dBC oder dBD6. Solche Angaben bezeichnet man auch als bewertete oder gewichtete (engl. "weigthed") Messung.

4

In Deutschland schreibt man stattdessen dB. erzeugen diese elektrischen Signale, sobald man sie über Lautsprecher ausgibt, wieder ein Schallsignal und damit einen Schalldruckpegel. 6dBA und dBC sind in der Tontechnik die gebräuchlichsten Bewertungsfilter bei dB-Angaben. dBD spielt z. B. eher bei für Flugzeugtechnik üblichen Pegeln eine Rolle.
5Natürlich

31

Audio-Mastering-Guide

Da es durch einen Bewertungsfilter zu anderen Messergebnissen kommt, die zudem nur auf Testtöne bezogen sind und damit streng genommen nur für diese Testtöne gelten, lassen sich solche Angaben nicht nach dBSPL umrechnen. Beim Bewertungsfilter A ("a" steht hier für das engl. "adjusted"=angeglichen, bereinigt) wird bei der Frequenzgewichtung die Sensibilität des menschlichen Gehörs berücksichtigt. Leider erlauben Messungen in dBA eine geschönte Darstellung wichtiger Messwerte von Audioequipment (wie z. B. Rauschen).

Von der Hörschwelle zur Schmerzgrenze...
Die Hörschwelle legt fest, ab welchem Schalldruckpegel ein Schallereignis hörbar wird (also zu einem Hörereignis wird). Hierfür kommt es nicht nur auf die Höhe des Schalldrucks, sondern auch auf dessen Frequenz und die subjektive Wahrnehmung des Hörers an. Dadurch ergibt sich ein gewisser Toleranzbereich. Bezogen auf 1–2 kHz entspricht die Hörschwelle ungefähr 0 dBSPL (= 2 · 10-5 Pa). Die Hörschwelle kann (bei bestimmten Frequenzen) sogar bei -5 dBSPL (= 0.000011247 Pa) beginnen. Für die Schmerzschwelle (Schmerzgrenze) gibt es drei verschiedene Definitionen: 120 dBSPL ; 137,5 dBSPL und 140 dBSPL. Es gibt eine Tendenz dazu, sie mit zu 137,5 dBSPL anzugeben. – Subjektiv "unangenehm laut" kann es aber schon nahe 120 dBSPL werden, weswegen man dort von der Unbehaglichkeitsschwelle spricht.

32

Tabelle: Lautstärke (in dBA) von Schallereignissen – Ohne Bezug auf den Hörabstand ziemlich sinnlos!

Tabelle: Lautstärke (in dBA) von Schallereignissen – Ohne Bezug auf den Hörabstand ziemlich
sinnlos!

Lautstärke (dBA)
0 10 20 30 40 50 60 70 80 90 100 110 > 120 120 137.5 140 160 180

Schallereignis
Hörschwelle Stille Blätterrauschen im Wald Tropfender Wasserhahn Flüstern Brummen eines Kühlschranks Leise Radiomusik, üblicher Tagespegel im Wohnbereich Pkw in 15 m Abstand Schreibmaschine in 1 m Abstand PKW mit 50 km/h in 1 m Abstand LKW-Motor in 5 m Abstand Kreissäge, Lärm in einem Kraftwerk, Posaunenorchester Propellerflugzeug in 7 m (!) Abstand Beginn der Unbehaglichkeitsschwelle Verkehrsflugzeug in 7 m Abstand Schmerzschwelle Düsenjäger in 7 m Abstand Gewehrschuss in Mündungsnähe Schuss aus Spielzeugpistole neben dem Ohr

(*Diese Tabelle zeigt "mögliche" Beispiele, welche Schallereignisse welchem gewichteten dB-Pegel entsprechen "können". Solche Angaben sind erst aussagekräftiger, wenn sie sich auch auf die Entfernung zwischen Schallquelle und Hörer (Hörabstand) beziehen, obwohl man sich natürlich unter "lauter Discothek" eher etwas vorstellen kann, als unter einem Düsenjäger in 7 m Abstand... Eine Pegelangabe kann jedoch nur für einen bestimmten Hörabstand gelten. Deswegen wurden in dieser Tabelle möglichst Beispiele aufgeführt, die den Abstand zur Schallquelle einbeziehen. Leider wird dies bei den meisten Tabellen nicht berücksichtigt. Z. B. wird das "Brummen eines Kühlschranks" nur bei einem bestimmten Hörabstand 40 dB(A) betragen. Bei welchem, liegt natürlich auch am Kühlschrank-Fabrikat. )

33

Audio-Mastering-Guide

Lautheit (psychoakustische Lautstärke) – Alles ist genauso laut, wie du es hörst...
Lautstärke Lautheit Lautstärkepegel Bedeutung in der Alltagssprache Subjektiv wahrgenommene Lautstärke Bedeutung in der Tontechnik Physikalischer Schalldruck Auch: Aussteuerung eines Signals Subjektiv wahrgenommene Lautstärke Physikalischer Schalldruck 1 kHz-Sinus-Signal bei Messangabe des physikalischen Schalldrucks Schalldruckpegel

Unter "Lautstärke" versteht man in der Tontechnik lediglich den SchalldruckpegeI. Unter dem Begriff "Lautheit "versteht man hingegen die "gehörte Lautstärke". "Gehörte Lautstärke" bedeutet also, als wie "laut" man subjektiv den jeweiligen Schalldruckpegel wahrnimmt. Statt Lautheit kann man auch "psychoakustische Lautstärke" sagen. Im allgemeinen Sprachgebrauch kennt man für die subjektiv wahrgenommene ("gehörte") Lautstärke nur das Wort "Lautstärke", weswegen "Lautheit" erstmal sehr ungewohnt klingt. Mit dem "Lautstärkepegel" wird in der Tontechnik dann allerdings die Höhe des "Schalldruckpegel" bezogen auf ein 1 kHz-Sinus-Signal angegeben, was hauptsächlich zu Vergleichszwecken der Lautheit verschiedener Töne dient. Signale, die den gleichen Schalldruckpegel besitzen, können trotzdem unterschiedlich laut klingen. – Ebenso können unterschiedliche Schalldruckpegel in manchen Fällen gleichlaut klingen. Die "gehörte Lautstärke" eines Schallsignals kann von Faktoren wie Frequenz, Alter, Gehör, – aber auch die Art der Musik (z. B. ansteigende Tonfolge), mentaler Stimmung und körperliche Verfassung beeinflusst werden. Z. B. nimmt man Geräusche kurz vor dem Einschlafen als lauter wahr. Wie bereits erwähnt "verdoppelt" sich der Schalldruckpegel (SPL) alle 6 dB. Von einer "Verdoppelung" der Lautheit ist bei der Erhöhung des SPL um 6–10 dB auszugehen. Eine Verdoppelung der Lautheit kann (laut neueren Untersuchungen) auch bereits bei einer Erhöhung des SPL um 6 dB erfolgen. Dadurch sollte der sonst angenommene Wert von 10 dB nicht mehr als der absolute Richtwert aufgefasst werden. Eine Verdoppelung des Schalldruckegels kann also durchaus einer Verdoppelung der Lautheit entsprechen. Spätestens bei einer Anhebung des SPL um 10 dB ist jedoch von einer Verdoppelung der Lautheit auszugehen. Die Aussagekraft solcher Theorien darf man dennoch in Frage stellen. Wie will man das subjektive Empfinden, ab wann etwas "doppelt" so laut wäre, genau bestimmen? – Versuchen Sie einmal, ihr Badewasser "doppelt" so "warm" zu machen – oder waren Sie schon mal "doppelt" so "verliebt" in jemanden? Hat Ihnen das Dessert heute "doppelt" so "gut" geschmeckt? – Es ist nicht möglich der Intensität einer Empfindung (wie eben dem Lautstärke-Empfinden) einen genauen Zahlenwert

34

Phon und Sone – ... aber messen wollen wir es trotzdem!

zuzuordnen. Deswegen ist auch die Behauptung eine "Verdoppelung" der gehörten Lautstärke hier sehr fragwürdig. Man sollte es also lieber so formulieren: Die Lautheit ist so viel höher, dass man subjektiv meinen könnte, sie wäre doppelt so laut. "Gehörte Lautstärke" objektiv anzugeben, ist und bleibt also immer nur ein Versuch. – Das letztendlich beste Messinstrument zur Beurteilung der Lautheit ist das eigene Gehör.

Phon und Sone – ... aber messen wollen wir es trotzdem!
Die Lautheit gibt man zu Vergleichszwecken mit der ansonsten weniger gebräuchlichen Einheit Phon (Lautstärkepegel) an. Der Laustärkepegel in Phon ist der Schalldruckpegel in dBSPL eines 1 kHZ-Signus-Signals. Bezogen auf einen 1 kHz-Sinuston stimmen Phon und dBSPL-Angaben also überein. Deswegen kann man Phon-Angaben auf einer dB-Skala darstellen. Leider eignet sich der Lautstärkepegel in Phon nicht so gut für eine anschauliche Darstellung der Lautheit, da er sich nicht proportional zur gehörten Lautstärke verhält. – Mit der Einheit Sone gelingt es, die Lautheit linear und mit kleineren Zahlenwerten darzustellen. Eine "Verdoppelung" des Sone-Wertes steht also immer für eine "Verdoppelung" der Lautheit. Grundlage der Einheit Sone ist dennoch die Einheit Phon (Lautstärkepegel). Daher sind beide Einheiten auch problemlos ineinander umrechenbar.7 Phon
20 30 35 40

Sone
0.15 0.3 Blätterrascheln 0.5 1 Klimaanlagen u. ä. pianissimo possibile (ppp) pianissimo (pp) piano (p)

dB(A)

23.5 24.4 29.2

50 60 70 80 90 100

2 4

Normale Unterhaltung (bei 1 m Hörabstand)

35.8

8 Schreibmaschine (in 1 m Hörabstand) 16 32 64 forte (f) fortissimo (ff)

1 Sone entspricht 40 phon. Einer Pegelerhöhungen um 10 phon ergibt eine Verdoppelung des Sone-Werts. Schallsignale bis 1 Sone gelten noch als "sehr leise".
7

Sone- und dBA-Angaben lassen sich erst dann – und nur sehr ungefähr – miteinander vergleichen, wenn sie sich auf frequenzreine Signale beziehen, z. B. einen 1 kHz-Ton.

35

Audio-Mastering-Guide

Schallsignale ab 3 Sone gelten als nicht mehr überhörbar.

dB RMS
Die Lautheit wird zwar mit der Einheit Sone dargestellt, aber in der Tontechnik oft anhand des dB RMS gemessen. dB RMS (engl.="root mean square", RMS8) gibt den quadratischen Mittelwert des Signalpegels an9, also den durchschnittlichen Signalpegel. Da hier also nicht der Spitzenpegel (Peak) des Signals angegeben wird, fällt eine Messung des Signalpegels in dB RMS logischerweise immer niedriger aus. dB RMS wird fälschlicherweise oft als "Maßeinheit" der Lautheit betrachtet. dB RMS bezieht sich aber nicht auf den Schalldruckpegel sondern auf den Signalpegel. Messungen in dB RMS berücksichtigen auch nicht, dass die Lautheit frequenzabhängig ist. Z. B. tragen Tiefbässe weniger zu einer hohen Lautheit bei als hohe Frequenzen. Dadurch können RMS-Angaben selbst bei Stücken, die subjektiv gleich laut klingen, stark voneinander abweichen.

Digitaler Signalpegel in dB Full Scale (dBFS) – Wenn aus Spannung plötzlich Zahlen werden...
Bei der digitalen Audiobearbeitung wird der Signalpegel in dBFS (=dB Full Scale) dargestellt. Mit dBFS wird die digitale Aussteuerung des Signals angegeben. Obwohl 0 dBFS auch mit einem bestimmten Spannungspegel in dBu definiert wird, zeigt dBFS nur die digitale Aussteuerung des Signals an. 0 dBFS entspricht dem höchsten fehlerfrei darstellbaren binären Zahlenwert10. dBFS-Angaben zeigen nun die Höhe der digitalen Aussteuerung relativ zu diesem höchsten digital darstellbaren Wert an. Dafür werden der dBFS-Pegel immer mit negativen Vorzeichen angegeben (-5 dBFS; -10 dBFS usw.). Je größer der negative Zahlenwert also ist, umso geringer ist der Pegel. Das kann zunächst verwirrend wirken, denn dadurch entsprechen niedrige Werte (wie z. B. -5 dBFS) einem höheren Pegel als relativ hohe Zahlenwerte (wie z. B. -20 dBFS).

3.3 Signal-Übersteuerungen (Clipping) Übersteuerungen im digitalen Bereich
Oberhalb von 0 dBFS sind Signale nicht mehr fehlerfrei darstellbar. Es kommt dort sofort zu klanglich sehr unangenehmen Verzerrungen (engl.="clipping"; "digital over"). Deswegen nennt man diesen kritischen Punkt auch "Clipping Point", da das Signal oberhalb von 0 dBFS quasi "weggeschnitten" (engl.="to clip") wird.
8Die

RMS-Leistung eines Signals wird ermittelt, indem es in Relation zu einem Pink Noise (dt.="Rosa Rauschen") gesetzt wird. (Pink Noise ist ein Signal, das über den gesamten Frequenzbereich hinweg gleichlaut ist.) Vom jeweiligen Ergebnis wird dann der quadratische Mittelwert gebildet. 9Auch als Effektivwert bezeichnet. 10Bei digitalen Audiosystemen wird die Musik durch digitale Werte codiert. Verschiedenen Punkten der Amplitude wird hierbei ein Bitwert (binärer Zahlenwert) zugeordnet. Dem höchsten (darstellbaren) Amplituden-Zustand wird dabei der Wert 0 dBFS (Fullscale) zugeordnet. Er ist gleichzeitig der letzte Wert, den das System fehlerfrei (ohne digitale Verzerrung) darstellen kann.

36

Übersteuerungen bei digitalen Wiedergabegeräten

Übersteuerungen bei digitalen Wiedergabegeräten
D/A-Wandler (Digital-Analog-Wandler) findet man in jedem digitalen Wiedergabegerät. Wie der Name schon sagt, wandeln sie digitale Werte in ein analoges Signal um. Da Clipping erst oberhalb von 0 dBFS entsteht, könnte man meinen, Signale wäre bis 0 dBFS generell fehlerfrei darstellbar. Diese Annahme stellte sich im Laufe der letzten Jahre leider als Irrtum heraus. – D/A-Wandler basieren nämlich nicht nur auf digitaler Technologie, sondern besitzen auch analoge Komponenten (z. B. OP-Amps). – Nur wenn diese analogen Bauteile hochwertig genug sind, können Pegel nahe 0 dBFS sauber dargestellt werden. Das ist jedoch nicht immer der Fall. Je nachdem, welcher dBu-Spannungswert mit 0 dBFS definiert wird, kann 0 dBFS auch einem Pegel von +18 oder gar +24 dBu entsprechen. Einen so hohen Signalpegel wie +24 dBu sauber darzustellen, gelingt nicht jedem Wandler. Möchte man also vermeiden, Klangverschlechterungen durch überstrapazierte Wandler-Komponenten zu riskieren, sollte man Signale nie höher als von -10 dBFS bis max. -6 dBFS auspegeln. Manche D/A-Wandler erzeugen bereits digitales Clipping, wenn Signalen sehr nah unter 0 dBFS liegen. – Diese Art von Clipping wird durch Rekonstruktions-Filter ausgelöst, die die Übergänge zwischen zwei Samples re-konstruieren. Das rekonstruierte Signal kann in manchen Fällen oberhalb von 0 dBFS liegen, was natürlich zu Clipping führt. Dieses Clipping entsteht also im Bereich zwischen zwei Samples, dem sog. Inter-Sample-Bereich. Es ist nicht direkt als eine "Verzerrung" wahrnehmbar, aber als Klangverschlechterung. Besonders bei aktuellen auf Lautheit getrimmten Produktionen werden im Inter-Sample-Bereich nicht selten Verzerrungen von ca. +3 dBFS gemessen. Die effektivste Gegenmaßnahme wäre also fertige Produktionen auf max. -3 dBFS auszusteuern. – Doch wer verschenkt schon gern 3 dB!? Da niemand auf die Idee kam, Peaks im Inter-Sample-Bereich zu messen, blieb dieses Phänomen lange Zeit unentdeckt. Aufgrund des Einhaltens der 0 dBFS-Grenze wog man sich in Sicherheit. Ab den 90ern wurden etliche kommerzielle Produktionen mit Inter-Sample-Clipping veröffentlicht. Ohne die "loudness race" wäre dies sicherlich nur in einem geringen Ausmaß passiert. Meist sind billige Wandler in Consumer-Geräten und Studio-Equipment der Unterklasse besonders anfällig für Inter-Sample-Clipping. Eine Produktion kann beim Einsatz guter D/A-Wandler also noch frei von Inter-Sample-Clipping sein, aber durch schlechte D/A-Wandler zahlreiche Inter-Sample-Peaks bilden. – Das Inter-Sample-Clipping ist (in diesem Fall) aber kein fester Bestandteil der Aufnahme, sondern tritt nur beim Playback aut. Die schlechte Nachricht ist, dass viele Hörer keine Wiedergabegeräte mit ausreichend guten Wandlern besitzen. Inter-Sample-Peaks können jedoch auch zu Aufnahme-Bestandteilen werden: Z. B. wenn hoch ausgesteuerte Audio-Signale mit mittelmäßigen A/D-Wandler recordet werden. Die Firma Solid State Logic bietet auf ihrer Internetpräsenz ein kostenloses Inter-Sample-Peakmeter als Audio-Plug-in für PC und MAC an.

37

Audio-Mastering-Guide

links: Pegel ohne digitale Übersteuerung, rechts: Pegel mit digitaler Übersteuerung (Clipping).

Übersteuerungen im analogen Bereich
Bei korrekt kalibrierten Signalpegelmessern kann im analogen Bereich bis zur Pegelanzeige von 0 dB verzerrungsfrei ausgesteuert werden. Der Pegelanzeiger sollte sich also überwiegend bei 0 dB befinden. Dieser Aussteuerungsbereich wird Vollaussteuerung genannt. Ab Überschreiten von 0 dB treten Verzerrungen erst allmählich auf. Wann oberhalb von 0 dB eine sofortige maximale Verzerrung auftritt, liegt am Gerät selbst. – Sehr gute Studiogeräte können sogar Signalspannungen > +24 dBu noch verzerrungsfrei darstellen. Ein angezerrtes Signal kann bei analogem Equipment klanglich sogar sehr reizvoll sein. Deswegen ist das kurze und geringfügige Überschreiten der 0 dB-Marke stets unkritisch. 0 dB entsprechen einem bestimmten Bezugspegel in dBu. Dieser lässt sich auch in Volt [V] darstellen. 0 dB kann für einen der folgenden Bezugspegel stehen:
• • •

+6 dBu +4 dBu -7 – 7.8 dBu

(=1.55 V) (=1.228 V) (=0.316 V)11

(EU-Studio-Pegel) (US-Studio-Pegel) (Heimgeräte-Pegel, Consumer-Level)

0 dB werden also nicht einfach mit 0 dBU definiert. – Der auf der dB-Aussteuerungs-Skala angezeigte dB-Wert entspricht also nicht dem Signalpegel in dBu. Wie der Bezugspegel für 0 dB beim jeweiligen Gerät lautet, steht normalerweise in der Bedienungsanleitung des jeweiligen Geräts. Der Bezugspegel wird also nicht direkt auf der dB-Skala angegeben.

11

Dieser Wert entspricht -10 dBV.

38

Peakmeter (PPM) und VU-Meter

Bei Consumer-Geräten sind die Bauteile für erheblich schwächere Signalspannungen ausgelegt, als bei Studiogeräten. Dies kann zu erheblichen Problemen bei der Anpassung von Consumergeräten an Geräten mit Studiopegel führen. Man darf in Geräte auf Consumer-Level also keine zu hohen Signalspannungen "reinjagen". Bei manchem Equipment lässt sich jedoch einstellen, ob ein Gerät mit Studio- oder Consumerpegel arbeitet.

3.4 Signalpegelmessung (Metering) Peakmeter (PPM) und VU-Meter
Die Signalstärke des Audiomaterials wird mit einem Peak-Program-Meter (kurz: Peakmeter; dt.= "Spitzenpegelmesser") oder VU-Meter (Volt Unit-Meter) gemessen. Das Peakmeter dient dazu, den momentanen Spitzenpegel (Peak-to-Peak-Level) anzuzeigen. Dadurch besitzt es sehr schnelle Ansprechzeiten von ca. 10 ms. Natürlich muss ein Peakmeter und VU-Meter korrekt kalibriert sein. – Ansonsten zeigt es falsche Werte an. Dann entsteht die Gefahr, das Signal zu niedrig oder zu hoch auszupegeln. Will man ein Peakmeter z. B. auf den US-Studiopegel kalibrieren, muss das Gerät so eingestellt werden, bei einem anliegenden +6 dBu-Signal 0 dB auf der dB-Skala angezeigt werden.

Skalierungen von Peakmetern – Eine Vielzahl von Definitionen
Peakmeter können eine der folgenden Skalierungen besitzen12:
Raum Skalierung Bezeichnung Analoge Skalen Deutschland -50 dB bis +5 dB 0 dB bei "0" Skandinavien -40 bis +12 dB 0 dB bei Markierung "Test" Großbritannien Typ IIa: Wertebereich "1" bis "7" (Mit 4 dB Abstand zwischen den Marken.) British Scale UK-Scale BBC-Scale Typ IIa: +8 dBu (=1.94 V) Nordic Scale +0 dBu (=0.075 V) DIN-Norm +6 dBu (=1.55 V) Referenzwert für 0 dB

International

-12 bis +12 dB 0 dB bei Markierung "Test"

EBU-Standard

+9 dBu (=2.18 V)

12Alle

diese Skalierungen sind in der DIN IEC 60268-10 (Ia, IIa, IIb) und für digitale Skalierungen in der DIN IEC 60268-18 genau definiert.

39

Audio-Mastering-Guide

Digitale Skalen Deutschland -60 bis +9 dB +9 dB = 0 dBFS -50 bis +5 dB +5 dB = -4 dBFS Program-Level: +6 dBu bei -9 dBFS EU EBU R68 +18 dBu ARD-Studio-Norm +15 dBu

USA

-60 dB bis 0 dB

SMPTE RP155

+24 dBu

Frankreich u. a.

+22 dBu

Bei der ARD-Studio-Norm entsprechen 0 dBFS der +9 dB-Marke und nicht, wie sonst üblich, der 0-dB-Marke. – Bei manchen dieser Peakmeter reicht die Skala aber nur bis zu +5 dB-Marke und dadurch nur bis -4 dBFS. Pegel von -4 dBFS bis 0 dBFS werden also nicht angezeigt. Es existieren vier dBu-Referenzwerte für 0 dBFS. EBU und SMPTE gelten als die gebräuchlichsten Skalen. Von allen digitalen Skalen ist der dBu-Bezugspegel für 0 dBFS bei der ARD-Studio-Norm am niedrigsten. Ein digitales Peakmeter geht von einem Clipping im Signal aus, wenn mehrere Samples hintereinander einen Pegel nahe oder gleich 0 dBFS besitzen. – Dadurch besteht das Risiko, das ein Clipping angezeigt wird, obwohl gar kein Digital Over im Signal vorkommt. Durch mangelnde Messgenauigkeit oder durch unpassende Messeinstellungen zeigen digitale Peakmeter manchmal kein Clipping an. – Deswegen ist eine ergänzende Beurteilung nach Gehör oft zuverlässiger. Wurde ein digitales Clipping beim recorden mit aufgenommen, wird es automatisch zu einem Aufnahmebestandteil und beträgt dadurch nach der Aufnahme ≤0dBFS. Dadurch kann dieses Clipping vom Peakmeter nicht mehr angezeigt werden. Wenn das Playback-Signal hinterher zu hoch ausgesteuert wird, zeigt das Peakmeter die dadurch ausgelösten Übersteuerungen an, – nicht aber die im Playback bereits enthaltenen Übersteuerungen.

40

Skalierungen von Peakmetern – Eine Vielzahl von Definitionen

Skalierungen des VU-Meters
VU-Meter Raum USA Skalierung -20 bis +3 VU 0 bis 100 % Bezeichnung US-Norm 1-Zoll-VU Referenzwert für 0 VU +4 dBU (=-20 dBFS) +8 dBu dBFS-Referenzwert für 0 VU -20 dBFS (US-Norm) -18 dBFS (EBU-Norm) -16 dBFS -14 dBFS -12 dBFS (Tascam-Norm)

Das VU-Meter ist ein analoges Pegelmessinstrument mit einer Skala von -20 bis +3 VU und einer zusätzlichen Skala mit Prozentangaben. Nach US-Norm entsprechen 0 VU (bzw. die 100 %-Marke) einem Pegel von +4 dBu (=1.228 V). – Eine andere, bei 1-Zoll-Studio-Bandmaschinen gebräuchliche Norm, definiert die 0 VU-Marke sogar mit +8 dBu. 0 dBFS überschreitet meist die Skala des VU-Meters. – Deswegen findet man im digitalen Bereich VU-Meters, die für eine digitale Skalierung ausgelegt sind. Durch seine langsame Reaktionszeit von ca. 300 ms arbeitet das VU-Meter ca. 30-mal träger als ein Peakmeter. Deswegen nützt das VU-Meter nur, um den Durchschnitts-Pegel eines Signals beurteilen und somit Rückschlüsse auf die Lautheit zu ziehen. – Es ersetzt für eine Beurteilung der Lautheit jedoch nicht das menschliche Ohr.

VU-Meter

Foto: © Iain Fergusson, 2006

41

Audio-Mastering-Guide

3.5 Frequenzabhängige Lautstärkewahrnehmung (Kurven gleicher Lautstärkepegel)

Kurven gleicher Lautstärkepegel

Abbildung: © J.Blauert, 2005

Die "gehörte Lautstärke" (Lautheit) ist immer abhängig von der Frequenz. Bei gleichem Schalldruckpegel (dBSPL) unterscheidet sich die Lautheit je nach Frequenz. Dabei gibt es folgende Tendenzen: Um der Lautheit eines 1 kHz-Tons (mit 3; 20; 40; 60; 80 und 100 phon) zu entsprechen ... 1. ...Muss der Frequenzbereich von ca. 5–20 Hz und bei < ~200 Hz einen relativ höheren Schalldruckpegel (SPL) besitzen. – Je tiefer bzw. höher dabei die Frequenz ist, desto höher muss der SPL sein. Daraus folgt: Tiefe und sehr hohe Frequenzen nimmt das Gehör leiser war als andere Frequenzen. 2. ...muss der Schalldruckpegel (SPL) bei Frequenzen > 200 Hz und besonders bei ~1.5–4 kHz tendenziell niedriger sein, als der des 1 kHz-Tons. Daraus folgt: Hohe Töne von 1.5–4 kHz und die Mitten ab 200 Hz aufwärts und nimmt das Gehör lauter war als andere Frequenzen. Nach Messungen von Harvey Fletcher und Wilden Munson nimmt das Gehör bei 85 dBSPL theoretisch die meisten Frequenzen gleichlaut wahr. Deswegen wird Musik oft bevorzugt bei 85 dBSPL abgemischt und gemastered. – Als genauer Wert hat sich hier bei Stereo-Wiedergabe 83 dBSPL pro Mono-Lautsprecher etabliert, was in Stereo dann wieder 85 dBSPL ergibt. Diese Vorgehensweise hat den Nachteil, dass ein so bearbeitetes Stück später eventuell nur bei und nahe 85 dBSPL wirklich ausgewogen klingt. – Da sich je nach SPL die Lautheit vieler Frequenzen wieder ändert, muss sichergestellt werden, dass eine Produktion auch dann noch ausgewogen klingt. Deswegen sollte man neben 85 dBSPL auch noch bei anderen Schalldruckpegeln abmischen und mastern.

42

Gehörrichtige Lautstärke-Entzerrung (Loudness, Contour)

Kurven gleicher Lautstärkepegel (nach Robinson-Dadson)
Die bereits 1933 von Fletcher-Munson ermittelten Ergebnisse entsprechen nicht mehr dem neusten Stand. Etwas davon abweichend sind die Messergebnisse von Robinson-Dadson, die 1956 vorgenommen wurden.

Kurven gleicher Lautstärkepegel (gemäß ISO 226:2003)
Die aktuellste Definition für "Kurven gleicher Lautstärkepegel13" aus dem Jahr 2003 ist in der ISO 226:2003 festgelegt. Im Bassbereich und ab ca. 1 kHz verlaufen die Kurven dort etwas steiler. – Die leicht abweichenden Ergebnisse der verschiedenen Definitionen ändern nichts daran, dass die Tendenzen im Wesentlichen erhalten bleiben: Sehr hohe und tiefe Frequenzen besitzen weniger Lautheit als der Bereich von 1–5 kHz.

Gehörrichtige Lautstärke-Entzerrung (Loudness, Contour)
Mit der Loudness- oder Contour-Funktion wird der Frequenzgang per Equalizer (dt.="Entzerrer") so korrigiert, dass die Lautheitsverhältnisse zwischen Bass-, Mitten- und Höhenbereich auch bei unterschiedlicher Wiedergabelautstärke erhalten bleiben. Diese Verfahrensweise bezeichnet man als "gehörrichtige Lautstärkeentzerrung".

13Anmerkung:

0.02 kHz=20 Hz; 0.2 kHz=200 Hz usw. Nur für einen 1 kHz-Ton kann sind Phon und dBSPL identisch. Deswegen stehen die Phon-Angaben in der Graphik immer bei 1 kHz.

43

Audio-Mastering-Guide

4. Grundlagen in Digital-Audio – Analog wird digital!?
4.1 Digitalisierung (A/D-Wandlung) Sampling und Samplerate – Abtastung mal häppchenweise!
Schall ist immer analog. Analoge Signale sind an sich immer kontinuierlich (unterbrechungsfrei, durchgehend). Die Schall-Amplitude besitzt deshalb zu jedem Zeitpunkt einen Wert, wodurch ein unendlicher Bereich an Werten ausgeschöpft werden kann. Beim Erstellen einer digitalen Aufnahme gelangt das Schall-Signal, umgewandelt als analoges Spannungs-Signal an einen Analog-Digital-Wandler14. Dort wird es in durch die Vergabe von Bitwerten15 ein digitales Signal umgewandelt. Bei diesem als Digitalisierung bezeichneten Vorgang kann das analoge Signal nur mit einer begrenzten Häufigkeit pro Sekunde abgetastet werden. – Zwangsläufig wird das analoge Signal dadurch nicht zu jedem Zeitpunkt (aufgezeichnet. Einige Signalbestandteile gehen dadurch verloren. Aus dem kontinuierlichen Signal wird ein unstetes (= diskretes) Signal. Die Samplerate (Abtastrate, engl. "sample"=Muster, [Kost]probe, kosten, ausprobieren) gibt an, wie oft die Abtastung des Signals pro Sekunde erfolgt. Bei einer Samplerate von 44.1 kHz wird das aufzunehmende Signal 44.100-mal pro Sekunde erfasst. Diesen Abtastvorgang bezeichnet man als Sampling. Eine Aufnahme, die 44.100-mal pro Sekunde erfolgt, kann vom originalen analogen Signal natürlich nicht so viel erfassen, wie eine, die z. B. 96.000-mal erfolgt. – Streng genommen ermöglicht eine Samplerate von 44.1 kHz also nur eine sehr verlustbehaftete Aufnahme. Dennoch genügt diese Samplerate, um den Frequenzbereich bis 22.05 kHz zu übertragen. Die zwischen den Aufnahme-Punkten (Samples) liegenden Lücken werden später bei der Digital-Analog-Wandlung durch Rekonstruktionsfilter "aufgefüllt". Dadurch kann das Ursprungssignal wieder mehr oder weniger originalgetreu re-konstruiert werden. So wird aus dem diskreten (digitalen) Signal wieder ein kontinuierliches (analoges). – Da das Signal aber unvollständig aufgezeichnet wurde, sind die Informationen über die Originalwerte der nicht aufgezeichneten Signalzustände dennoch verloren. Je nach Samplerate unterscheidet man folgende Qualitätsstufen: 20 kHz 44.1 kHz 48 kHz 96 kHz Radio-Qualität CD-Qualität DAT DVD Audio

14 15

A/D-Wandler, A/D-Converter (ADC). Ein Bitwert besteht aus einer binären Zahl (=aus Nullen und Einsen).

44

Quantisierung und Bitrate – Rein ins Schema!

Quantisierung und Bitrate – Rein ins Schema!
Jeder gesamplete Bestandteil der analogen Signal-Amplitude besitzt einen bestimmten Spannungswert ("Lautstärkewert", "Amplitudenwert"). Dieser muss beim Digitalisieren durch die sog. Quantisierung als binäre Zahl (Bitwert) codiert werden.16 – Dafür steht jedoch nur eine begrenzte Anzahl binärer Werte zur Verfügung. Besitzt die Amplitude des Samples einen Wert, der mit dem zur Verfügung stehenden digitalen Wertebereich nicht mehr codiert werden kann, wird ihr Wert zum nächstgelegenen bekannten Bitwert (auf- bzw. ab)gerundet. Das Runden ermöglicht also, selbst bei einem stark begrenzten Wertebereich jedem Sample einen Bitwert zuzuordnen. (Man stelle sich zum besseren Verständnis der Digitalisierung das analoge Signal einmal bildlich als "fließende Wasserwelle" vor. Diese "Welle" wird aus allerfeinsten nebeneinanderliegenden Klanginformationen gebildet, sodass man sagen kann: An jeder Stelle in dieser Welle gibt es eine eigenständige Klanginformation, die zu jedem Zeitpunkt einen anderen Wert haben kann: jede Millisekunde, aber auch jede Mikro-, Nano-, und Picosekunde... Somit ergibt sich ein Bereich von unendlich vielen möglichen Zeitpunkten und Werten. Beim "Sampling" wird mit einer bestimmten Häufigkeit aus der "fließenden Wasserwelle" eine "Stichprobe" (ein "Sample") herausgenommen. Natürlich wird dadurch immer nur ein Teil des vorbeiziehenden Wassers erfasst. Als nächstes geht es darum, dem Inhalt jeder "Stichprobe" mit einem dazu passenden Etikett zu kennzeichnen. Das Etikett soll zeigen, wie viel ml Wasser sich in jeder Stichprobe befinden. Leider wurde uns dafür nur eine begrenzte Anzahl an Etiketten zur Verfügung und es ergibt sich ein weiteres Problem: Die Etiketten sind alle bereits mit verschiedenen ml-Angaben vorbeschriftet. Glücklicherweise finden wir zu vielen Etiketten tatsächlich eine Stichprobe, die genau die auf den Etiketten angegebene Wassermenge enthält. Schließlich ergibt sich, dass wir trotzdem viele Stichproben haben, zu deren Wassermenge wir kein passendes Etikett finden. Also wird einfach improvisiert: Wir nehmen einfach die Etiketten, deren ml-Angaben der Wassermenge in den Stichproben annährend entsprich (Quantisierung).

16Im

Innenohr passiert beim Hören analoger Signale übrigens Ähnliches: Das Signal wird bei den letzten Schritten des Hörvorgangs aufgequantelt und sozusagen „digitalisiert“, – das aber sogar wesentlich gröber als es bei Digital-Aufnahmen der Fall ist.

45

Audio-Mastering-Guide

Prinzip der Digitalisierung

Entspricht der Amplitudenwert eines Samples einem der darstellbaren binären Werte, kann er problemlos zugeordnet werden. – Falls der Amplitudenzustand einen Wert besitzt, der (mit dem jeweiligen begrenzten digitalen Wertebereich) nicht mehr darstellbar ist, wird er zum nächstgelegenen Wert gerundet. Wenn also z. B. Theoretisch nur 255 binäre Werte vergeben werden können, können nur 255 Amplitudenwerte ohne Auf- und Abrunden codiert werden. Bildlich gesprochen ergibt sich dadurch ein Raster mit 255 verschiedenen Stufen. Liegt nun ein Wert der Signal-Amplitude außerhalb dieser Stufen, kann er nur dadurch berücksichtigt werden, indem er einfach der nächstgelegenen Stufe zugeordnet wird. In Wirklichkeit lag er aber zwischen den jeweiligen zwei Stufen dieses Rasters. (Vom Prinzip her verhält sich das so ähnlich, als wenn man einen Strich in mm ausmessen soll, dafür aber nur ein Lineal mit einer cm-Skala hat. Dann muss man z. B. einen 7 mm langen Strich beim Abmessen eben auf 1 cm aufrunden. Denn die cm-Skala des Lineals "kennt" nunmal den Wert "7 mm" nicht.) Sobald nicht mehr genug binäre Werte zur digitalen Codierung der Signal-Amplitude zur Verfügung stehen, werden Amplituden-Werte werden durch das Auf- und Abrunden beim Quantisieren verfälscht. – Die Rekonstruktions-Filter können bei der Digital-Analog-Wandlung die Lücken zwischen den Samples ausfüllen und dadurch wieder ein kontinuierliches (analoges) Signal-Amplitude erzeugen. Der ursprünglichen Amplituden-Verlauf zwischen den Samples kann nicht originalgetreu rekonstruierst werden: 1. Wenn Samples durch das Auf- und Abrunden nicht mehr den richtigen Amplituden-Wert besitze. 2. Wenn zwischen den einzelnen Samples größere Lücken liegen. Dann stehen weniger Anhaltspunkte für die genaue Rekonstruktion des Inter-Sample-Bereichs zur Verfügung stehen, als wenn die Lücken kleiner wären. Die Digitalisierung Amplituden-Verlauf. ergibt also ein gegenüber dem analogen Original-Signal verfälschten

46

Bitrate und Samplewert

Bitrate und Samplewert
Bitrate (Sampletiefe) 8 Bit 16 Bit 65.536 24 Bit 16 777 216 32 Bit 4 29 590 000

Samplewert 256 (Anzahl binärer Werte bzw. Spannungsstufen)

Der für die Quantisierung maximal zur Verfügung stehende Anzahl binärer Werte wird durch die Bitrate (Sampletiefe) angegeben. Mit jeder Erhöhung der Bitrate um ein Bit verdoppelt sich die Anzahl der zur Verfügung stehenden binären Werte. –Sind es z. B. bei 8 Bit nur 256, werden es bei 9 Bit schon 512. Die Summe der bei einer gegebenen Bitrate zur Verfügung stehenden binären Werte bezeichnet man auch als sog. Samplewert. Bezieht sich die Bitrate auf das Codieren der Signal-Amplitude, nennt man die binären Werte auch Spannungsstufen (bzw. "Lautstärkestufen"). Z. B. können bei 8 Bit 256 Amplituden-Werte des Signalpegels codiert werden, von denen jede einer bestimmten Signalspannung und damit einem bestimmten Spannungspegel (letztendlich also einer bestimmten "Lautstärke") entspricht. Je höher die Bitrate, umso häufiger wird es möglich, die Signal-Amplitude ohne Rundungen zu codieren.

Bitrate 8 16 24 32

Format CD DVD

Werte 256 65 536 16 777 216 4 29 590 000

4.2 Dynamikumfang (Systemdynamik)

Bitrate 1 4 8 16 24

Systemdynamik (dBFS) Samplewert bzw. Spannungsstufen -6.02 -24,08 -48,16 -96,32 -144,48 2 16 256 65.536 16.777.216 12 42 82 162 242

47

Audio-Mastering-Guide

Die Bitrate legt den darstellbaren Dynamikumfang fest. Der bei einer gegebenen Bitrate mögliche Dynamikumfang wird auch als Systemdynamik bezeichnet. Dynamikumfang = Bitrate ∙ 6.02 Aus dieser Formel ergibt sich, dass pro Bit ein maximaler Dynamikumfang von ca. 6 dB dargestellt werden kann. Unterhalb der Systemdynamik sind Signale nicht fehlerfrei darstellbar. Dort kommt es zum sog. Quantisierungsrauschen. Bei einer Bitrate von 1 Bit beträgt der Samplewert 2. – Es sind also nur 2 Amplituden-Werte darstellbar. Dem höchsten der beiden Amplituden-Werte wird deswegen der höchste digitale Signalpegel (=0 dBFS) zugeordnet verwendet. Dem anderen Amplituden-Wert wird dann ein digitaler Signalpegel von ≤ -6.02 dBFS zugeordnet. 0 dBFS entspricht einer binäre Zahl aus lauter Einsen. – Jedes Bit hat dort also den Wert 1 (z. B.: "1111"). Der kleinste digital codierbare Spannungswert entspricht einer binären Zahl, bei der nur das rechte Bit den Wert 1 besitzt, – alle anderen Bits besitzen den Wert 0 (z. B.: "0001").

Signal-to-Error-Ratio – Nicht immer praxistauglich!

Wortbreite (Bitrate) und Signal-to-Error-Ratio 8 Bit 16 Bit 24 Bit -49.92 dBFS -98.08 dBFS -146.24 dBFS

Der Signal-to-Error(-Ratio) gibt (ausgehend von einem Maximal-Pegel von 0 dBFS) den Abstand in dB zum Quantisierungsrauschen an. Der Signal-to-Error(-Ratio) zeigt also die Dynamikspanne, die fehlerfrei (also ohne Quantisierungsrauschen) darstellbar ist. Signal-to-Error-Ratio = Bitzahl · 6,06 + 1.76 bzw.: Signal-to-Error-Ratio = Systemdynamik + 1.76 Quantisierungsrauschen entsteht theoretisch also immer ca. 1.76 dB unterhalb des Beginns der Systemdynamik. Da sich in der Praxis der Signalpegel (trotz der "louness race") nicht ständig auf 0 dBFS befindet, ist der praktische Signal-to-Error-Ratio entsprechend geringer. Je nach Art des Signals kann der praktische Signal-to-Error selbst bei 0 dBFS durchaus auch z. B. 9 dB geringer sein als der theoretische.

48

Signal-Rausch-Abstand, Signal-to-Noise-Ratio (SNR)

Signal-Rausch-Abstand, Signal-to-Noise-Ratio (SNR)
Der Signal-Rausch-Abstand gibt die Distanz des Nutzsignals zum Rauschsignal (Thermisches Rauschen, Weißes Rauschen) an. Thermisches Rauschen entsteht in jedem Audiogerät. Der SNR erlaubt also einzuschätzen, wie rauschfrei ein System klingt. Bei digitalen Systemen wird manchmal auch der Abstand zum Quantisierungsrauschen als Signal-to-Noise bezeichnet.

Störspannungs- und Geräuschspannungs-Abstand – Je nach Messmethode!
Der Signal-Rauschabstand wird ohne Bewertungsfilter gemessen und Störspannungsabstand bezeichnet werden. kann dann auch als

Erfolgt eine gewertete Messung des Grundrauschens, bezeichnet man den Signal-Rauschabstand als Geräuschspannungsabstand.

Footroom und Headroom – Abstandshalter...!
Der Abstand in dB zwischen dem leisesten Nutzsignal und dem thermischen Rauschen bzw. Quantisierungsrauschen wird als Footroom bezeichnet. Den Abstand (in dB) vom lautesten Nutzsignal bis zu dem Pegel, der maximal dargestellt werden kann (technischer Maxialpegel), bezeichnet man als Aussteuerungsreserve (engl.="Headroom"). Dieser Wert gibt also an, um wie viel dB der Signalpegel noch angehoben werden kann (also wie viel dB man zum Aussteuern also noch in "Reserve" hat), bist der Maximalpegel erreicht wird. Im digitalen Bereich stellen 0 dBFS den technischen Maximalpegel dar. Nutzt man dort z. B. eine Aussteuerungsreserve (Headroom) von 9 dB, soll der Pegel -9 dBFS nicht überschreiten. – 9 dB Headroom macht jedoch nur für Sendeanstalten Sinn. Man darf so nahe an 0 dBFS aussteuern, wie dies eben ohne (spätere) klangliche Einbußen möglich ist. Ein Headroom von -6 bis -3 dBFS ist dafür in den meisten Fällen vollkommen ausreichend. Ansonsten würde man schon beim Recording unnötig viel Pegel verschenken.

4.3 D/A-Wandlung (Digital-Analog-Conversion, DAC)
Das digitalisierte (diskrete) Audiosignal soll natürlich auch wieder analog ausgegeben werden (z. B. als Schallsignal über Lautsprecher). Dafür muss es zunächst vom digitalen in den analogen Bereich gewandelt werden. Das geschieht durch Digital-Analog-Wandler (D/A-Wandler). Die Bitwerte werden dabei wieder in Spannungswerte umgerechnet und die Lücken zwischen den Samples rekonstruiert. Da das Ergebnis aber nur eine mehr oder weniger leicht verfälschte Rekonstruktion des ursprünglich aufgenommenen analogen Signals darstellt, ist es nur ein quasi-analoges Signal. – Also ein digitales Signal was für die analoge Ausgabe gewandelt wurde.

49

Audio-Mastering-Guide

4.4 Fehlerquellen im digitalen Bereich und Lösungsansätze Rundungsfehler, Quantisierungsfehler
Immer wenn der Amplitudenwert eines Samples durch den bei der jeweiligen Bitrate vorhandenen Wertebereich nicht mehr dargestellt werden kann, erfolgt die bereits erwähnte Rundung zum nächstgelegenen bekannten Wert. Durch die Rundung wird eine Digitalisierung zwar selbst bei niedrigsten Bitraten möglich, sie verhindert aber die 100%ig exakte Aufzeichnung der Signal-Amplitude.

Berechnungen im Fixkomma- und Gleitkommaformat
Die durch Rundungen binärer Zahlenwerte entstehenden Verfälschungen treten nicht nur während der Digitalisierung (Quantisierung) auf, sondern auch bei der digitalen Signalbearbeitung. Die digitale Signalbearbeitung erfordert eine ausreichende zur Verfügung stehende Menge binärer Werten und damit eine hohe interne Bitrate des Rechensystems. Berechnungen können dabei im Fixkommaformat (Festkommaformat) oder Gleitkommaformat (Float, Floating Point) vorgenommen werden. Nachteile bei Fixkomma-Berechnungen: Durch Rechenvorgänge am Audiomaterial kann es im Fixkomma-Format zu Zahlenüber- oder Unterläufen und Rundungsfehler durch das Wegrunden von Nachkommastellen kommen. Diese Fehler summieren sich und können schließlich auch hörbar werden, denn die Signalamplitude wird dadurch nach und nach verfälscht. Nachteile bei Gleitkomma-Berechnungen (Float): Beim Gleitkommaformat können reelle Zahlen manchmal nicht korrekt als Binärzahlen dargestellt werden. Die Genauigkeit ist hier eingeschränkter als bei der Fixkomma-Darstellung. Da man an digitalen Audiodaten oft sehr viele Bearbeitungsschritte vornimmt, müssen immer wieder neue Werte dargestellt werden. So werden immer mehr binäre Werte aufgebraucht. Dadurch wird zur Darstellung des neu berechneten Materials irgendwann eine Erhöhung der Bitbreite unumgänglich. Ein Stück kann anfangs also z. B. noch problemlos in einem 16-Bit-Umfeld bearbeitet werden (16 Bit = 162 = 65563 mögliche Werte) aber durch etliche Rechenschritte am Audiosignal plötzlich einen Wertebereich von 24 Bit (242 = 16777216) benötigen. Ist ein solcher interner Wertebereich jedoch nicht realisierbar, müssen wieder Rundungen vorgenommen werden. Im 32 Bit Gleitstellenformat (bzw. 32 Bit Floating-Point-Format [Float]) können bleibende (sog. "destruktive"17) Berechnungen des Audiomaterials nahezu ohne Qualitätseinbußen durchgeführt werden. Das 32 Bit Gleitkomma-Format muss nach den Bearbeitungen jedoch wieder in ein Fixkomma-Format wie konvertiert und dafür entsprechend runtergerechnet werden.

17

Destruktiv ist in diesem Sinne also wertfrei gemeint. Es enthält die lateinischen Wörter "structura" (=Struktur) und "de" (=ab, weg... von). Die ursprüngliche Struktur (lat.: "structura") des Signals wird also sozusagen "de-struktuiert" (engl.="to destructurize sth.).

50

Quantisierungsrauschen

Quantisierungsrauschen
Eine weitere potenzielle Fehlerquelle ist das bereits genannte Quantisierungsrauschen, das immer nahe des niederwertigsten Bitwerts liegt (also der Bitwert, der leisesten darstellbaren Signal entspricht). Das Quantisierungsrauschen kann bei sehr niedrigen Bitraten und sehr geringen Signalpegeln deutlich stören.

Sampling-Jitter – Das unterschätze Problem
Die meisten Wandler besitzen keine ausreichend stabile Taktung (Clock). Dadurch wird das Signal beim der Aufnahme bzw. Wiedergabe nicht in exakt regelmäßigen Abständen abgetastet. Solche Taktungsschwankungen bezeichnet man als Sampling-Jitter (engl. "jitter"=Schwankung, Flimmern, Zitterbewegung). Die Taktungsschwankungen bewegen sich im Nano- bzw. Pico-Sekunden-Bereich. Dadurch sind sie zwar zu niedrig, um als solche wahrgenommenen zu werden, – die dadurch entstehenden Signal-Artefakte können dennoch hörbar werden. Sie werden mit steigender Frequenz und Signal-Amplitude deutlicher. Bei diesen Signalartefakten kann sich um Rauschen, Phasen-Verzerrungen oder zusätzliche unharmonische Signale handeln. Das macht die Diagnose, ob eine Klangverschlechterung durch Jitter oder andere Fehlerquellen verursacht wird, oft sehr schwierig. Je höher die Samplerate, umso stabiler muss die Taktung sein, um Sampling-Jitter zu verhindern. Sampling-Jitter kann auch durch elektrische und elektro-magnetische Einstreuungen ausgelöst werden, die z. B. durch Netzteilen oder Prozessoren entstehen und auf die Wandler einstreuen. Dies ist besonders bei nicht abgeschirmten internen Soundkarten ein Risiko. Sampling-Jitter kann also nur durch stabil getaktete A/D-Wandler und das Abschirmen aller potenziell Jitter-induzierenden elektrischen und elektro-magnetischen Einstreuungen verhindert werden. Gelangen durch Sampling-Jitter bedingte Klangverschlechterungen auf eine Aufnahme, ist das unkorrigierbar. – Tritt Sampling-Jitter jedoch nur bei der D/A-Wandlung auf, kann es durch den Einsatz eines stabil getakteten D/A-Wandler verhindert werden. Um auszuschließen, dass Jitter nicht bereits durch Jitter im A/D-Wandler auf die Aufnahme gelangte, sollte man Produktion stets über sehr gute A/D-Wandler hören. Viele Wandler können auch mit externen Clocks (von anderen Geräten) getaktet werden, was durchaus eine Verbesserung bringen kann. Eine andere Art von Jitter wird als Interface-Jitter bezeichnet (engl. "to interface"=etwas über eine Schnittstelle verbinden). Das sind Taktungsschwankungen, die innerhalb digitaler Kabelverbindungen auftauchen. – Diese Art von Jitter ist unkritisch, denn sie wird vom Wandler wieder neutralisiert.

51

Audio-Mastering-Guide

Aliasingeffekt
Der durch eine Samplerate darstellbare Frequenzumfang, entspricht genau der Hälfte der jeweiligen Samplerate. Z. B. kann man mit einer Samplerate von 44.100 Hz einen Frequenzbereich bis 22.050 Hz abdecken, also gesamten (bewusst) hörbaren Frequenzbereich. Dieses Phänomen wird durch das Nyquist-Shannon-Abtasttheorem beschrieben. Die Frequenz, die die Hälfte der Samplerate darstellt, bezeichnet man daher auch als Nyquistfrequenz. Eine Samplerate von 20.000 Hz würde nur einen Frequenzumfang bis 10.000 Hz umfassen. In dem Abstand (in Hz), in dem eine Frequenz oberhalb der Nyquistfrequenz liegt, wird dem Signal auch unterhalb der Nyquistfrequenz (und dadurch im hörbaren Bereich) eine Frequenz hinzugefügt, die dort natürlich nicht hingehört. – Solche Frequenzen bezeichnet man daher als Aliasingverzerrungen (engl. "alias" =Deck- oder Falschname). Die Aliasingverzerrungen sind also sozusagen "Spiegelungen" von Signalen, die oberhalb der Nyquistfrequenz liegen. Daher ist es wichtig, dass bei einer Abtastung mit 44.1 kHz bis 19.98 kHz oberhalb der Nyquistfrequenz keine Frequenzen im Signal vorhanden sind. Obwohl Mikrofone selten Frequenzen > 20 kHz aufnehmen können und kaum ein Musiksignal über 20 kHz reicht, kann es durchaus vorkommen, dass Frequenzen oberhalb der Nyquistfrequenz liegen.

Tiefpassfilterung
Um Aliasing-Effekte zu verhindern, wird bei der Abtastung ein Filter eingesetzt, der nur die Frequenzen unterhalb der Nyquistfrequenz passieren lässt (Tiefpassfilter). Der Filter beeinflusst jedoch auch ein wenig den (zumindest bei Sampleraten ≤ 44.1 kHz hörbaren) Bereich unterhalb der Nyquistfrequenz. Ein rein analoger Filter kann die Frequenzen oberhalb der Nyquistfrequenz nicht steil genug abschneiden. – Eine Tiefpassfilterung wird daher normalerweise erst im digitalen Bereich vorgenommen. Dadurch werden die Anforderungen an analoge Tiefpassfilter wesentlich geringer und man kommt dem Vorbild eines "idealen Filters" näher.

Oversampling
Um Aliasing-Effekte noch wirksamer zu verhindern, nutzt man das sog. Oversampling. Beim Oversampling wird die Samplerate durch eine vorübergehende Einführung von Zwischenwerten hochgerechnet (Re-Sampling). Dadurch liegt die Nyquistfrequenz entsprechend höher. Die Tiefpassfilterung gelingt so noch besser und Aliasing-Effekte können nicht mehr im hörbaren Frequenzbereich auftreten.

Argumente für 96 kHz
(1) Bei hohen Sampleraten wie 96 kHz werden die Anforderungen an die Tiefpass-Filterung wesentlich geringer. Es ist nämlich unwahrscheinlich, dass dort oberhalb der Nyquistfrequenz von 48 kHz noch Signale vorhanden sind. Zum anderen ist der hörbare Frequenzbereich hierbei noch 28 kHz von der Nyquistfrequenz entfernt. – Eine Beeinflussung des hörbaren Frequenzbereichs durch die Tiefpass-Filterung wird dadurch effizient verhindert.

52

Argumente gegen 96 kHz

Liegen oberhalb der Nyquistfrequenz, hier also bei 49–70 kHz Signale an, würden (selbst ohne Tiefpassfilter) Aliasing-Effekte nur in bis max. 21 kHz unterhalb der Nyquistfrequenz auftreten können und damit noch weit weg vom hörbaren Frequenzbereich liegen. Um bei einer Samplerate von 96 kHz Aliasing-Effekte im hörbaren Bereich zu erzeugen, müssten also Signale im Bereich 75–95.98 kHz vorhanden sein, was recht unwahrscheinlich ist. Würden im Signal Frequenzen > 95.98 kHz liegen, würden Aliasing-Effekte sogar nur den Infraschall-Bereich betreffen. – Da hört nun wirklich keiner mehr. Die meisten analogen Geräte besitzen einen Frequenzbereich von 50 kHz. – Demnach wäre der für eine Samplerate von 96 kHz kritische Bereich ab 75 kHz gar nicht vorhanden. Die Gefahr von Aliasing-Artefakten bei einer Samplerate von 96 kHz ist also verschwindend gering. (2) Bei 96 kHz wird durch die häufigere Abtastung eine genauere Abbildung des Signalverlaufs in zeitlicher und damit auch dynamischer Hinsicht ermöglicht. Die einzelnen Samples liegen dichter beieinander und der Bereich zwischen zwei Samples (der Inter-Sample-Bereich) ist logischerweise kürzer. Dadurch kann das digitalisierte Signal durch die Rekonstruktionsfilter leichter authentisch rekonstruiert werden und besitzt eine größere Impulstreue. (3) Aus Punkt 2 ergibt sich auch, dass das Risiko von Inter-Sample-Clipping bei einer Samplerate von 96 kHz minimiert wird. Ohne die gesamte Architektur eines Wandlers und dessen Umgebung zu berücksichtigen (wobei es dort viele Unterschiede gibt), ist dies aber nur theoretisch der Fall. (3) Peakmeter arbeiten bei Audiosignalen in 96 kHz genauer.

Argumente gegen 96 kHz
(1) Bei 96 kHz ist das Risiko von Sampling-Jitter höher. Dies stellt höhere Anforderungen an die Stabilität der Taktung. (2) Im Gegensatz zu einer Samplerate von 44.1 kHz ist für das finale Zielformat fast immer eine Konvertierung auf eine niedrigere Samplerate erforderlich. Hierfür sind sehr gute Konverter nötig. (3) Oft wird gerätselt, ob der bei 96 kHz ausgegebene Frequenzbereich bis 48 kHz sich klanglich positiv auf die hörbaren Frequenzen auswirken kann. – Dafür müssen sich aber zunächst überhaupt erst mal Signale oberhalb von 22.05 kHz in der fertigen Musikproduktion befinden. Obwohl manche Instrumente noch Frequenzen oberhalb von 22 kHz ausbilden können, übertragen nur sehr wenige Mikrofone diesen Bereich. Wie erwähnt, übertragen auch vor dem Analog-Digital-Wandler anliegende Geräte nicht immer solch hohe Frequenzen. Nur äußerst wenige Lautsprecher besitzen einen Wiedergabebereich > 22 kHz. Werden aber tatsächlich Frequenzen oberhalb von 20 KHz wiedergegeben, können sich (laut wissenschaftlichen Studien), diese Frequenzen sehr wohl auf den hörbaren Frequenzbereich klanglich auswirken und somit indirekt wahrnehmbar werden. – Die Frage, ob dieser Effekt klanglich positiv oder negativ ist oder eher wertfrei wahrgenommen wird, ist derzeit nicht geklärt.

53

Audio-Mastering-Guide

4.5 Auf dem Weg zur CD Red-Book-Format und Bitratenkonvertierung
Für das Audio-CD-Format sind 16 Bit und 44.1 kHz als Norm vorgeschrieben. Dies wurde 1981 von Sony und Phillips im sog. Red-Book-Standard festgelegt. Der Red-Book-Standard legt die Soundqualität und die physikalischen Eigenschaften einer CD-DA (Compact Disc Digital Audio) – also einer gängigen Audio-CD – fest. Das Red Book Format erlaubt dabei die Korrektur von bis zu 250 Lesefehlern pro Sekunde und sieht eine Spielzeit von max. 74 Minuten vor. Obwohl das CD-Format also nun schon gut 30 Jahre alt ist, gelten 16 Bit @44.1 kHz noch immer als Norm. – Diese Klangqualität wird vom moderneren mp3-Format sogar noch unterboten.

Der Re-Quantisierungsfehler
Bei Bitraten ≥16 Bit, muss für das Zielformat häufig auf eine niedrigere Bitrate requantisiert werden. Durch diese Konvertierung entsteht ein Rundungsfehler (Requantisierungsfehler) am niederwertigsten Bit (least-significant-bit), der somit lediglich die leisesten darstellbaren Signalanteile betrifft. Dort korreliert18 das Signal mit dem naheliegenden Quantisierungsrauschen, wodurch klanglich unschöne Signalverformungen entstehen, die man als Granulationsrauschen bezeichnet. Der Requantisierungsfehler tritt also nur auf, wenn äußerst leise Signale wiedergegeben werden (z. B. am Ende von Fade-outs). Wenn der Dynamikumfang aufgrund sehr niedriger Bitraten (z. B. 8 Bit) extrem eingeschränkt ist, ist er gut hörbar. Bei 16 Bit liegt das niederwertigste Bit jedoch bei ca. -96 dBFS. – Ein Requantisierungsfehler ist dort also ein eher unwesentliches Problem, – selbst das thermische Grundrauschen mancher Wiedergabesysteme ist bereits lauter. Da die meiste U-Musik heute ohnehin nur eine Dynamikspanne von ca. 12 dB ausnutzt, liegen die leisesten Signalanteile oft oberhalb von -96 dBFS. – Bei Klassik-Aufnahmen mit großer Dynamikspanne ist es also weitaus verständlicher, wenn der bei einer Konvertierung auf 16 Bit entstehende Requantisierungsfehler Sorge bereitet.

Truncation – Einfach "Wegschneiden"?
Das Weglassen überschüssiger Bits beim Requantisieren (Konvertieren) einer Bitrate bezeichnet man als truncation (engl. "to truncate"=beschneiden, stutzen).

18korrelieren=eine

Wechselbeziehung [Korrelation] bilden

54

Truncation – Einfach "Wegschneiden"?

4.6 Dithering – Sinn oder Unsinn?
Um die klanglichen Auswirkungen des Requantisierungsfehlers zu neutralisieren, fügt man ein künstliches Rauschen – das sog. Dither – hinzu, das einem Weißen Rauschen durchaus ähnelt. Das Dither-Rauschen verringert zwar den Signal-Rauschabstand ein wenig, der Gedanke dahinter ist jedoch, dass ein harmonisches Rauschen immer noch angenehmer klingt, als die klanglich unschönen Signalverformungen durch den Requantisierungsfehler. Das Dither-Rauschen führt dazu, dass die fehlerbehafteten Signalanteile mit dem Rauschen korrelieren. Dabei wird die sonst rechteckige Wellenform geglättet, wodurch der Requantisierungsfehler klanglich neutralisiert wird. Durch Dither wird der darstellbare Dynamikbereich vergrößert. Dann können z. B. bei 16 Bit-Audio auch noch Klanginformationen unterhalb von -96 dBFS (wenn auch undeutlich) wiedergegeben werden. Das wäre sonst nur mit Hilfe einer höheren Bitrate möglich. Erst bei Bitraten < 16 Bit kann ein Requantisierungsfehler im Bereich der U-Musik störend werden. – Dither also z. B. bei einer Konvertierung auf 8 Bit einzusetzen, macht unbedingt Sinn. Dort beträgt die Dynamikspanne nämlich nur ca. 48 dB. Bei der Konvertierung auf 16 Bit ist der Einsatz von Dither bereits nicht pauschal zu empfehlen, denn der Dynamikbereich von -96 dBFS wird eher nur bei Klassik- und manchen Jazz-Produktionen wirklich ausgenutzt. Dennoch herrscht allgemein die unrichtige Annahme, man müsse beim Konvertieren auf 16 Bit "generell" Dither anwenden. Wissenschaftliche Hörtests an Probanden haben jedoch ergeben, dass Musik-Produktionen im 16-Bit-Audioformat, mit Dither-Rauschen subtil angenehmer empfunden werden als ohne. CD-Produktionen können also durch das Hinzufügen von Dither-Rauschen durchaus ein wenig aufgewertet werden. Da Dither-Rauschen einem weißen Rauschen ähnlich ist und weißes Rauschen erwiesenermaßen angenehm wirkt, liegt hier also das sinnvollste und einzige Argument, um die Zugabe von Dither bei 16 Bit-Audio "pauschal" zu empfehlen. Die dither-bedingte Vergrößerung der Dynamikspanne zu Bereichen < 96 dBFS ist hingegen weniger ein Argument für Dither, da solch hohe Dynamikspannen in der U-Musik nicht genutzt werden. Bei einer Konvertierung auf 24 oder auf 32 Bit ist das Zufügen von Dither reinste Tontechniker-Esoterik. – Sowohl der Requantisierungsfehler als auch das Dither-Rauschen sind dort im unhörbaren Bereich angesiedelt. Dither wird beim Requantisieren der Bitrate nur einmalig hinzugefügt. Eine Produktion ein zweites Mal mit einem Dither-Algorithmus zu versehen, verhilft meist nur dem Rauschen zum Ausdruck, – nicht aber der Musik. Es gibt jedoch Leute, die dennoch gerne zweimal Dither auf ihre Stücke anwenden und dies klanglich vorteilhaft finden. – Jeder, wie er es braucht. Nach dem Dithering und Noise Shaping sollte grundsätzlich keine weitere Bearbeitung des Signalpegels mehr stattfinden, da sonst störende Nebeneffekte auftreten können. Dithering und Noise Shaping werden deshalb oft als die finalen Bearbeitungsschritte des Audiomaterials angesehen.

55

Audio-Mastering-Guide

Noiseshaping
Noise Shaping ist empfehlenswert, wenn der Requantisierungsfehler unbedingt entfernt werden und das Signal gleichzeitig so rauscharm wie möglich bleiben muss. Durch das so genannte Noiseshaping wird ein möglichst großer Anteil des Dither-Rauschens in hohe (weniger gut wahrnehmbare) Frequenzbereiche verlagert. – Wenn aber tatsächlich bereits das normale Dither-Rauschen bei Probanden für eine Aufwertung des subjektiven Klangeindrucks sorgen konnte, ist die Frage, ob dieser Effekt durch den Einsatz von Noiseshaping erhalten werden kann. Man kann Dithering und Noise Shaping also eher als sehr puristische Verfahren ansehen, was sie eher nur für klassische Musik interessant macht. Hierzu eine nette Anekdote: Als bei einem namenhaften Hersteller die Dither- und Noise Shaping-Funktion ausfiel (wobei dieser Fehler nach außen hin nicht erkennbar war), wurde das Fehlen von keinem Nutzer bemerkt, – obwohl die meisten Nutzer die Dither bzw. Noise Shaping-Funktion einsetzen...

Die wichtigsten Dither-Algorithmen Dither Verteilungskurven (triangular, rectangular, gaussian)
Der Triangular-Dither-Algorithmus (TPDF19) bietet einen geringen Rauschpegel und eine gute Dekorrelierung des Signals vom Requantisierungsfehler. Das Rauschen ist dabei dreieckförmig über den Frequenzgang verteilt. Darüber hinaus gibt es rechteckförmig verteiltes Dither (RPDF; Rectangular Dither) und Gauß'sches verteiltes Dither (GPDF; Gaussian Dither). – Letzteres verläuft also wie bei einer Gauß'schen Verteilungskurve.

UV22
Der bekannte Apogee UV22-Algorithmus basiert auf dem Prinzip des Noise Shapings. Er fügt jedoch kein in höhere Frequenzbereiche verlagertes Dither-Rauschen hinzu, sondern legt stattdessen ein neutrales Signal im unhörbaren Frequenzbereich bei 22 kHz ab. – Daher die Bezeichnung "UV22". So wird der Requantisierungsfehler am niederwertigsten Bit neutralisiert und ohne dafür den hörbaren Rauschanteil des Signals erhöhen zu müssen. Der UV22 wird von Apogee selbst auch nicht als Dither- oder Noise-Shaping bezeichnet, sondern als ein künstliches Signal, das alle wünschenswerten Ergebnisse eines Dithering und Noise-Shaping mit sich bringt. Durch die sog. Autoblack-Funktion wird der UV22 stummgeschaltet, sobald das Nutzsignal einen bestimmten Signalpegel unterschritten hat (z. B. bei Pausen).

19PDF=probability dense function

(dt.="Wahrscheinlichkeitsdichte-Funktion").

56

Die wichtigsten Dither-Algorithmen

POW-R®

Der derzeit effektivste und rauschärmste Dither-Algorithmus ist der POW-R®-Algorithmus. Dieser Algorithmus bietet wahlweise die Möglichkeit bei 2–4 kHz die Dynamik um 20 dB zu erhöhen (Typ 2) oder die Option, 5–10 dB Dynamikgewinn über einen weiten Frequenzbereich zu erzielen (Typ 3).

4.7 Was ist besser? – Digital oder Analog?
Bei den Eigenschaften analoger und digitaler Aufzeichnungs- und Wiedergabeverfahren kann man jeweils Vorteile und Nachteile erkennen. Befürworter digitaler Audioverfahren argumentieren, dass analoge Aufnahmen häufig etwas verwaschen klingen. Bänder und Platten geben durch Gleichlaufschwankungen das aufgenommene Signal nicht mit absoluter Tempogenauigkeit wieder. Die Dynamikspanne wird nicht immer störungsfrei wiedergegeben (Rauschen) und ist grade für dynamikreiche Signale oft zu klein. Knacksen auf Platten, Klangeinfärbungen und muffiger Sound durch unpassende Bandsorten und stark abgenutzte Tonköpfe/Nadeln, schlecht kalibrierte Maschinen, Übersprechungseffekte und Alterungserscheinungen bei alten Bändern und Signalaussetzer (engl. "Drop-outs") sind weitere unangenehme Effekte. Durch den Einsatz hochwertigen analogen Audio-Equipments und dessen korrekter Pflege und Wartung viele dieser Fehler vermieden werden. Andere lassen sich so weit minimieren, dass sie praktisch nicht mehr ins Gewicht fallen und manche Fehler fallen nur in manchen musikalischen Genres ins Gewicht. Fans von analogen Aufnahmen nehmen eine leichte klangliche "Einfärbung" in gewissen Grenzen in Kauf, da die analoge Wiedergabe mit einem als musikalisch empfundenen Eigenklang einhergeht. Obwohl dieser gewisse Eigenklang objektiv gesehen eine Signal"verfälschung" darstellt, bereichert er oft die Musik. Selbst Übersteuerungen klingen im analogen Bereich sogar noch relativ angenehm. Analoge Aufnahmeverfahren erfassen das Signal, abgesehen vom manchmal zu geringerem Dynamikumfang, wesentlich originalgetreuer. Die Sample- und Bitraten, die dafür im digitalen Bereich erforderlich wären, stehen noch lange nicht zur Verfügung. Die Fehler bei der digitalen Aufzeichnung und Wiedergabe sind zunächst für den normalen Hörer überhaupt nicht als "Fehler" erkennbar, da das Signal ja bis hinauf in die hohen Frequenzbereiche absolut rauschfrei und tempogenau wiedergegeben wird. Dafür sind die Mängel umso schwer wiegender: Durch begrenzte Abtastraten und Bitraten kann der Signalverlauf überhaupt nicht originalgetreu reproduziert werden. – Eine gewisse Ausnahme (wenn auch noch bei Weitem keine befriedigende Lösung) bildet hier der digitale 1-Bit-Recorder, der ein Signal durch die höhere Abtastrate authentischer erfasst. Weitere Fehler im digitalen Bereich wurden bereits thematisiert: Inter-Sample-Clipping, Aliasing-Effekte, Quantisierungsrauschen, (Re-)Quantisierungsfehler und Jitter. Dennoch bietet die digitale Audioaufzeichnung die für klassische Musik erwünschte hohe Präzision. – Hier gehen leise Signale nicht in einem Rauschen unter und die Wiedergabegeschwindigkeit bleibt absolut konstant. Dennoch wirken analog aufgezeichnete Signale, selbst bei anschließender Übertragung in den digitalen Bereich nach wie vor wärmer und lebendiger. Sowohl Aufnahmen einzelner Spuren, als auch von der Summe werden deswegen im professionellen Studiosektor auch heute noch oft mit

57

Audio-Mastering-Guide

(Mehrspur-)Bandmaschinen realisiert und das, obwohl kaum noch ein Hersteller Bandmaschinen und Bandmaterial produziert. Analoge Aufnahme-Technik ist also noch lange nicht "von gestern".

4.8 Auf dem Abweg zur MP3
Heute wurde das CD-Format fast vollständig vom mp3-Format verdrängt. Durch Filesharing bzw. die Nutzung von Online-Musik-Streams hören auch nur noch relativ wenige Leute Musik von CDs. Im Gegensatz zu einer CD kann eine mp3 logischerweise nicht verkratzen oder durch Alterung unbrauchbar werden. – Dennoch bietet die Lagerung von mp3s durch Defekte an Festplatten, mp3-Playern, CD-Rs, Datensticks u. a. keine langfristige Sicherheit. Die oftmals winzigen Abspielgeräte eignen sich zwar sehr gut zum Musik hören für unterwegs, können gegenüber größeren Geräten wie einem tragbaren CD-Player, MD-Player oder gar Walkman auch leichter verloren gehen. Durch das Internet kann man mp3s per Download aus dem Internet beziehen und sie ebenfalls auch schnell und kostengünstig über große Distanzen verschicken. Einzeldownloads ersparen dabei auch den Kauf eines gesamten Albums und ermöglichen nur die Titel zu kaufen, die man auch wirklich haben will. Ebenso ist die mp3 ein vorteilhaftes Format, wenn man für seinen Musikkonsum kein Geld ausgeben will, denn aufgrund der geringen Datengröße ist sie ideal, um auch von illegal hochgeladener Musikangeboten sehr viele Songs und Alben herunterzuladen oder als Stream online anzuhören. Dies wäre mit größeren Dateiformaten wie z. B. dem wav-Format so viel zeitaufwändiger, das ein legaler Kauf sicher eine attraktivere Lösung wäre. Dennoch ist der "Siegeszug" des mp3-Format irgendwie sehr bedauerlich und gleichzeitig Augenwischerei. Ein CD-Regal ist immer ein gewisser Hingucker. Dabei hat man real auf einen Blick vor Augen, was man bereits an Musik gesammelt hat. Eine CD besitzt ein Cover und meist ein Booklet. Dort findet man häufig auch die Songtexte (zum Nachlesen und eventuellen Mitsingen) sowie häufig auch Fotos der Künstler und ein Artwork, was speziell für die jeweilige Musik angefertigt wurde und sie dadurch auf optischem Wege bereichern und ergänzen kann. Ein CD-Album stellt also eine Symbiose aus Ton, Bild und Wort sowie aus Tonträger und Verpackung (Package) dar. Damit befindet sich im CD-Regal auch immer "mehr" von den jeweiligen Musikern, als nur deren bloße Musik. Der Gang in den CD-Laden ist zudem immer ein persönlicheres, realeres Einkaufserlebnis, als der anonyme Klick auf irgendeinen Shop-Button. Doch selbst wenn man eine CD nur online bestellt, hat man am Ende ein "reales" Produkt in der Hand, das man durch einen CD-Player auch unabhängig vom Computer nutzen kann. In puncto Klangqualität ist die mp3, entgegen manch hartnäckiger Annahme, ein Abstrich zur Audio-CD. Das mp3-Format entfernt sich noch weiter von dem klanglichen Ideal der originalen Aufnahme. Egal ob Audio-CD, Mini-Disc (MD), DAT-Tape, Schallplatte oder eine gute Tonbandaufnahme. – Sie alle bieten eine bessere Soundqualität und mehr Hörgenuss als eine mp3. Beim mp3-Format werden die als am besten wahrnehmbar bewerteten Frequenzbänder mit hoher Sample-Auflösung, die schlechter wahrnehmbaren jedoch mit geringerer Auflösung und alle unter einem bestimmten Schwellenwert liegenden Klänge einfach gar nicht mehr gespeichert. – Jedoch sind auch schlecht und selbst die nur noch unterbewusst wahrnehmbare Bestandteile für das Klangerlebnis entscheidend. Die Trübung der Klangqualität durch mp3s wird herstellerseitig durch den Einsatz billiger Wandler und Verstärker in günstigen mp3-Playern weiter verschlechtert. Das Gehör der meisten Hörer ist an solche

58

Die wichtigsten Dither-Algorithmen

Wiedergabequalitäten mittlerweile leider gewöhnt und die Sensibilität dadurch bei vielen nachhaltig ruiniert. Der Siegeszug höher auflösender Formate wird in Consumer--Kreisen aber sicher noch sehr lange auf sich warten lassen. Denn obwohl es nach wie vor CDs zu kaufen gibt und erstaunlich viele Leute auch wieder Schallplatten nachfragen, haben sich die meisten Hörer fest mit dem mp3-Format vereinbart.

59

Audio-Mastering-Guide

5. Dynamikbearbeitung
5.1 Audio-Kompression (Audio-Compression) (Downward)-Kompression
Einiges über die Aufgabe von Kompressoren wurde bereits im Kapitel "loudness-race" erwähnt. Für professionelle Audiobearbeitung ist es sehr wichtig, das Funktionsprinzip eines Kompressors genau zu kennen. An jedem Kompressor findet man folgende Parameter: Threshold (dt.="Schwellenwert") Attack (time) (dt.="Ansprechzeit") Release (time) (dt.="Freigabe", "Auslöser") Ratio (Kompressionsgrad)20 Arbeitsweise eines Kompressors: Nachdem der Signalpegel den am Kompressor eingestellten Threshold (dt.="Schwellenwert") – für die durch Attack (time) (dt.="Ansprechzeit") definierte Dauer überschritten hat21 –, senkt der Kompressor, für die durch Release (time) eingestellte Dauer, den (über den Threshold gelangenden) Signalpegel-Anteil im durch Ratio vorgegebenen Verhältnis ab. Durch Absenkung der höheren Signalpegelanteile wird die Dynamikspanne reduziert und das Signal wird leiser. Die vormals hohen Pegel liegen nun niedriger und dadurch näher an den leiseren Pegelanteilen. Ein Kompressor macht das Signal also leiser und nicht (wie immer wieder vermutet wird) lauter. Daher nennt man ihn auch Downward-Kompressor
(engl. "downward"=abwärts, herunter, nach unten).

Da die hohen Pegel gesenkt wurden, kann das Gesamtsignal nach der Kompression mindestens wieder so viele dB höher ausgepegelt werden, wie es abgesenkt wurde. Meistens kann es aber auf einen noch höheren Pegel angehoben werden. – Dadurch wird sowohl der Peak-to-Peak-Level als auch der dB RMS-Level höher als vor der Kompression und es ergibt sich eine höhere Lautheit. Bei unpassenden Einstellungen der Parameter können Kompressoren den Klang verschlechtern: Durch zu kurze Attack- und Release-Zeiten verformen sich die tiefen Frequenzanteile zu Rechteckwellen, wodurch hörbare Pumpeffekten und Verzerrungen entstehen. Musikalisch wichtige Pegelspitzen können durch zu kurze Ansprechzeiten dumpf und unnatürlich klingen, da die Anschwellphasen22 mancher Instrumente nicht mehr deutlich hervorkommen.

20Der

Kompressions-Grad wird in manchen Kompressoren nicht anhand von Ratio, sondern durch den Input-Regler festgelegt, der die Höhe des Eingangspegels bestimmt. Je höher der Eingangspegel, desto stärker wird das Signal komprimiert. 21Das Regelverhalten des Kompressors während der Attack (time) ist bei manchen Kompressoren anders definiert. 22Die Anschwellphase stellt die Dauer da, die ein Klang benötigt, um sich von vollkommener Ruhe auf seinen höchsten Wert einzuschwingen. Dies wird auch als Einschwingphase, Klangeinsatz oder Attack (Ansprache) bezeichnet. – Die Abschwellphase ist hingegen die Dauer, die der Klang zum Ausklingen bzw. bis zum Einsatz des folgenden Klangs benötigt.

60

Threshold und Ratio (Schwellenwert und Kompressionsgrad)

5.2 Kompressor-Parameter Threshold und Ratio (Schwellenwert und Kompressionsgrad)
Wie schon erwähnt, wird durch den Threshold (dt.="Schwellenwert") ein dB-Wert bestimmt, bei dessen Überschreitung der Kompressor mit der Kompression beginnt. (Da Signal wird in der Regel jedoch nicht sofort ab Überschreiten des Schwellenwerts komprimiert.)

Pegelanteile ober- und unterhalb des Schwellwerts (Threshold)

Nur Pegelanteile, die über den jeweiligen Schwellenwert gelangen, können die Kompression auslösen. – Pegelanteile unterhalb des Schwellenwerts werden nur komprimiert, sofern dafür die (durch Release festgelegte) Kompressions-Phase des Kompressors lang genug anhält und der (durch Ratio bestimmte) Kompressionsgrad so stark ist, dass auch Pegelanteile unterhalb des Schwellenwerts betroffen werden. Der Threshold steht in enger Wechselbeziehung zum anliegenden Pegel: Wird der Threshold zu hoch angesetzt (bzw. ist der anliegende Pegel zu niedrig), bleibt der Pegel unter dem Schwellenwert. Dann kann der Kompressor nichts komprimieren – egal wie die anderen Parameter eingestellt werden. Wird der Threshold zu niedrig angesetzt (bzw. ist der anliegende Pegel zu hoch), gelangt fast der gesamte Pegel über den Schwellenwert. Dann komprimiert der Kompressor das Signal oft zu umfassend (also inklusive der sehr leisen Pegelanteile). – Das ermöglicht zwar ein Leveling im Sinne einer gleichmäßigen Pegelreduzierung, aber keine Steigerung der Lautheit. Der Parameter Ratio bestimmt, um wie viel dB der Kompressor den Signal-Pegel absenken soll. Ratio legt also die Höhe der eigentlichen Kompression fest. Z. B. bedeutet ein Ratio von 2:1, dass das Signal im Verhältnis 2:1 komprimiert wird. Beim niedrigsten Ratio-Wert von 1:1 wird das Signal nicht komprimiert. – Bei einem zu hohen Ratio-Wert sind die Pegelabsenkungen zu stark, wodurch sich oft ein sehr unnatürlicher Klangeindruck ergeben kann. Wie stark komprimiert werden sollte, liegt am jeweiligen Audiomaterial und kann nicht pauschal beantwortet werden.

61

Audio-Mastering-Guide

Attack und Release (Ansprechzeit und Abschwellzeit)

Wechselwirkung von Attack- und Release beim Komprimieren

Die Ansprechzeit (engl. ="attack time") legt fest, wie lange es (ab der Überschreitung des Schwellenwerts) dauern soll, bis die Kompression (mit dem durch Ratio festgelegten Kompressionsgrad) ausgelöst wird. Innerhalb der Ansprechzeit setzt die Kompression bei den meisten Kompressoren noch nicht ein. – Es gibt jedoch Kompressoren, bei denen die Kompression schon während der Attack-Phase allmählich einsetzt und nach dem Ende der Attack-Phase ihr Maximum erreicht. Attack legt also fest, wie lange das Signal (ab Überschreiten des Schwellenwerts) unkomprimiert bleibt – bzw. nach welcher Dauer es den durch Ratio festgelegten Kompressionsgrad erreicht. Die Ansprechzeit wird oft in ms angegeben. – Das garantiert aber nicht, dass sie bei jedem Kompressor wirklich dem eingestellten ms-Wert entspricht. Manche Kompressoren geben die Ansprechzeit auch nur durch "fast" und "slow" an. Die Kompression wird nach der Attack-Phase in voller Höhe ausgelöst (engl. "release"). – Wie lange das Signal dann komprimiert wird, bestimmt die Release-Zeit (engl. "release"=Freigabe, Auslöser). Wenn die Release-Phase endet, stoppt die Kompression. Überschreitet das Signal nach dem Ende der Release-Phase erneut den Schwellenwert, bestimmt wieder der Attack-Parameter das Ansprechverhalten des Kompressors. Das Verhältnis zwischen nicht-komprimierten und komprimierten Signalanteilen wird also grundlegend durch Attack und Release bestimmt. Die Parameter Threshold und Ratio, Attack und Release, bilden zusammen mit dem Eingangspegel ein in sich geschlossenes, sich wechselseitig beeinflussendes System:

Wechselwirkung von Threshold, Attack, Ratio und Release

62

Make-Up-Gain und Auto-Gain

Make-Up-Gain und Auto-Gain
Durch den Parameter Make-Up-Gain (bzw. Make-Up) kann man den Signalpegel des komprimierten Signals erhöhen. Dadurch können die durch Kompression entstandenen Pegelverluste wieder ausgeglichen werden. Durch eine Auto-[Make-up]-Gain-Funktion wird das komprimierte Signal automatisch so weit angehoben, wie es ohne Übersteuerungen möglich ist. Hard Knee und Soft Knee

Der Parameter "Knee"

Hard Knee und Soft Knee
Der Parameter Knee (engl. "knee"=Knie) beeinflusst, wann und in welchem Umfang und die Kompression einsetzen soll. Er beeinflusst also die Arbeitsweise der Parameter Attack, Release und Ratio. Der Modus Hard Knee entspricht der normalen Arbeitsweise eines Kompressors. Im Soft-Knee-Modus setzt bereits unmittelbar vor dem Ende der Attack-Phase ein geringer Teil der Kompression ein und erhöht sich innerhalb der Release-Phase allmählich auf den durch Ratio festgelegten Kompressionsgrad. Dadurch wird das Signal länger aber dafür dezenter komprimiert. Deswegen wird das Regelverhalten eines Kompressors im Soft-Knee-Modus oft als musikalischer empfunden. Manche Kompressoren geben den Knee-Parameter durch einen Zahlenwert an: Der Wert 0 entspricht dann normalerweise einem "Hard Knee" – alles jenseits davon geht in Richtung "Soft Knee".

Sidechain
Eine weitere Funktion mancher Kompressoren ist der Sidechain (engl. "Sidechain"=Seitenkette). Durch den Sidechain-Eingang kann ein externes Audiosignal zum Kompressor geleitet werden. Dieses wird vom Kompressor jedoch nicht komprimiert, sondern dient nur als Auslöser (engl. "Trigger") des Kompressors. Der Kompressor aktiviert sich dann nur, wenn er durch den Sidechain ein externes Audiosignal empfängt. Das am Kompressor anliegende Eingangs-Signal wird also nur komprimiert, wenn der Kompressor im Sidechain ein Audiosignal empfängt. – So wird durch ein externes Signal "x" die Kompression des internen Signals "y" kontrolliert.

63

Audio-Mastering-Guide

Ducking
Der Sidechain ist insbesondere für Radio-DJs unentbehrlich. Immer wenn der DJ ins Mikro spricht, gelangt das Mikrofonsignal in den Sidechain des Kompressors, woraufhin der Kompressor die Radiomusik stark komprimiert und dadurch leiser geregelt. Diese Technik bezeichnet man auch als "Ducking" (engl. "to duck"=sich rasch ducken, den Kopf einziehen, untertauschen). Das Musiksignal "duckt" sich also förmlich weg, um der Stimme de Radio-DJs genug Platz zu geben. – Passende Einstellungen der Kompressor-Parameter natürlich vorausgesetzt. In Producerkreisen ist der Sidechain auch beliebt, um z. B. das Verhältnis von E-Bass und Bassdrum so zu regeln, dass sich diese Instrumente nicht gegenseitig verdecken, denn schließlich liegen beide im gleichen Frequenzbereich.

5.3 Arten von Audio-Kompressoren Optokoppler-Kompressoren – behutsam!
Optokoppler-Kompressoren (kurz: Opto-Kompressoren) besitzen generell eine Soft-Knee-Charakteristik. Dadurch tendieren sie dazu, mehr Pegelanteile weniger stark zu komprimieren. Optokompressoren arbeiten nicht in allen Frequenzbereichen gleich stark und lassen Bassanteile oft unbearbeitet durch. Manche Software-Kompressoren simulieren das Regel-Verhalten von Opto-Kompressoren: Sobald das eingehende Signal durch den Kompressor um einen bestimmten Grad abgesenkt wird, wird die Release-Zeit (und somit die Dauer der Kompressions-Phase) verkürzt. Dadurch wird das Signal quasi etwas dekomprimiert.

Multiband-Kompressoren – Mehr Möglichkeiten, mehr Risiken!
Insbesondere zur Summen-Bearbeitung ist manchmal der Multiband-Kompressor von Interesse. Beim Multiband-Kompressor wird das Signal in mehrere Frequenzbänder aufgeteilt. Jedes davon verfügt über einen eigenen Threshold-, Ratio-, Attack- und Release-Parameter und kann dadurch individuell komprimiert werden. Da bei jedem Frequenzband der Ausgangspegel verändert werden kann, kann der Multiband-Kompressor auch wie ein Equalizer eingesetzt werden. Die Kompressions-Parameter müssen jedoch genau auf die jeweiligen Frequenzbereiche abgestimmt werden: Tiefe Frequenzen werden deswegen tendenziell mit anderen Einstellungen komprimiert als hohe. Bei falscher Anwendung kann man mit dem Multi-Band-Kompressor besonders Summensignale extrem verfälschen die Abmischung dadurch vollkommen ruinieren.

Vintage-Kompressoren
Vintage-Kompressoren ist ein Sammelbegriff für die Studio-Kompressoren der 50er bis 70er Jahre, von denen viele bis heute noch als zeitlose Klassiker gelten. Solche Kompressoren arbeiten oft mit rein analogen, diskreten Schaltungen. Der Grad der Kompression wird manchmal nur durch die Höhe des anliegenden Signalpegels geregelt.

64

Limitierung (Limiting) – Grenzen setzen!

Heutzutage versuchen manche Softwarehersteller die viel gerühmten analogen Klangeigenschaften dieser alten Kompressoren digital zu simulieren, wobei auch das Design der Software den Hardwarevorbildern nachempfunden wird.

Limitierung (Limiting) – Grenzen setzen!
Beim Limiter dürfen (im Gegensatz zum Kompressor) die Signalspitzen den Schwellenwert (Threshold) nicht überschreiten. Es müssen also auch sehr kurze und hohe Signalspitzen sofort stark genug abgeregelt werden können. Das Limitieren entspricht eigentlich einer Downward-Kompression, nur eben schneller und daher zuverlässiger. Die Funktion eines Limiters kann deswegen manchmal auch ein Downward-Kompressor übernehmen, was aber in den seltensten Fällen genauso gut gelingt. Die Ratio muss dafür unendlich hoch sein, damit auch sehr hohe Pegelspitzen weit genug abgesenkt werden können. Gleichzeitig muss die Ansprechzeit (attack time) extrem kurz sein, damit auch sehr kurze Pegelspitzen sofort begrenzt werden können. Ein Limiter kann dabei helfen, die Lautheit effektiver zu erhöhen. Wenn z. B. in einem Stück einige Pegelspitzen sehr weit hervorstechen und dadurch 0 dBFS erreichen, kann das gesamte Stück nicht mehr höher ausgesteuert werden. Ansonsten würden diese Signalspitzen ein Clipping auslösen. Limitieren löst dieses Problem, indem einfach ein Schwellenwert gewählt wird, durch den diese höchsten Signalspitzen weit genug abgesenkt werden können, z. B. -4 dBFS. Da die Signalspitzen dann also nur noch einen Pegel von maximal -4 dBFS besitzen, kann das gesamte Signal um max. 4 dB höher ausgesteuert werden, ohne dass Clipping entsteht. Viele Leute sprechen davon, dass ein Limiter Signalspitzen einfach "abschneiden" würde. Das ist nicht richtig, weil die über den Threshold liegenden Signalspitzen schließlich nicht aus dem Signal "entfernt", sondern nur "abgesenkt" werden. – Limiter (engl. "limit"=Grenze) werden deswegen auch als Begrenzer bezeichnet. Geht es nur um wenige deutliche hervorstechende Pegelspitzen, kann man diese in vielen digitalen Audio-Workstations (DAW) auch durch eine manuelle Bearbeitung absenken.

Limitieren eines Signals. Das Eingangssignal wird durch die waagrechte Achse (IN), das Ausgangssignal durch die senkrechte Achse (OUT) dargestellt. Das Eingangssignal wird hier z. B. bei -7.8 dBFS (waagrechte Achse) auf -12.9 dBFS (senkrechte Achse) limitiert usw.

65

Audio-Mastering-Guide

Brickwall- und Soft-Limiting
Ein Limiter im Brickwall-Modus begrenzt die über den Threshold gelangenden Pegelanteile sofort. Muss der Limiter dabei sehr viele Signalspitzen unmittelbar nacheinander limitieren, kann dies jedoch zu Signal-Verzerrungen führen. Beim Soft-Limiting tastet der Limiter das Signal bereits im Voraus nach Signalspitzen ab (Look-Ahead-Funktion). – Dadurch wird oft ein transparentes Klangergebnis möglich.

5.4 Upward-Kompression
Wenn man vom Kompressor sprich, ist damit normalerweise der Downward-Kompressor gemeint. Daneben gibt es aber auch noch den Upward-Kompressor. Upward-Kompressoren arbeiten genau umgekehrt: Sie verkürzen die Dynamikspanne, indem Pegelanteile, die unterhalb des Schwellenwerts (engl.="threshold") liegen angehoben werden (engl.="upward"). Leisere Pegelanteile werden dadurch lauter. Signalpegel-Anteile oberhalb des Schwellenwerts bleiben jedoch (im Gegensatz zur Downward-Komression) unbeeinflusst. Diese können im Anschluss separat (z. B. mit einem Limiter) bearbeitet werden. Dadurch bietet sich genau genommen ein Vorteil gegenüber der gängigen Downward-Kompression. Bei der Downward-Kompression werden zwar ebenso die relativ leisen Pegelanteile erhöht, – dies geschieht aber auf Kosten der relativ lauteren (und musikalisch oft wichtigeren!) Signalanteile, da diese ja abgesenkt werden. Der Upward-Kompressor erhöht hingegen direkt die relativ leiseren Signalanteile und lässt die relativ lauteren Signalanteile unbearbeitet. Ein Downward-Kompressor eignet sich also eher, wenn die höheren Pegelspitzen auch bedenkenlos reduziert werden können. Der Upward-Kompressor bietet sich hingegen für Signale an, bei denen es auf den Erhalt der hohen Pegelspitzen ankommt. Da sowohl beim Downward- als auch beim Upward-Kompressor vormals leisere Signalanteile erhöht werden, besteht bei beiden Verfahren das Risiko, dass eventuell im Signal vorhandenes Rauschen oder unwesentliche musikalische Details plötzlich (deutlicher) hörbar werden.

5.5 Audio-Expansion Downward- und Upward-Expansion
Ging es bei der Downward- und Upward-Kompression darum, die Dynamikspanne zu verringern (sei es durch Absenken hoher oder durch Anheben niedriger Pegel), sind Expander dazu da, die Dynamikspanne zu vergrößern (engl. "to expand"). Downward-Expander tun dies, indem sie niedrige Signalpegel noch weiter herabsenken, wodurch sich die Dynamikspanne hin zu leiseren Pegelbereichen ausweitet. Dadurch können z. B. Rauschen und leise Störgeräusche auf einer Aufnahme unterdrückt werden. Viele Rauschunterdrückungsverfahren (z. B. Noise Gates) arbeiten deshalb nach diesem Prinzip.

66

Downward- und Upward-Expansion

Durch Upward-Expander werden hohe Signalpegel weiter erhöht. Die Dynamikspanne weitet sich dadurch also zu höheren Pegelbereichen aus. – Sinnvoll ist dieses Verfahren, um zu schwache oder nahezu verloren gegangene Pegelspitzen nachträglich zu erhöhen bzw. die Dynamikspanne deutlich hörbar zu steigern. Upward-Expander wirken also wie eine Dekomprimierung. Um auf den Einsatz eines nachgeschalteten Limiters verzichten zu können, sollte man die hohen Pegelanteile nicht zu stark mit dem Upward-Expander anheben.

5.6 Normalisierung (Normalising)
Beim Normalisieren wird festgelegt, wie hoch die höchste Pegel-Spitze (max. Peak) im Signal sein soll. Proportional zur höchsten Pegelspitze wird der restliche Signalpegel im gleichen Maße mitangehoben bzw. mitabgesenkt. Liegt die höchste Signalpegel-Spitze z. B. bei -6 dBFS und soll auf -3 dBFS normalisiert werden, ist dafür eine Anhebung des gesamten Signalpegels um 3 dB erforderlich. Hier geschieht also nichts anderes, als eine Neuaussteuerung des gesamten Pegels, die sich aber an der Höhe der höchsten Signalpegel-Spitze orientiert. Ein Normalisieren auf einen höheren Pegel ist nur möglich, wenn die höchste Pegelspitze unterhalb von 0 dBFS liegt. Meistens wählt man für die Pegelanhebung jedoch nicht 0 dBFS, sondern einen Ziel-Pegel leicht unterhalb von 0 dBFS. Das kann dazu führen, dass beim Normalisieren der Pegel abgesenkt statt erhöht werden muss, z. B. wenn die höchste Pegelspitze -1 dBFS beträgt und das Signal auf -3 dBFS normalisiert werden soll. Der Signal-Rausch-Abstand an sich wird durch das Normalisieren nicht verändert. Da beim Normalisieren jedoch eine Anhebung des Signalpegels erfolgt, wird natürlich auch eventuelles Rauschen angehoben und dadurch (deutlicher) hörbar. Die Dynamikspanne wird durch das Normalisieren weder verringert, noch vergrößert, verschiebt sich aber insgesamt zu einem relativ höheren (oder niedrigeren) Pegelbereich. Werkzeuge zur Dynamikbearbeitung
Kompression (Downward-Kompression) & Limitierung Senkt hohe Signalpegel herab (Lautes wird leiser)

Verringerung der Dynamik

Upward-Kompression Downward-Expansion

Erhöht niedrige Signalpegel (Leises wird lauter) Senkt leise Signalpegel herab (Leises wird leiser) Erhöhung der Dynamik

Upward-Expansion Normalisierung

Erhöht hohe Signalpegel (Lautes wird lauter) Erhöht oder senkt den Gesamtpegel proportional zum Spitzenpegel (Alles wird lauter bzw. leiser) Keine Auswirkungen auf die Dynamik, aber Verschiebung der Dynamikspanne

67

Audio-Mastering-Guide

68

6. Frequenzbearbeitung

6. Frequenzbearbeitung
6.1 EQing (Equalization)
Durch den Equalizer (EQ, dt.="Entzerrer") lässt sich der Signalpegel eines Frequenzbereichs anheben oder absenken. Das Arbeitsspektrum eines EQs erstreckt sich dabei bis 22 kHz. Pro EQ-Band (bzw. EQ-Filter) kann jeweils ein Frequenzbereich bearbeitet werden.

6.2 EQ-Parameter Filtergüte und Q-Faktor (Q), Bandbreite (N)
Die sog. Mitten-Frequenz (bzw. Center-Frequenz oder Arbeits-Frequenz) stellt den Mittelpunkt des zu bearbeitenden Frequenzbereichs dar. Wie weiträumig sich die Bearbeitung auf die benachbarten Frequenzen (die sog. Eckfrequenzen) auswirkt, entscheidet die (in Oktaven angegebene) Bandbreite (N) (engl. "bandwidth") des EQ-Filters bzw. die Filtergüte (Q). Letztere wird auch als Q-Factor (Gütefaktor, engl. "quality factor") bezeichnet. Bei einer hohen Filtergüte (Q) erfolgt eine schmalbandige Bearbeitung: Hier wird nur ein geringer Teil des benachbarten Frequenzbereichs beeinflusst. Die schmalbandige Bearbeitung eignet sich damit für gezielte Bearbeitungen kleiner Frequenzbereiche. Bei einer niedrigen Filtergüte (Q) erfolgt eine breitbandige Bearbeitung: In diesem Fall wird also ein größerer Teil des benachbarten Frequenzbereichs mitbearbeitet. Die Filterflanken sind demgemäß nicht besonders steil.

Flankensteilheit (slope)
Der Ausdruck Flankensteilheit (engl. "slope") wird nur bei Filter angewendet, die dafür vorgesehen sind, einen Frequenzbereich extrem stark auszuregeln ("wegzuschneiden"). Dies trifft auf den Tief- und Hochpassfilter (bzw. High- und Low-Cut-Filter) zu. Bei solchen Filtern darf man also nicht von "Bandbreite" oder "Gütefaktor" reden.

Schmalbandige Absenkung bei 377 Hz (Q-Faktor: 4.82). – Benachbarte Frequenzbereiche werden so kaum beeinflusst.

69

Audio-Mastering-Guide

Breitbandige Absenkung bei 375 Hz, (Q-Faktor: 0.56) ergibt. Im Gegensatz zur schmalbandigen Absenkung werden die benachbarten Frequenzbereiche weit reichender mitbearbeitet.

Wirkungsgrad (Gain, Range)
Um wie viel dB ein EQ-Filter Frequenzen anheben bzw. absenken kann, bestimmt der sog. Wirkungsgrad (engl. "gain"=Verstärkung; "range"=[Wirkungs]bereich, Umfang, Skala, Reichweite). So wird man mit einem relativ geringen Wirkungsgrad von +/- 6 dB einen Frequenzbereich nicht effektiv ausregeln ("cutten") können. Dafür benötigt einen höheren Wirkungsgrad von ≥ 20 dB.

6.3 EQ-Filtertypen Peak, Bell (Glockenfilter)
Der Peak-Filter ist der gängigste Filtertyp. Vom Aussehen her ähnelt der Frequenzgang dieses Filtertyps einer Gauß'schen Glockenkurve, – daher auch die Bezeichnung "Glockenfilter" (engl. "bell"=Glocke).

EQ-Band 4 zeigt eine Absenkung von -4.5 dB bei 1622 Hz mit dem Bell-Filter.

Notch (Kerbfilter)
Ein Notchfilter ähnelt einem sehr schmalbandigen Bell-Filter. Dadurch kommt es an der Centerfrequenz zu einer Kerbe (engl.="notch") im Frequenzgang, weswegen man ihn auch als Kerbfilter bezeichnet.

70

Wirkungsgrad (Gain, Range)

Shelve (Kuhschwanzfilter)
Den Shelf-Filter unterscheidet man in High-Shelf und Low-Shelf: Der High-Shelf-Filter bearbeitet die Frequenzen, die oberhalb der Center-Frequenz liegen. Der Low-Shelf-Filter beeinflusst hingegen den Frequenzbereich unterhalb der Center-Frequenz. Je nach Filtergüte wirkt sich der High-Shelf auch auf einen gewissen Frequenzbereich unterhalb und der Low-Shelf auch auf einen gewissen Frequenzbereich oberhalb der Center-Frequenz aus. Dort entsteht eine leichte Anhebung bzw. Absenkung, die dem Filter sein charakteristisches Aussehen verleihen, dass etwas an einen "Schweif" bzw. "Kuhschwanz" erinnern kann. Daher auch die Bezeichnung "Kuhschwanzfilter".

EQ-Band 4 – Absenkung von -8.5 dB bei 1628 Hz mit dem High-Shelf-Filter.

EQ-Band 3 – Ansenkung von -10.8 dB bei 406 Hz mit dem Low-Shelf-Filter.

High-Pass (HP) (Hochpassfilter), Low-Cut (LC)
Der High-Pass-Filter (engl. "to pass"=vorbeilassen, überqueren) lässt alle Frequenzen oberhalb der gewählten Frequenz (je nach Flankensteilheit und Filter-Verhalten) mehr oder weniger unbeeinflusst passieren und senkt unterhalb der Center-Frequenz alles ab. Da er also die tiefer liegenden Frequenzen absenkt, nennt man diese Bearbeitung auch Low-Cut. Je höher die Flankensteilheit, desto mehr wirkt sich der Filter jedoch auch oberhalb der Center-Frequenz aus.

71

Audio-Mastering-Guide

Low-Pass (LP) (Tiefpassfilter), High-Cut (HC)
Der Low-Pass-Filter lässt alle Frequenzen unterhalb der gewählten Frequenz (je nach Flankensteilheit Filterverhalten mehr oder weniger unbeeinflusst) passieren und senkt alles oberhalb der Centerfrequenz ab.
und

Da er also höher liegende Frequenzen absenkt, entspricht diese Bearbeitung einem High-Cut. Je höher die Flankensteilheit desto mehr wirkt sich der Filter jedoch auch unterhalb der Center-Frequenz aus.

Bandpassfilter (BP) (Breitbandfilter)
Der Bandpassfilter lässt einen extrem breites Frequenzband unbearbeitet passieren (daher die Bezeichnung "Bandpass") und regelt alles außerhalb davon herab. Somit filtert er ein sehr breites Frequenzband aus dem Signal heraus und wird deswegen auch als "Breitbandfilter" bezeichnet. Auf diese Weise lässt sich mit nur einem Filter gleichzeitig ein High- und Low-Cut erzeugen.

Bandpassfilter – erzeugt hier einen Low-Cut bei 40 Hz (links) und einen High-Cut bei 16.5 Hz (rechts).

Filterverhalten bei Low- und High-Cut-Filtern
Bessel • Die Signal-Phase ändert sich bei diesem Filterverhalten am langsamsten. • Das Phasenverhalten im Durchlassbereich23 des Filters ist linear. • Rechtecksignalen werden geglättet. • Die Gruppenlaufzeit24 ist konstant. • Geringe Steilflankigkeit. Die konstante Gruppenlaufzeiten verhindern Verzerrungen bei nicht-sinusförmigen Signalen und somit von den meisten Audiosignalen. Somit ist Bessel ein für den Audiobereich sehr brauchbareres Filterverhalten. Durch die Rundung von Rechtecksignalen kann es zu einem weicher wirkenden Klangeindruck kommen. Ein Nachteil ist die relativ geringe Flankensteilheit. Chebyshev • Nahe der Grenzfrequenz (= die Frequenzen, die durch den Filter um 3 dB abgesenkt werden) entsteht ein starkes Überschwingen. • im Durchlass- bzw. Sperrbereich des Filters entsteht (durch überlagerte Restspannung) ein leicht wellenförmiger Frequenzverlauf. • Der Phasenverlauf ist nicht-linear. • Die Gruppenlaufzeit ist frequenzabhängig. • Sehr steilflankig.

23Der

Durchlassbereich ist im Gegensatz zum sog. Sperrbereich der Signalanteil, den der Filter ohne Dämpfung (=Absenkung der Signalamplitude) durchlässt.
24Mit

Gruppenlaufzeit bezeichnet man die Phasenlage von Frequenzgruppen.

72

Parametrischer EQ – halb oder voll?

Gruppenlaufzeiten sollten idealerweise frequenzunabhängig sein, was hier nicht der Fall ist. Auch aufgrund des nicht-linearen Phasenverlaufs, dem Überschwingen nahe der Grenzfrequenz und der Welligkeit besitzt dieses Filterverhalten für Audiosignale durchaus einige Schwachpunkte. Jedoch ermöglicht der Chebyshev ein extrem steilflankiges Abregeln des Signals. Butterworth • Die Dämpfung im Durchgangsbereich des Filters ist konstant. • Nahe der Grenzfrequenz entsteht eine geringe Anhebung des Signals. • Der Phasenverlauf weist eine leichte Nicht-Linearität auf. • Die Gruppenlaufzeit ist frequenzabhängig Nahe der Grenzfrequenz kommt es zu einer geringen Anhebung der Signalamplitude. Das ist nur nützlich, wenn man dort tatsächlich eine Anhebung benötigt oder tolerieren kann. Der Phasenverlauf ist nur in geringem Maße nicht-linear und diesbezüglich dem Chebyshev überlegen. Die Gruppenlaufzeit ist jedoch auch hier frequenzabhängig.

6.4 Arten von Equalizern Parametrischer EQ – halb oder voll?
Bei voll-parametrischen EQs ist für jedes EQ-Band die Center-Frequenz und Bandbreite (aus einer Menge vorgegebener Werte) wählbar. Bei semi-parametrischen bzw. quasi-parametrischen Equalizern (lat. "semi"=halb) ist die Bandbreite festgelegt und nur die Center-Frequenz (aus einer Menge vorgegebener Werte) wählbar. Manche EQs werden auch als semi-parametrisch bezeichnet, wenn einige EQ-Bänder voll-parametrisch und die anderen semi-parametrisch ausgelegt sind.

Voll-parametrischer EQ

Graphischer EQ – Alles auf einen Blick!
Beim graphischen EQ sind Centerfrequenz und Bandbreite für jedes EQ-Band fest vorgegeben. Alle EQ-Bänder liegen hier unmittelbar nebeneinander und der Gain wird durch Schieberegler geregelt. Dadurch wird der durch die Einstellung der EQ-Bänder definierte Frequenzgang bereits am Gerät selbst anschaulich. Anhand der Position der Schiebregler sieht man nämlich, welchen Kurvenverlauf (mathematisch: Graph) der EQ bildet. Daher bezeichnet man solche Equalizer als "graphisch".

73

Audio-Mastering-Guide

Para-graphischer EQ
Grade im Softwarebereich findet man oft para-graphische EQs. – Hier lässt sich die Centerfrequenz und Bandbreite der EQ-Bänder nicht nur aus einer Menge vorgegebener Werte auswählen, sondern vollkommen frei einstellen. Zusätzlich wird der Frequenzverlauf als Graph dargestellt.

Graphischer EQ

Oktav- und Terzbandskalierung
Eine Einteilung der Center-Frequenzen in Oktav- oder Terzabständen25 findet man in der Regel bei graphischen und vielen voll-parametrischen EQs, z. B.: 20 Hz 20 40 25 80 160 320 50 640 62.5 Oktaven Terzen

31.25 40

Linearer EQ
Aufgrund von Phasenverschiebungen verfärben EQs den Klang ein wenig. Bei linearen Equalizern treten keine Phasenverschiebungen auf. So entsteht ein transparenterer Klang, der sich besonders für unauffällige Eingriffe am Audiomaterial eignet. – Eine vollkommene Neutralität ist jedoch nicht gegeben, da auch lineare EQs einen gewissen Eigenklang besitzen und z. B. zu "weicher" oder "analytisch" wirkenden Klangeindrücken führen können. Weil sie (gegenüber nicht-linearen EQs) aber dennoch neutraler im Klangverhalten sind, werden sie oft beim Mastering eingesetzt.

Umrechnung der Bandbreite (N) in den Gütefaktor (Q)
Manchmal will man den Klang von EQs (anhand gleicher Einstellungen) miteinander vergleichen. Erfolgen bei einem EQ die Angaben als Bandbreite (in Oktaven, N/B) und beim anderen als Gütefaktor (Q-Factor, Q), ist ohne Umrechnung kein exakter Vergleich möglich. Deswegen kann man das Ganze entweder direkt mit entsprechenden Formeln umrechnen oder einfach die folgende Tabelle als Anhaltspunkt nehmen:
N/B 1/80 1/60 1/50 1/40 1/30
25Ein

Q 115.4 88.6 72.1 57.7 43.3

N/B 1 1 1/4 1 1/3 1 1/2 1 2/3

Q 1.41 1.12 1.04 0.92 0.82

N/B 4 4 1/4 4 1/3 4 1/2 4 2/3

Q 0.267 0.242 0.234 0.220 0.207

N/B 7 7 1/4 7 1/3 7 1/2 7 2/3

Q 0.089 0.082 0.079 0.075 0.071

Frequenzunterschied in Höhe einer Oktave entspricht also immer einer Verdoppelung der jeweiligen Frequenz. Ein Frequenzunterschied in Höhe einer Terz entspricht immer der Erhöhung um ein Viertel der jeweiligen Frequenz.

74

Umrechnung der Bandbreite (N) in den Gütefaktor (Q)

1/25 1/20 1/16 1/12 1/10 1/8 1/6 1/5 1/4 1/3 1/2 2/3 3/4

36.1 28.9 23.1 17.3 14.4 11.5 8.65 7.20 5.76 4.32 2.87 2.14 1.90

1 3/4 2 2 1/4 2 1/3 2 1/1 2 2/3 2 3/4 3 3 1/4 3 1/3 3 1/2 3 2/3 3 3/4

0.78 0.67 0.58 0.56 0.51 0.47 0.45 0.40 0.36 0.35 0.33 0.30 0.29

4 3/4 5 5 1/4 5 1/3 5 1/1 5 2/3 5 3/4 6 6 1/4 6 1/3 6 1/2 6 2/3 6 3/4

0.200 0.182 0.166 0.161 0.152 0.143 0.139 0.127 0.116 0.113 0.106 0.100 0.097

7 3/4 8 8 1/4 8 1/3 8 1/1 8 2/3 8 3/4 9 9 1/4 9 1/3 9 1/2 9 2/3 9 3/4 10

0.068 0.063 0.058 0.056 0.053 0.050 0.048 0.044 0.041 0.039 0.037 0.035 0.034 0.031

Nachfolgend nochmal die gleiche Tabelle mit der Bandbreite in Dezimalzahlen:
N/B 0.0125 0.0166 0.020 0.025 0.033 0.040 1/20 1/16 1/12 1/10 1/8 1/6 1/5 1/4 1/3 1/2 2/3 3/4 Q 115.4 88.6 72.1 57.7 43.3 36.1 28.9 23.1 17.3 14.4 11.5 8.65 7.20 5.76 4.32 2.87 2.14 1.90 N/B 1.00 1.25 1.33 1.5 1.66 1.75 2.00 2.25 2.33 2.5 2.66 2.75 3.00 3.25 3.33 3.5 3.66 3.75 Q 1.41 1.12 1.04 0.92 0.82 0.78 0.67 0.58 0.56 0.51 0-47 0.45 0.40 0.36 0.35 0.33 0.30 0.29 N/B 4.00 4.25 4.33 4.5 4.66 4.75 5.00 5.25 5.33 5.5 5.66 5.75 6.00 6.25 6.33 6.5 6.66 6.75 Q 0.267 0.242 0.234 0.220 0.207 0.200 0.182 0.166 0.161 0.152 0.143 0.139 0.127 0.116 0.113 0.106 0.100 0.097 N/B 7.00 7.25 7.33 7.5 7.66 7.75 8.00 8.25 8.33 8.5 8.66 8.75 9.00 9.25 9.33 9.5 9.66 9.75 10.0 Q 0.089 0.082 0.079 0.075 0.071 0.068 0.063 0.058 0.056 0.053 0.050 0.048 0.044 0.041 0.039 0.037 0.035 0.034 0.031

Je größer die Bandbreite (N) in Oktaven, desto niedriger ist der Gütefaktor (Q). – Bandbreite und Gütefaktor verhalten sich also umgekehrt proportional zueinander. Z. B. ist eine Bandbreite von N=3.0 bereits als "sehr breitbandig" zu betrachten, erscheint umgerechnet in den Gütefaktor (Q) aber als relativ geringer Wert von Q=0.40. Ein Gütefaktor (Q) von z. B. 17.310 ist ein hoher Wert und steht somit für eine "schmale" Bandbreite in Oktaven (N) von N=1/12 (bzw. 0.083).

75

Audio-Mastering-Guide

7. Raumakustik – mehr Platz für Musik!
7.1 Schall
Der berühmte Wissenschaftler Popper war der Meinung, man sollte bestehende Theorien nicht versuchen zu belegen, sondern immer wieder überprüfen und dabei versuchen, sie zu widerlegen. Solange sich eine Theorie nicht widerlegen lässt, kann man sie als vorläufig gültig betrachten, wobei die Betonung auf "vorläufig" liegt. Deswegen sind auch theoretische Erklärungen im Bereich der Tontechnik und Akustik durchaus nicht als absolute Wahrheiten zu betrachten, denn man weiß nie, ob neuere Erkenntnisse sie widerlegen könnten oder Korrekturen notwendig machen. So hat man also immer nur eine Annäherung an die Wahrheit. Auch wenn sich eine Theorie der Praxis bewährt und in sich schlüssig ist, dürfe man sie, laut Popper, nicht als absolute Wahrheit betrachten. Dennoch werden Theorien und die Phrase wie z. B. "wissenschaftlich bewiesen" gern mit absoluter Wahrheit verwechselt. Wissenschaftliche Beweise beweisen aber immer nur vorläufige Gültigkeit. Es gilt deswegen sogar als unwissenschaftlich bei wissenschaftlichen Untersuchungsergebnissen Aussagen wie "niemals" und "immer" zu verwenden, da diese einen absoluten Anspruch erheben. Stattdessen sagt man "fast nie" und "fast immer". Gemäß der physikalischen Theorien breitet sich Schall aus, durch eine schnell schwingende Masse (z. B. Stimmbänder, Drumfell etc.) werden Luftmoleküle angeregt, feinste Verdichtungen zu bilden. Wie in einer Art Kettenreaktion regen die Luftmoleküle weitere Luftmoleküle an. So breitet sich der Schall in Form feinster Änderungen des Luftdrucks schließlich wellenartig im Raum ausbreiten. Diese "Wellen" treffen dann auf das Trommelfell und versetzten es in Schwingungen. Die auf dem Trommelfell entstehende Schwingung wird letztendlich in elektrische Signale umgewandelt und erst im Hörzentrum des Gehirns ausgewertet. – Das Ohr selber hört also nichts, sondern dient nur als Schallumwandler. Das Hörzentrum des Gehirns ist jedoch akustisch gesehen mehr oder weniger isoliert: Es sitzt unter der (hoffentlich intakten!) Schädeldicke. So bleibt im Gehirn vom Schall nichts mehr übrig. Das Hörzentrum stellt selber natürlich nur Gehirnmasse dar. Das Hörzentrum hört also auch nichts, sondern dient lediglich als Signalumwandler, der die elektrischen Signale auswertet. Daher ist es logisch, dass es kein Organ bzw. das Gehirn ist, das den Schall hört, sondern das menschliche Bewusstsein. Die jeweiligen Organe bzw. das Gehirn vermitteln lediglich die dafür nötigen Informationen an das wahrnehmende Bewusstsein. Der Sitz des Bewusstseins wird zwar im Gehirn vermutet, wurde dort bis heute jedoch nicht lokalisiert. Denn das Bewusstsein als Ding an sich kann man nicht mit den derzeitigen Methoden messen und dadurch auch nicht wissenschaftlich belegen. Das einzige was man messen und sichtbar machen kann, sind die Aktivitäten in den Hirnregionen. Diese Aktivitäten sind aber an sich nur elektrische Signale und kein wahrnehmendes Bewusstsein als Ding an sich. Obwohl viele Leute den Theorien anhängen, die das menschliche Bewusstsein lediglich als Nebenprodukt der Aktivitäten des Gehirns begreifen und deswegen das Gehirn als Erzeuger des Bewusstseins ansehen, gibt es auch viele Erkenntnisse, die auf logisch nachvollziehbare Weise deutlich dagegen sprechen.

76

7. Raumakustik – mehr Platz für Musik!

Wie jeder selber überprüfen kann, hört man seine innere Gedankenstimme und kann auch in nächtlichen Träumen auditive Informationen wahrnehmen, ohne dass für diese Wahrnehmungen eine materielle Schallquelle oder ein Ohr benötigt wird. Das zeigt, dass der Mensch eben auch in einem rein geistigen Bereich (unabhängig von der Außenwelt) etwas hören kann. Inwiefern man dieses Phänomen in Abhängigkeit zum Gehirn sieht, ist im Prinzip eine reine Glaubensfrage, da man weder wissenschaftlich beweisen noch wissenschaftlich widerlegen kann, dass das Gehirn hierarchisch über dem wahrnehmenden Bewusstsein steht. Sind viele Schallquellen anwesend (z. B. Symphonieorchester), müsste es in der Luft ein Wirrwarr an wild schwingenden Luftmolekülen entstehen. – Wie dem Gehör in diesem Chaos eine exakte akustische Informationsübertragung und Ortung möglich ist, konnte durch bisherige Erklärungsmodelle noch nicht hinreichend genug geklärt werden. Dennoch verwechseln viele Leute Theorie mit Wirklichkeit gleich. Es ist jedoch eine Tatsache, dass man viele theoretische Dinge nicht selber mit eigenen Sinnen überprüfen kann und sich auf eine bloße Vorstellung verlässt. Hat z. B. jemand mal eine "Schallwelle" bzw. die "Luftdruck" oder "Luftmoleküle" als Ding an sich einmal mit eigenen Sinnen wahrgenommen? – Das Sichtbarmachen durch extra dafür konstruierte Messgeräte führt auch nicht dazu, dass man eine Schallwelle im realen Raum als Ding an sich plötzlich vor sich sehen kann. So zeigt das Bild einer sog. akustischen Kamera nur eine durch Messungen und Berechnung abgeleitete Abbildung des Schalls auf einem Bildschirm. Diese Abbildung ist aber nicht die Schallwelle als Ding an sich. Genauso wie ein Foto von einem Tisch ja auch nicht den Tisch als Ding an sich darstellt. Ebenso zeigt das angebliche Sichtbarmachen von Schallwellen durch Experimente mit Wasser nicht die Schallwelle als Ding an sich, sondern Wellen im Wasser und somit sieht man dabei genau genommen nur Wasserwellen. Wenn man sich also Schallwellen vorstellt, ist dies ein theoretisches Konstrukt, um die durch Schall auftretenden Phänomene zu erklären. Schallwellen hört man auch nicht, sondern man hört doch eindeutig Töne, Geräusche, Klänge, Lärm. Luftdruckänderungen und somit den Schalldruckpegel als Ding an sich kann man ebenso wenig hören, sondern man hört die Lautheit, die ein Ton, Geräusch, Klang usw. besitzt. Das sollte man bei aller theoretischen Korrektheit, die dazu führt sich zu Erklärungszwecken Dinge vorzustellen, die man nunmal nicht de facto wirklich selber überprüfen kann, im Hinterkopf behalten. Das soll natürlich keineswegs bedeuten, dass die durch Töne, Geräusche, Lärm usw. ausgelösten akustischen Phänome deshalb nicht vorhanden wären. Es soll damit also keineswegs angezweifelt werden, dass es z. B. in einem leeren, akustisch unbehandelten Raum zu Hall kommt, denn das kann man selber schließlich mit eigenen Sinnen und damit streng empirisch selber erfahren! Jedoch sollten die bildlichen Vorstellungen, die man sich über das mit eigenen Sinnen Wahrgenommene darüber hinaus noch macht, auch "als solche" erkannt werden. Das mag spitzfindig erscheinen, doch viel zu selten ist man sich dessen bewusst, das es ein Unterschied ist, was man konkret mit eigenen Sinnen im jetzigen Augenblick wahrnimmt und was man sich über das eigentlich selbst Wahrgenommene hinaus noch gemäß verschiedenster Theorien "hinzudenkt".

77

Audio-Mastering-Guide

Schall kann sich in flüssigen Medien wie z. B. Wasser ausbreiten und ebenso durch feste Körper hindurchgelangen, sogar durch Mauern, – was so manchen durch Beschwerden wegen Ruhestörung bereits aufgefallen sein mag... Da man aber unter Wasser normalerweise keine Musik hört und sich vor dem Musikhören auch nicht selber in Beton eingießt, interessiert hier natürlich nur die Schallausbreitung in der Luft (Luftschall)... Man geht davon aus, dass sich Schall mit 343 m/s durch die Luft bewegt. – Das gilt aber nur bei einer Temperatur von 20 °Celsius. Die Schallgeschwindigkeit ist also temperaturabhängig. Mit jeder Temperaturänderung um 1 °Celsius ändert sie sich um 60 cm/s. Eine gute Raumakustik ist für gute Aufnahmeergebnisse und eine gute Durchhörbarkeit von Musik notwendig. Um die Raumakustik zu optimieren, sollte man daher auch die theoretischen Grundsätze der Schallausbreitung kennen: Je nach Oberflächenstruktur kommt es zur Schallreflexion, -Streuung, -Bündelung, -Beugung oder -Absorption.

Direktschall – Direkt von der Quelle
Schallanteile, die ohne Umwege direkt von der Schallquelle stammen, nennt man sinnigerweise Direktschall.

Reflexionsschall
Kann der Schall bei einer gegebenen Frequenz von einer Oberfläche reflektieren, bezeichnet man diese als schallhart. Das Reflexionsvermögen ist also neben der Beschaffenheit der Oberfläche auch abhängig von der Frequenz. Den reflektierenden Schall nennt man Reflexionsschall. Das ist also der Schall, der von Reflexionen und nicht direkt von der Schallquelle stammt. In höheren Frequenzbereichen reflektiert der Schall gemäß des Schalleinfallswinkels. Außerdem gilt: Bei konvexen (=nach außen gewölbten) Oberflächen, kommt es zur Schallstreuung. Bei konkaven Oberflächen Schallbündelung.
(=nach innen gewölbt; vom lat. "cavus"=Höhle)

kommt es hingegen zur

Schallabsorption – Den Schall schlucken
Wenn Schall beim Kontakt oder Durchqueren eines Körpers Energie verliert, wird er "absorbiert" (lat. "absorbeo"=aufsaugen, für sich in Anspruch nehmen). Ob und inwieweit es zur Absorption kommt, hängt von der Fläche, Dicke, Oberflächenstruktur, Dichte und Steifigkeit eines Körpers ab. Kann ein Körper bei einer gegebenen Frequenz Schall absorbieren, bezeichnet man diesen als schallweich.

78

Schallhindernisse

Die Höhe der Absorption ist also abhängig von der jeweiligen Frequenz und wird durch den Schallabsorptionsgrad (α) angegeben. Der Wert α=1 entspricht 100 % Absorption. Werte von z. B. α=0.1; α=0.2 entsprechen dann sinngemäß 10 %; 20 % Absorption usw.

Schallhindernisse
Körper, die größer sind als die jeweilige Schallwellenlänge (und dabei genug Dichte und Steifigkeit besitzen) sind schallundurchlässig.

Schallbeugung (Diffraktion) und Schallbrechung (Refraktion)
Ist ein Körper kleiner dimensioniert als die jeweilige Schallwellenlänge, stellt er auch bei hoher Dichte und Steifigkeit kein Hindernis für den Schall dar. In dem Fall kommt es deswegen zur Schallbeugung (engl. "sound diffraction"). Ist ein Körper zwar größer als die jeweilige Schallwellenlänge, aber aufgrund der Materialbeschaffenheit nicht dazu in der Lage, den Schall effektiv zu absorbieren oder zu reflektieren, ist er für den Schall kein Hindernis und wird durchdrungen. Das bezeichnet man als Schallbrechung (engl. "sound refraction"). Der Schall "bricht" also durch das Hindernis hindurch (z. B. bei einer sehr dünnen Wand).

Hall – Early Reflections – Pre-Delay – Echo
Treten Schallreflexionen deutlich und gehäuft genug auf, können sie als Hall (engl.="reverb") wahrnehmbar werden. Besonders wichtig sind dabei die nach dem Direktschall auftretenden sog. Early Reflections (dt.="Erste Reflexionen"). Sie vermitteln einen Eindruck über die Größe der Räumlichkeit und damit der Halligkeit26. In manchen Fällen können sie sogar lauter als der Direktschall werden und dadurch auch dessen Klangfarbe etwas verändern. Besteht ein zeitlicher Abstand zwischen Direktschall und Early Reflections bezeichnet man diesen als Pre-Delay. Die Länge des Pre-Delays beeinflusst dabei den räumlichen Klangeindruck sehr stark. Nach den Early Reflections kommt es zu weiteren Reflexionen und schließlich zum Nachhall27, mit dem das Signal schließlich ausklingt.

Raumeigenmoden
Grade in kleinen Räumen überlagern sich bei manchen tiefen Frequenzen die Reflexionen mit dem Direktschall. Dadurch entsteht ein nachhaltiger, stehender Ton, den man als Dauerton, stehende Welle, "stehendes Wellenfeld", Raumresonanz oder Raumeigenmode (Moden) bezeichnet. Raummoden entstehen, wenn zwei Raumseiten Vielfache der Hälfte der jeweiligen Schallwellenlänge voneinander entfernt stehen. Sie werden durch akustisch suboptimale Längenverhältnisse der Raumseiten (wie z. B. quadratische Raummaße) begünstigt.

26Der

Ausdruck „Halligkeit“ beschreibt, dass der Klangeindruck "hallig" wirkt, der Raumklanganteil also hörbar ist, es klingt nicht "trocken". 27Der Nachhallzeit ist die Zeitdauer nach dem Verstummen des Signals, innerhalb der sich der Schalldruckpegel, um 60 dB reduziert (Dies entspricht einer Abnahme des ursprünglichen Schalldruckpegels um 1/1000).

79

Audio-Mastering-Guide

Raummoden führen zu Frequenzauslöschungen und –anhebungen, wodurch ein "kammartiger" Frequenzgang entsteht. Dieses Phänomen bezeichnet man deswegen als Kammfiltereffekt. Durch den Kammfiltereffekt entsteht ein undifferenzierter, dröhnender, verwaschener Klangeindruck. Mit steigender Raumgröße verteilen sich die Raummoden im Frequenzspektrum so, dass sie weniger auffällig werden, die sog. Eigenfrequenzdichte ist dort größer. In kleineren Räumen sind Raummoden also generell problematischer. Als ideale Seitenverhältnisse für die Raumseiten gelten z. B.: 1.00: 1.00: 1.00: 1.00: 1.00: 1.00: 1.14: 1.28: 1.60: 1.40: 1.30: 1.50: 1.39 1.54 2.33 1.90 1.90 2.50

Oberhalb von 300 Hz sind Raummoden so dicht verteilt (bzw. schon durch relativ einfache raumakustische Maßnahmen genug bedämpfbar), dass sie (besonders bei größeren Räumen) unproblematisch sind. Neben weiteren Positionen liegen Raummoden auch stets in den Raumecken. Um die Frequenz und Position der wichtigsten Raummoden im Raum zu berechnen, benötigt man nur Raummaße (in Breite, Länge, Höhe). Dann kann man sie mit Hilfe eines der zahlreichen Berechnungsprogramme im Internet ausrechnen.

Flatterechos
Flatterechos sind im Prinzip Raummoden, die bei höheren Frequenzen und somit bei sehr geringen Wandabständen (wie z. B. in schallharten Zimmerecken) entstehen. Klatscht man gegenüber einer solchen Zimmerecke mit den Händen, hört man deutlich das Flatterecho.

7.2 Schalldämpfung
Durch Schalldämpfung soll die Schallausbreitung so beeinflusst werden, dass die Raumakustik optimiert wird. Merkmale einer guten Raumakustik sind, u. a.: • eine geeignete, möglichst gleichmäßige Nachhallzeit im Raum. • das effektive Bedämpfen oder Neutralisieren von direkten Reflexionen, Raummoden und Flatterechos über einen ausreichend weiten Frequenzbereich. Die Schalldämpfung ist etwas anderes als die Schall(ab)dämmung. Schall(ab)dämmung spielt eher bei der der Bauakustik eine Rolle, bei der es darum geht, einen Lärmschutz nach außen herzustellen bzw. einen Raum akustisch zu isolieren.

80

Poröse Absorber

Poröse Absorber Porösität
Prinzipiell ist jedes offenporige poröse Material (wie z. B. Flachs, Mineralwolle usw.) dazu in der Lage, Schall zu absorbieren und stellt deswegen einen porösen Absorber dar. Mit zunehmender Dichte und Schichtdicke eines porösen Absorbers vergrößert sich der Absorptionsgrad hin zu den relativ tieferen Frequenzen, sodass eine breitbandigere Absorption möglich wird. Um einen Absorptionsgrad von α=≈ 0.8 zu erreichen, gilt: d=40/ƒ mit: d ƒ

Dämmstoffdicke (in m) zu dämmende Frequenz (in Hz)

Um α=≈ 0.8 bei 100 Hz zu erreichen, wird also bereits eine 0.4 m (= 40 cm) dicke Dämmstoffschicht notwendig. Der Absorptionsgrad erreicht (theoretisch) α=1, wenn die Schichtdicke ¼ der Schallwellenlänge beträgt.

Strömungswiderstand (R)
Ist der Strömungswiderstand des porösen Absorbers zu niedrig, besteht die Gefahr, dass der Schall ihn durchdringt. Dann kommt es Reflexionen von der Raumseite hinter dem Absorber, so als wäre der Absorber gar nicht da. Ist der Strömungswiderstand zu hoch, ist die Absorber-Oberfläche schallhart und reflektiert den Schall, anstatt ihn zu absorbieren. Der sog. längenspezifische Strömungswiderstand (angegeben in kPa s/m2) ist unabhängig von der Schichtdecke und wird herstellerseitig in einem gewissen Bereich angegeben, weil er aufgrund von Fertigungsschwankungen variieren kann. Bei porösem Dämm-Material ist der längenspezifische Strömungswiderstand z. B. bei verschiedenen Steinwollematten-Fabrikaten sehr unterschiedlich. Er kann je nach Fabrikat von 5 bis ca. 70 kPa s/m² reichen. Der Vorteil eines hohen längenspezifischen Strömungswiderstand von z. B. > 9 kPa s/m2 liegt darin, dass diese Absorber auch bei geringer Dämmstoffdicke (d) ein wenig wirksamer absorbieren, als Dämm-Material mit einem sehr geringen Strömungswiderstand (wie z. B. Thermohanf). Der Nachteil ist jedoch, dass sie bei einer sehr hohen Dämmstoffdicke (d) für den Schall undurchdringlich werden. Dämm-Material mit niedrigem längenspezifischen Strömungswiderstand (wie z. B. Thermohanf) absorbiert dafür erst ab größeren Schichtdicken (von z. B. 16 cm) relativ breitbandig und effektiv. Basotect hat mit 8–20 kPa s/m² übrigens einen ähnlichen längenspezifischen Strömungswiderstand wie viele Mineralwolle-Fabrikate, ermöglicht aber eine im Frequenzspektrum linearer verlaufende Absorption.

81

Audio-Mastering-Guide

Der spezifische Strömungswiderstand (Rs) ist abhängig vom Druckunterschied beidseitig des Dämm-Materials gegenüber dem atmosphärischen Druck (pa). Dadurch hängt er von allen Faktoren ab, die beeinflussen, wie der Schall den jeweiligen porösen Absorber durchströmen kann: Dichte, Porösität, längenspezifischen Strömungswiderstand, Schichtdicke (einschließlich des etwaigen Wandabstands). Der ideale Bereich für den spezifischen Strömungsabstand Rs liegt bei: 1000 Pa ∙ s/m ≤ Rs ≤ 3000 Pa ∙ s/m Dies entspricht: 1–3 kPa s/m Hohen Frequenzen werden stärker absorbiert, wenn der spezifische Strömungsabstand, gemäß obiger Formel, im unteren Grenzbereich ≥ 1000 Pa ∙ s/m angesiedelt ist. Tiefe Frequenzen werden stärker absorbiert, wenn der spezifische Strömungsabstand im oberen Grenzbereich mit ≤ 3000 Pa ∙ s/m verläuft. Bei einer hohen Dämmstoffdicke (d) sollte der längenspezifische Strömungswiderstand eher niedriger sein, weil die dicke Dämmstoffschicht sonst für den Schall undurchdringbar wird.

Lochplatten-Absorber (perforierte und mikroperforierte Absorber)
Bringt man perforierte (=gelochte) Platten vor einer Schicht Dämm-Material an, erhält man einen Lochplattenabsorber. Bei mikroperforierten Platten (z. B. mit 0.5 mm Lochdurchmesser bei 4–6 mm Plattendicke) kann die Dämmstoffschicht weggelassen werden kann, ohne dass es dadurch zu geringeren Absorptionsgraden kommt. Da Lochplattenabsorber also oft Dämmstoff beinhalten, kann man sie aus porösen Absorbern herstellen. Dazu wird die Lochplatte auf die Kassettierung des porösen Absorbers angebracht (also auf den Rahmen, durch den das Dämm-Material fixiert wird). Je nach: • Lochdurchmesser • Lochabstand • Lochanzahl auf der Platte • Schichtdicke des Dämm-Materials • und Wandabstand kann der Schall mehr oder weniger stark und breitbandig absorbiert werden, wodurch eine Kombination verschiedener Lochabsorbern sinnvoll ist, um gezielt bestimmte Frequenzbereiche zu beeinflussen. Ist die Platte dünn und biegsam genug, um schwingungsfähig zu sein, stellt ein Lochplattenabsorber gleichzeitig einen Lochplattenresonator dar.

82

(Mikroperforierte) Folien-Absorber

(Mikroperforierte) Folien-Absorber
(Nicht zu verwechseln mit Folienschwingern!)

Folienabsorber sind verwandt mit den mikroperforierten Lochplattenabsorbern, nur dass hier statt einer Platte eine Schwerfolie genommen wird.

Schlitzplatten-Absorber
Sind ebenso verwandt mit Lochplattenabsorbern, nur dass die Platte Schlitze anstelle einer Perforation enthält. Ist die Platte dünn und biegsam genug, um schwingungsfähig zu sein, stellt solch eine Konstruktion gleichzeitig einen Schlitzplattenresonator dar.

Resonatoren
Resonatoren gelten als – gegenüber porösen Absorbern – weitaus effizientere und "wohnlichere" Möglichkeit, gute Absorptionsgrade unter 100 Hz zu erreichen:

Plattenresonatoren (Plattenschwinger)
Hierbei wird eine auf einer Kassettierung angebrachte biegesteife Platte durch den Schall zum Mitschwingen (resonieren) angeregt, wodurch dem Schall bei (und im Bereich) der Resonanzfrequenz Energie entzogen wird. Die Platte befindet sich dabei vor einem geschlossenen Luftvolumen, das quasi als "Feder" für die Platte dient. Die Platte stellt somit die "Masse" dar, die auf der Luft federt (sog. Feder-Masse-Prinzip). Im Luftvolumen sorgt Dämmstoff für höhere Absorptionsgrade, der mit genug Abstand zur Platte angebracht werden muss, damit sie frei schwingen kann. Je nach... • Plattengröße (in m2) • der Dicke des Luft-Polsters – und somit der Tiefe der Kassettierung • und der Masse der Platte (in kg/m2)... ...kann ihr Resonanzverhalten auf eine bestimmte Resonanzfrequenz abgestimmt werden. Ebenso spielen die Reibungsverluste, die sich an den Bereichen ergeben, wo die Platte am Rahmen befestigt ist, eine große Rolle für die Wirksamkeit des Absorbers. Der Rahmen des Plattenresonator erhält entweder eine eigene Rückwand oder wird direkt an eine Wand angebracht. In beiden Fällen entsteht eine geschlossene Kassettierung. Zu der Kategorie der Plattenresonatoren zählen auch die Folienschwinger bzw. Folienresonatoren, bei denen anstelle einer Platte eine sehr dünne Schwerfolie (z. B. 4 kg/m2 bei nur 1.6 mm Foliendicke) luftdicht auf einem Rahmen schwingt und dem Schall somit Energie entzieht.

Helmholtzresonatoren
Zu dieser Kategorie zählen auch Bassfallen Helmholtzresonatoren.
(engl. "basstrap")

in Form von quaderförmig aufgebauten

83

Audio-Mastering-Guide

Ein Helmholtzresonator ist ein geschlossenes Gehäuse, das entweder ein nach innen (oder außen) gerichtetes Rohr besitzt – oder das durch ein Loch im Gehäuse aufgrund der Wanddicke des Resonatorgehäuses eine rohrähnliche Öffnung besitzt (Resonatorhals). Ein Helmholtzresonator kann auch einen quadratisch geformten Resonatorhals (bzw. eine quadratische Öffnung) besitzen. Im Helmholtzresonator entsteht eine Wechselwirkung zwischen dem Luftvolumen im Rohr (bzw. in der Öffnung), das als Masse wirkt und dem Luftvolumen im Resonatorgehäuse, das als akustische Feder dient. Die Resonanzfrequenz ergibt sich aus: • dem Luftvolumen im Gehäuse (in m3) • der Länge (in m) und der Breite (Querschnitt) der Resonatoröffnung. Durch Dämmstoff im Luftvolumen wird der Helmholtzresonator noch wirksamer. Der durch den Resonatorhals zurückreflektierte Schall wird an der Halsöffnung diffusiv ausgegeben. Die Wirkung von Resonatoren nimmt +/- eine Oktave um die Resonanzfrequenz um ca. α=0.5 ab. Platten- und Helmholtzresonatoren lassen sich also nutzen, um innerhalb eines eng begrenzten Frequenzbereichs einen hohen Absorptionsgrad zu erreichen, wodurch z. B. gezielt Raummoden beseitigt werden können. Die Konstruktion lässt sich mittels Formeln theoretisch genau berechnen, – jedoch erzielen hierbei die Plattenresonatoren in der Praxis oft etwas andere Werte als theoretisch vorhergesehen.

7.3 Versatzkonstruktionen
Stehen Raumseiten nicht direkt parallel, sondern versetzt, zueinander, reduziert das direkte Reflexionen. Der Reflexionsschall kann durch Versatzkonstruktionen in eine andere Richtung umgelenkt werden. Das jedoch nur in dem Frequenzbereich, in dem der Schall sich gemäß den Gesetzen der Optik ausbreitet (Einfallswinkel=Ausfallswinkel). – Ein Versatz verhindert also keine tieffrequenten Raummoden. Damit eine Versatzkonstruktion überhaupt eine Wirkung zeigen kann, muss der Versatz mindestens 5° betragen. Je tiefer die zu beeinflussende Frequenz ist, desto höher muss der Versatz sein. Bei tiefen Frequenzen riskiert man dadurch eine eventuell nicht mehr tolerable Verkleinerung des Raumes.

7.4 Diffuser Raumklang (Diffusität)
Ein homogener Raumklang zeigt sich auch in einem sog. diffusen Klangbild. Dafür sind möglichst zufällig verteilte Schallreflexionen und das Ausbleiben harter Reflexionen charakteristisch. Um Schalldiffusität (engl.="sound diffusion") zu erzeugen, sollte man Diffusoren nutzen. Diffusoren besitzen eine zerklüftete Oberflächenstruktur. Je tiefer und größer die Zerklüftungen des Diffusors sind, desto eher werden auch tiefere Frequenzen gestreut .

84

LEDE – tot und lebendig!

Bei professionellen Diffusor-Elementen unterscheidet man zwischen ein- und zweidimensionalen Maximalfolgen- und Schroeder-Diffusoren28 und den Primitive-Root-Diffusoren. Ein halb-voll gestelltes Bücherregal stellt übrigens auch einen Diffusor dar. Eierkarton besitzt zwar auch eine zerklüftete Oberflächenstruktur, erfüllt aber nicht die Voraussetzungen, um eine Verbesserung der Raumakustik zu erzielen. – Die kleinen Zerklüftungen bei Eierkartons wirken nur auf sehr hohe (raumakustisch sowieso unproblematische) Frequenzen absorbierend und diffus. Ein komplett mit Eierkartons ausgekleideter Raum verliert an Brillanz und kann schnell recht muffig klingen. Dennoch trifft man leider immer wieder in Proberäumen und amateurmäßigen Hobby-Studios auf Wandseiten, die mit Eierkartons verkleidet wurden.)

Primitive-Root-Diffusor
Foto: ©Song Soon Onn, 2012

Quadratic-Residue-Diffusor
Foto: © Michael Horn, 2011

7.5 Akustik des Regieraums LEDE – tot und lebendig!
Der Regierraum bzw. Abhörraum ist ein akustisch optimierter Raum, der zum analytischen Anhören und Bearbeiten von Musikproduktionen dient. – Er hat also nichts mit "Abhören" im Sinne von Spionage zu tun... Kaum ein Musikkonsument hört Musik in schalloptimierten Räumen. Deshalb ist es wichtig, beurteilen zu können, wie eine Produktion unter gewöhnlichen raumakustischen Bedingungen (der sog. Wohnzimmerakustik) höchstwahrscheinlich klingen wird. Daher sollte der Regierraum nicht komplett schalltot sein, was ohnehin sehr unangenehm klingen würde. Nur die Raumseite hinter, seitlich und oberhalb der Lautsprecher bis hin zur Abhörposition sollte möglichst schalltot sein. Sie stellt, akustisch gesehen, also das "tote" Ende des Raumes dar (engl.="dead end"). Dort dürfen in einem breitbandigen Frequenzbereich also keine Reflexionen, stehenden Wellen oder Flatterechos entstehen. Die Raumseite hinter der Abhörposition soll hingegen einen diffusen Raumklang besitzen, der frühe Reflexionen (early reflections) erst nach ca. 20–25 ms zulässt29. Dadurch werden die im Aufnahmesignal enthaltenen ersten Reflexionen nicht durch die ersten Reflexionen im Regierraum überdeckt. Diese Raumseite stellt also den "Live"-Bereich des Raumes dar (engl.="live end").
28

Zu den Schroeder-Diffusoren zählen auch die sog. Quadratic-Residue-Diffusoren. initial time delay gap, dt.="Initiale Zeitverzögerungslücke"; vom engl. "initial"=Anfangs, anfänglich, Erst-, initial; "time delay"=Zeitverzögerung; "gap"=Lücke.
29sog.:

85

Audio-Mastering-Guide

Dieses Konzept bezeichnet man als Live End-Dead End (LEDE). Es hat sich weltweit in vielen Regierräumen bewährt. Beim Regieraum geht es also um eine Mischung aus optimierter Raumakustik und jenes diffusen Raumklangs, wie man ihn oft auch in gewöhnlichen Räumen vorfindet. Audiophile Hörer, die eine raumakustische Optimierung ihres Hi-Fi-Raums vornehmen, streben im Prinzip das gleiche an. Keine Raumakustik kann jedoch stellvertretend für alle möglichen Räumlichkeiten stehen, in denen die Produktion später einmal angehört werden könnte. Ebenso wenig kann die Raumakustik im Abhör- bzw. Regierraum jemals so neutral sein, wie es z. B. in einem akustisch freien Feld (also draußen) möglich wäre. Das LEDE-Konzept stellt natürlich nicht die einzige Möglichkeit für die akustische Optimierung eines Regieraums da, ist aber das wohl am besten dokumentierte. – Vor der Einführung von LEDE hat man Abhörräume übrigens vollständig schalltot konstruiert. Durch eine unbehandelte Raumakustik wird grade in kleinen Räumen und dabei besonders im Bassbereich (und im Bereich der kritischen Raummoden bis zu 300 Hz) das Klangbild stark verfälscht: Je nach Standort der Lautsprecher und Abhörposition kann die Lautstärke bei den kritischen Raummoden z. B. auf +6 dB ansteigen oder auf -20 dB absinken. Bei einem sehr hohen Schalldruckpegel im Raum sind sogar erheblich höhere ortsspezifische Pegelunterschiede von z. B. 68 dB möglich. – Das macht es nahezu unmöglich, den Bassbereich und die unteren Mitten in solchen Räumen richtig einzuschätzen. Was zuvor über Kopfhörer (oder in einem anderen Raum) noch stimmig klang, klingt dann zu basslastig oder eben zu schwach im Bass. Regelt man dann entsprechend nach, klingt der Mix im eigenen Raum (an der jeweiligen Abhörposition) zwar ausgewogen, wird in einer anderen Abhörposition und in anderen Räumen aber wieder unausgewogen klingen. Da sich in den Raumecken die Raummoden bis 300 Hz am stärksten ausbilden, ist es sehr wichtig, sie mindestens erst mal dort zu beseitigen. Die baulich einfachste (wenn auch nicht effektivste und wohnlichste) Lösung dafür ist ein poröser Kantenabsorber bzw. Bass-Chunk. Entlang der gesamten Raumecken (also bis hoch zur Decke) wird dafür einfach alles mit einer möglichst dicken Schicht Dämm-Material verkleidet. Hier haben sich in der Praxis bereits Schichtdicken von 40 cm bei Steinwollmatten bewährt. Wie in diesem Buch bereits erwähnt wurde, wird theoretisch ein Absorptionsgrad von α=1 erreicht, wenn die Schichtdicke (d) eines porösen Absorbers ¼ der Schallwellenlänge (in m) der zu absorbierenden Frequenz beträgt. Alle davon höher liegenden Frequenzen werden dabei ebenso absorbiert. Geht man also nach dieser Annahme, wären um α=1 bei 100 Hz zu erreichen, bereits 85.75 cm Schichtdicke erforderlich, bei 70 Hz 122.5 cm bei 50 Hz sogar 171.5 cm! Es ist jedoch nicht so, dass Absorber nicht mehr ausreichend genug wirken können, wenn ihre Schichtdicke statt 1/4 z. B. nur 1/8 oder 1/16 der jeweiligen Schallwellenlänge beträgt. – Denn sonst wäre z. B. gar nicht möglich, dass bei einer 16 cm-Dämmschicht aus Thermohanf der messtechnisch ermittelte (praktische) Absorptionsgrad bei 125 Hz noch ganze α=0.94 beträgt. Geht man nämlich nach der obigen Faustregel, wäre für

α=1 bei 125 Hz ja schon eine Schichtdicke von 61.85 cm

86

LEDE – tot und lebendig!

notwendig (also ¼ der Schallwellenlänge von 125 Hz). – 16 cm sind also nicht einmal ein Viertel der theoretisch optimalen Schichtdicke und dennoch wird α=0.94 erreicht. Der Thermohanf wurde in diesem Beispiel sogar ohne Luftraum direkt auf die Raumseite angebracht, was nahelegt, dass mit etwas Luftraum zwischen Dämmschicht und Raumseite die Absorption noch ein wenig stärker ausgefallen wäre. Das gute Messergebnis liegt daran, dass eben nicht nur die bloße Schichtdicke (inkl. eventuellem Wandabstand), sondern eben auch die Materialbeschaffenheit (Porosität, Dichte, längenspezifischer und spezifischer Strömungswiderstand) für die Absorption eine große Rolle spielen. Ansonsten wäre auch kaum zu erklären, wieso sich bereits dünne Schichten mancher Steinwollmatten--Fabrikate ohne Wandabstand noch überhaupt minimal auf 70 Hz auswirken können. Selbst manche Sofas gelten als sehr gute Tieftonschlucker. Sie sind aus akustischer Sicht aber nichts anderes als extrem dicke und großflächige poröse Absorber. Dennoch erfordern Absorber für einen hohen Absorptionsgrad (z. B. bis hinab zu 50 Hz) natürlich meist enorm große Schichtdecken, was sie für kleine Räume unpraktikabel macht. Sie wirken im Sub-Bass-Bereich auch weniger effizient als andere Verfahren zur Absorption des Bassbereichs. Dies liegt auch daran, dass jeder poröse Absorber eine sog. untere Grenzfrequenz (ƒu) besitzt, unter der es für den Schall mit weiter sinkender Frequenz zunehmend leichter wird, ihn ungehindert zu durchdringen. Dadurch werden also unterhalb der Grenzfrequenz mit sinkender Frequenz tendenziell immer größere Schichtdicken notwendig. Formel zur Berechnung der unteren Grenzfrequenz poröser Absorber: ƒu=25 ∙ c/d c d Z. B.: ƒu = 25 ∙ 343/40 ƒu = 25 ∙ 8,575 ƒu = ca. 214 Hz Dass es unterhalb der Grenzfrequenz jedoch zu keiner "nennenswerten" Absorption mehr käme, wäre allerdings eine voreilige Schlussfolgerung, denn das sagt diese Formel (die ja eigentlich nur die Schichtdicke berücksichtigt) nicht aus. Statt poröser Absorber nutzt man häufig Bassfallen ([röhrenförmige] Helmholtzresonatoren) oder andere platzsparendere Verfahren, wie z. B. Folienschwinger, die bei 4 kg/m2 auf 1.6 mm Foliendicke im Bassbereich sehr effektiv sind. Auch kleinere Absorptionsgrade von Schallgeschwindigkeit (in m/s) Schichtdicke (in cm)

α=0.2 im Bereich unter 100 Hz sind übrigens immer noch

wesentlich besser, als wenn es bei α=0 bleibt.

87

Audio-Mastering-Guide

Beim Einsatz poröser Absorber ist eine Überdämpfung der Höhen unbedingt zu vermeiden. Doch genau das passiert, wenn zu viele poröse Absorber in einem Raum eingesetzt werden. Dann beträgt die Nachhallzeit in den hohen Frequenzen ab 1 kHz eventuell sogar praktisch 0 ms, – aber der Reflexionsschall durch die nicht absorbierten tieferen Frequenzen fällt dadurch umso störender auf. Bei 300 Hz also z B. α =0.5 zu erreichen, darf nicht auf Kosten davon gehen, dass im Frequenzbereich ab 1 Hz α=1 beträgt. Deswegen ist es manchmal Absorptionsgrad ab 1 Hz 0.075 Mil als idealer Wert jedoch zu stark und bei 1.0 sinnvoll, poröse Absorber mit Folie zu bespannen, denn dadurch wird der gesenkt. Bei Messungen mit PE-Folie stellte sich eine Foliendicke von heraus. Dickere PE-Folie mit 6.0 Mil reduzierte die Absorption ab 500 Hz Mil wurde die Absorption ab 2.5 kHz zu gering.

Sofern man Steinwolle als porösen Absorber verwendet, kann man durch das Auskleiden mit Folie sich auch einen Rieselschutz sparen, der ansonsten (zumindest bei Anbringen der Steinwolle an der Decke) nötig wäre. Die Raumseiten hinter und seitlich der Lautsprecher sollte möglichst großflächig durch möglichst dicken Absorber-Elementen behandelt werden. Aber auch hier sind für den Bassbereich unter 100 Hz Platz sparendere Verfahren wie z. B. Loch-, Schlitz-, Platten-, sowie Folien-Schwinger), Bassfallen, (mikro)perforierte Absorber besser geeignet. Natürlich können auch poröse Absorber mit mehreren Meter Schichtdicke selbst im Subbass-Bereich eine gute Wirkung erzielen, aber das ist eben alles andere als Platz sparend. Die Wandseite gegenüber der Lautsprecherfront darf, sofern sie mindestens 3.50 m entfernt steht, überwiegend schallhart bleiben. Sie sollte dann aber mit breitbandig wirkenden Diffusorelementen behandelt werden, damit möglichst keine harten Reflexionen entstehen. – Bei geringerer Entfernung der Wandseite muss zumindest der Bereich, zu dem die Lautsprecher direkt hinstrahlen, breitbandig absorbieren können. Als Ergänzung (und weniger als Ersatz!) zu professionellen ein- und zweidimensionalen Diffusorelementen30 können halb-voll gestellte Bücherregale oder (für Diffusität bei hohen Frequenzen) sogar Zimmerpflanzen dienen. – Die Aufstellung der Bücher sollte dabei eine möglichst stark zerklüftete Oberfläche nachbilden, ähnlich wie man das von professionellen Diffusorelementen kennt: Die Bücher werden dafür unterschiedlich tief ins Regal geschoben und sollten in "Blöcken" mit unterschiedlicher Breite angeordnet sein. So entstehen also "Blöcke" und "Kammern" im Regal und bilden eine relativ zerklüftete Oberfläche. Je tiefer das Bücherregal ist, umso eher entsteht Diffusität auch in den tiefen Frequenzen. Der Deckenbereich oberhalb der Lautsprecher muss bis hin zum Sitzplatz des Hörers (=Abhörposition) ebenso absorbierend verkleidet werden. Hierfür kann man die Absorber-Elementen auf unterhalb der Decke gespannten dicken Aluminium-Draht (Bastlerdraht) legen. Dafür müssen also an den Wänden nahe unterhalb der Decke (oder aber direkt an der Decke) passende Befestigungshaken für dieses Drahtseil angebracht werden. Jeder Draht wird unter der Last der Absorber im Laufe der Zeit etwas nachgeben, selbst wenn diese keine Rahmen besitzen. Die ganze Konstruktion wird also einige Zentimeter absinken, was die Absorber aufgrund des größeren Luftspalts zwischen Dämmstoff und Wand aber noch etwas effektiver macht.

30Primitive-Root-Diffusoren

sind für Regierräume nicht geeignet, da sie eine unregelmäßige Diffusität erzeugen.

88

LEDE – tot und lebendig!

Eine präzisere Lösung wäre aber, mehrere kurze Holz-, oder Plastiklatten aneinander zu befestigen und diese dann zwischen den Wänden, unmittelbar unterhalb der Decke, einzuhängen oder gleich durchgehende Holzlatten unterhalb der Decke einzuhängen. Für eine Absorption im Deckenbereich bieten sich besonders mikroperforierte Absorber bzw. Folienabsorber (nicht zu verwechseln mit Folienschwingern) an, die übrigens auch ohne hinterlegte Dämmschicht wirken. Ebenso kann man natürlich auch Platten- bzw. Folienschwinger oder Schlitzplatten-Absorber oder -Resonator für den Deckenbereich nehmen, sofern man diese stabil genug anbringen kann. Schaut man sich die Kostenpunkte von Fertigprodukten an und die des Materials, was man für den Selbstbau von z. B. porösen Absorbern, perforierten Absorbern, Folienschwingern u. ä. benötigt, wird schnell klar, dass dies alles am Ende sehr teuer werden kann. Grade für den Regieraum kommt es eben auf die tiefen Frequenzen an, – im Gegensatz zu einer Gesangsaufnahme im Aufnahmeraum. Bei der Gesangsaufnahme werden zwar auch Frequenzen unter 100 Hz ausgebildet, aber das nur so minimal, dass eine Behandlung der Raumakustik unter 100 Hz in dem Fall nicht erfolgen "muss" (aber natürlich dennoch optimal wäre). In einem Aufnahmeraum zählt letztendlich, was am Mikrofon ankommt. Hier gibt es z. B. bei dynamischen Mikrofonen eine große Unempfindlichkeit für seitlichen und von hinten eintreffenden Schall, der oft nur "halb so laut" aufgenommen wird und einen schlechten Raumklang (bezogen auf den Schalleinfall von diesen Seiten) in den Hintergrund treten lässt. – Das bedeutet aber nicht, dass sich raumakustische Probleme wie z. B. Kammfiltereffekte nicht mehr auf das Aufnahmesignal und somit auf dessen Klang auswirken. Doch im Regieraum ist das Gehör der Schallempfänger und das reagiert eben anders als ein Mikrofon. Wenn also das Geld für die Gestaltung einer guten Akustik im Regieraum fehlt (und hierfür geben gute Studios nicht umsonst tausende von Euro aus!), ist es weitaus besser, über geeignete Kopfhörer zu mixen und zu mastern oder seine Musik für ein Mixing und Mastering einem Tonstudio anzuvertrauen, als in einem Raum voller akustischer Probleme mit Studiomonitoren zu arbeiten. Selbst die teuersten Studiomonitore werden diese Probleme nicht beseitigen können! Dennoch kann man bereits durch eine Beseitigung oder zumindest Abschwächung der Raummoden unter 300 Hz, die entweder durch eine breitbandige Absorption (z. B. durch poröse [evtl. mit Folie umkleidete] Absorber) oder aber die gezielte Absorption einzelner Raummoden (z. B. durch Loch-, Schlitz, - Plattenresonatoren oder Bassfallen) – bereits viel verbessert werden. Selbst ein Bücherregal als Diffusor ist zwar kein "professionelles" Mittel, zeigt aber bereits Wirkung.

89

Audio-Mastering-Guide

Nachhallzeit
Als ideale Nachhallzeit für einen Abhörraum gelten 0.3 Sekunden. Im Frequenzspektrum darf es dabei (bei Messung in Terzabständen) nicht mehr als ±10 % Abweichung von diesem Wert geben. Für einen guten Raumklang ist also wichtig, dass die Nachhallzeit zwischen verschiedenen Frequenzen keine zu großen Unterschiede aufweist. Frequenzspezifische Schwankungen der Nachhallzeit fallen nämlich bereits in Bereichen von 200 – 2000 ms störend auf. So würde ein Raum, in dem z. B. bei hohen Frequenzen ab 1 kHz nahezu kein Reflexionsschall entsteht, dafür aber bei tieferen Frequenzen umso mehr, zwangsläufig muffig und dröhnend klingen. Auf die Berechnung der Nachhallzeit wird hier aus folgenden Gründen nur unter Vorbehalt eingegangen: Die Nachhallzeit wird u. a. nur anhand der Absorptionsgrade von Frequenzen ab 125 Hz errechnet und bezieht sich dabei nur auf grade Mal 6 Frequenzen. Der Bereich unterhalb von 125 Hz wird dabei leider nicht berücksichtigt. Grade dieser Bereich spielt aber eine große Rolle für den Klang eines Raumes, weswegen er eigentlich in die Berechnung der Nachhallzeit einfließen "sollte". Die Nachhallzeit kann man mit zahlreichen Online-Tools im Internet berechnen. Normalerweise nimmt man dafür die sog. Sabine`sche Formel: RT60= 0.163 ∙ V/A V A Raumvolumen äquivalente Absorptionsfläche

Berechnung der äquivalenten Absorptionsfläche (A): Der Absorptionsgrad α jeder schallabsorbierenden Raumseite (S) wird mit ihrer Größe (in m2) multipliziert. Das Ergebnis trägt man jeweils als an ein. Also z. B.: α = 0.72 S = 6 m2 0.72 ∙ 6 = 4,32 = an1 Die Summe der jeweils für an berechneten Werte ergibt dann die äquivalente Absorptionsfläche (A). an1 + an2 + an3 + ... = A Wird die äquivalente Absorbtionsfläche (A) in feet statt m2 berechnet, lautet die Sabinsche Formel: RT60= 0.049 ∙ V/A Die Sabine`sche Formel gilt jedoch nur für große (und somit entsprechend hallige) Räume ab 500 m3. Deswegen ist sie auf die Mehrzahl der Abhör- und Aufnahmeräume genau genommen gar nicht übertragbar. – Stattdessen müsste die Nachhallzeit mit der komplizierteren Eyring Formel berechnet werden, die sich auch auf Räume bis 500 m3 und somit auch auf kleine Räume anwenden lässt. – Dennoch kann eine Berechnung nach der Sabine`sche Formel natürlich nicht schaden, man sollte das errechnete Ergebnis aber nur unter Vorbehalt als Anhaltspunkt verwenden.

90

PC-Lüfter

Eine andere Möglichkeit ist die Nachhallzeit und zahlreiche andere Werte durch die aufgezeichnete Impulsantwort des Raumes zu ermitteln, die mit spezieller Software, wie z. B. Ascendo Roomtools, ausgewertet werden kann. In einem Studio-Regieraum gibt es abgesehen vom Mischpult, Monitoren und weiterem Equipment nur äußerst wenig Gegenstände im Raum, die den Schall beeinflussen können. Jedoch ist der Regieraum in vielen kleinen Homestudios lediglich ein zum Regierraum umfunktionierter Wohnraum, der alles mögliche an weiterem Mobiliar und Gegenständen enthält, die sich auf den Schall auswirken. – Streng genommen müsste man grade in solchen Räumen auch den Einfluss jedes Einrichtungsgegenstandes auf die Raumakustik berücksichtigen. Doch das würde selbst einen Akustiker zur Verzweiflung treiben, das alles zu errechnen, und daher sollte hier eher das eigene Gehör zu Rate gezogen werde.

7.6 Schluss mit lärmenden Recording-PCs – wie man seinem PC das Schweigen beibringt, ohne ihn auszuschalten...

PCs sind heutzutage bei Musikproduktion oft nicht mehr wegzudenken. Das schon aufgrund ihrer Betriebsgeräusche. Diese können nicht nur die Konzentration beeinträchtigen und Stress verursachen, sondern auch auf die Aufnahmen gelangen, sofern zu nah am PC recordet wurde. Die größten Lärmverursacher im PC sind CPU-, Gehäuse-, Netzteil-, und Graphikkarten-Lüfter sowie Festplatten und zeitweise auch die Betriebsgeräusche von CD- und DVD-Laufwerken. Sind diese Komponenten zu laut, kann auch die oft empfohlene Abdämmung des PC-Gehäuses den Lärm nicht ausreichend abdämmen.

PC-Lüfter
Die mit Abstand größte Lärmquelle im PC ist meistens der Netzteil-Lüfter. Ein 80 mm-Lüfter befindet sich in vielen Netzteilen der 300- bis 350-Watt-Klasse und lässt sich leicht durch einen leiseren ersetzen (z. B. einen 12 dBA lauten Papst-Lüfter). Wichtig ist, dass der Austausch-Lüfter laut Herstellerangaben als Netzteil-Lüfter geeignet ist! Der Lüfter kann dabei durch Schnellverbinder für 2-adrige Kabel ohne Lötarbeiten in das Netzteil eingebaut werden. Die Funktion des Lüfters ist dabei vor Inbetriebnahme des PC separat zu testen: Man schließt das Netzteil an eine Steckdose an und schaut, ob sich der Lüfter dreht. Das Netzteil darf dabei nicht mit den Mainboard-Anschlüssen verbunden werden. Außerdem darf man natürlich nicht mit dem Gehäuse-Innere des Netzteils in Berührung kommen! Ein Lüfteraustausch ist oft günstiger als der Kauf eines speziellen Silent-Netzteils. Erst teure Silent-Netzteile bieten ein leises Betriebsgeräusch. Billige, mit "silent" umschriebene Netzteile produzieren oft noch Betriebsgeräusche von ca. 20 dBA und mehr. 300–350 Watt-Netzteile sind normalerweise für die meisten PC-Konfigurationen ausreichend. Die Wattangabe zeigt die maximal zur Verfügung stehende Leistung. – Bei bescheidenen PC-Konfigurationen kann deshalb sogar ein 250 Watt-Netzteil genügen.

91

Audio-Mastering-Guide

Viele Netzteile – besonders die der 400–550 Watt-Klasse – sind mit zwei Lüftern oder einem großen 120 mm Lüfter ausgestattet. Hier sind die Lüfter oft temperaturgesteuert: Mit steigender Gehäusetemperatur erhöht sich die Drehzahl und damit das Betriebsgeräusch. 120 mm-Lüfter benötigen weniger Umdrehungen für die gleiche Kühlleistung. Deswegen sind sie tendenziell leiser als 80 mm-Lüfter. Neben intern im PC-Gehäuse angebrachten Netzteilen gibt es auch externe und sogar lüfterlose PC-Netzteile. Ein im hinteren Gehäuseteil liegendes Netzteil kann durch einen speziell dafür produzierten Aufsatz (der auf die Außenseite des Gehäuses montiert wird) schallgedämmt werden. Durch einen Gummirahmen zwischen Netzteil und Gehäuse, lässt sich das Netzteil akustisch etwas vom Gehäuse entkoppeln.

Netzteillüfter
Die mit Abstand größte Lärmquelle im PC ist meistens der Netzteil-Lüfter. Ein 80 mm-Lüfter befindet sich in vielen Netzteilen der 300- bis 350-Watt-Klasse und lässt sich leicht durch einen leiseren ersetzen (z. B. einen 12 dBA lauten Papst-Lüfter). Wichtig ist, dass der Austausch-Lüfter laut Herstellerangaben als Netzteil-Lüfter geeignet ist! Der Lüfter kann dabei durch Schnellverbinder für 2-adrige Kabel ohne Lötarbeiten in das Netzteil eingebaut werden. Die Funktion des Lüfters ist dabei vor Inbetriebnahme des PC separat zu testen: Man schließt das Netzteil an eine Steckdose an und schaut, ob sich der Lüfter dreht. Das Netzteil darf dabei nicht mit den Mainboard-Anschlüssen verbunden werden. Außerdem darf man natürlich nicht mit dem Gehäuseinnere des Netzteils in Berührung kommen! Ein Lüfteraustausch ist oft günstiger als der Kauf eines speziellen Silent-Netzteils. Erst teure Silent-Netzteile bieten ein leises Betriebsgeräusch. Billige, mit "silent" umschriebene Netzteile produzieren oft noch Betriebsgeräusche von ca. 20 dBA und mehr. 300–350 Watt-Netzteile sind normalerweise für die meisten PC-Konfigurationen ausreichend. Die Wattangabe zeigt die maximal zur Verfügung stehende Leistung. – Bei bescheidenen PC-Konfigurationen kann deshalb sogar ein 250 Watt-Netzteil genügen. Viele Netzteile – besonders die der 400–550 Watt-Klasse – sind mit zwei Lüftern oder einem großen 120 mm Lüfter ausgestattet. Hier sind die Lüfter oft temperaturgesteuert: Mit steigender Gehäusetemperatur erhöht sich die Drehzahl und damit das Betriebsgeräusch. 120 mm-Lüfter benötigen weniger Umdrehungen für die gleiche Kühlleistung. Deswegen sind sie tendenziell leiser als 80 mm-Lüfter. Neben intern im PC-Gehäuse angebrachten Netzteilen gibt es auch externe und sogar lüfterlose PC-Netzteile. Ein im hinteren Gehäuseteil liegendes Netzteil kann durch einen speziell dafür produzierten Aufsatz (der auf die Außenseite des Gehäuses montiert wird) schallgedämmt werden. Durch einen Gummirahmen zwischen Netzteil und Gehäuse, lässt sich das Netzteil akustisch etwas vom Gehäuse entkoppeln.

Gehäuselüfter
Gehäuse-Lüfter lassen sich durch Gummiaufsätze und spezielle Gummischrauben vom Gehäuse entkoppeln. Auch hier ist oft ein Austausch gegen einen leiseren Lüfter möglich.

92

Mainboard

CPU-Lüfter
Die Lautstärke eines CPU-Lüfters liegt idealerweise zwischen 12–20 dBSPL (≤ 1 Sone). In manchen PCs sind Lüfter verbaut, die eine zu hohe Kühlleistung bieten und dadurch unnötig viel Lärm erzeugen. Ist ein Lüfter bis zur oberen Leistungsklasse aktueller Prozessoren lizenziert, obwohl im PC ein viel leistungsschwächerer CPU betrieben wird, sollte man den Lüfter gegen einen schwächeren aber dafür leiseren austauschen. Temperaturgeregelte CPU-Lüfter können je nach Temperatur im Gehäuseinneren ihre Umdrehungen und somit die Lautstärke reduzieren. Die Drehzahl solcher Lüfter lässt sich oft im BIOS des Rechners konfigurieren. Eine Wasserkühlung ist selten eine gute Alternative, weil Wasserkühlungen oft ähnlich laut arbeiten wie herkömmliche Lüfter. Ein passiver CPU-Lüfter hat oft den Nachteil nicht genügend Kühlung zu bieten.

Graphikarten-Lüfter
Generell sollte man in einem Recording-PC passiv gekühlte Graphik-Karten einsetzen. Bei aktiv gekühlten Karten erzeugen klein-dimensionierte Lüfter oft einen enormen Lärm. – Man kann jedoch versuchen, deren Lüfter mit geringerer Umdrehungszahl zu betreiben oder ausprobieren, ob die Karte auch ganz ohne Lüfter läuft. Wenn man kein "Gamer" ist, wird die Karte nämlich meistens nicht besonders beansprucht und deren Wärmeentwicklung bleibt dann bei vielen Modellen im unkritischen Bereich. Für manche Modelle gibt es auch spezielle Kühlaufsätze zu kaufen, wodurch oft auf den Lüfter verzichtet werden kann.

Mainboard
Ein Mainboard lässt sich mit Gummiringen, die zwischen der Mainboard-Verschraubung und Gehäuse angebracht werden, vom Gehäuse entkoppeln. Dafür sind meist längere Schrauben notwendig.

Festplatten
Festplatten erzeugen insgesamt eher hochfrequente Geräusche. Deswegen schafft eine Entkoppelung der Festplatte eher Abhilfe bei tieffrequenten Geräuschen, die durch den Lesekopf ausgelöst werden. Eine bessere Abdämmung erreicht man, wenn die Festplatte in ein schalldämmendes Festplattengehäuse mit guter Wärmeableitung und integrierter Kühlung untergebracht wird. Man kann sich solche Festplattenboxen natürlich auch selbst bauen, Anleitungen dazu finden sich im Internet. – Allerdings sind diese D.I.Y.-Lösungen oft Konstruktionen, die zusätzliche aktive Lüfter benötigen, welche dann wieder den Geräuschpegel anheben. Eine andere Lösung wäre eine leisere oder eine externe Festplatte.

CD-, DVD-Laufwerke
Hohe Betriebslautstärke von CD- und DVD-Laufwerken lässt sich mit diversen Softwaretools regulieren.

93

Audio-Mastering-Guide

Silent-PC-Gehäuse
Durch einen "Silent-Tower" (schallgedämmte Computergehäuse) kann das Betriebsgeräusch des PC abgedämmt werden. Solche Gehäuse sind mit Schalldämm-Matten verlegt und meist auch anders konstruiert:
• • • • •

Netzteil vorne Lufteinzug durch ein Loch im Boden im Gehäuse eingehängter Festplattenkäfig schraublose Befestigung von PCI-Steckkarten Gehäuse durch Gummifüße vom Boden entkoppelt

Ein schallgedämmtes Gehäuse ist aber nur schallgedämmt und nicht schalldicht. Sind die PC-Komponenten an sich also zu laut, bringt es nur eine leichte Besserung. – Der Austausch gegen leisere PC-Komponenten ist in jedem Fall effektiver. Ein schallgedämmtes Gehäuse kann die Dämmwirkung dann so weit verstärken, dass der PC vollständig unhörbar arbeitet. Will man das PC-Gehäuse selber dämmen, kleidet man die Seitenwände des PCs (von innen) mit selbstklebenden PC-Dämm-Matten oder Bitumenmatte aus, die man mit Heißkleber aufklebt. Die oft empfohlenen Bitumenmatten riechen allerdings etwas unangenehm. Die PC-Dämmmatten sind vergleichsweise geruchsneutral und bequem anzubringen. Manche PC-Dämmmatten haben jedoch eine zu geringe Dämmwirkung. Falls man sich für Bitumenmatten entscheidet, kann eine dünne Schicht Schaumstoff für zusätzliche Dämmung sorgen. Insgesamt darf die Dämmschicht nicht zu dick sein, weil das Gehäuse sonst zu heiß wird. Ebenso darf sie nicht die Ränder der Seiteninnenwände umfassen, da man die Seitenwände sonst nicht mehr einhängen kann. Die Front des PCs und leere Laufwerkschächte können mit Schaumstoffblöcken oder alten Laufwerken aufgefüllt werden. Durch das Auskleiden mit Dämm-Material kann sich die Innentemperatur des Gehäuses so weit erhöhen, dass man einen (zusätzlichen) Gehäuselüfter benötigt. Das kann eventuell vermieden werden, wenn im PC eine sehr gute Luftzirkulation gewährleistet ist. Alle Lüftungsschlitze des Gehäuses werden deshalb offen gelassen werden. Kabelstränge werden mit Kabelbinder gebunden, um die Luftzirkulation nicht zu behindern. Eine Alternative zur PC-Dämmung wäre, den PC-Tower einfach in das Nebenzimmer zu stellen. Durch ein Loch in der Wand werden die am PC-Tower angeschlossenen Geräte mit entsprechend längeren Kabeln mit dem PC verbunden. Ein etwas pragmatischerer Ansatz wäre, sich eine große Holzbox zu bauen, die man über den PC stellt. – Diese Box muss natürlich Luftlöcher haben. Durch die Luftlöcher dringt zwar immer noch etwas Schall durch, aber es wird deutlich leiser. Sind zu wenig Luftlöcher vorhanden oder steht diese Apparatur zu lange über dem PC, riskiert man den Hitztod des Rechners. Dieses Kapitel über PC-Dämmung wird immer nostalgischer. PC-Komponenten sind zwischenzeitlich nicht nur leistungsfähiger, sondern auch leiser geworden.

94

Anforderungen an den PC

Anforderungen an den PC

zuverlässige Stromversorgung Das Netzteil sollte plötzliche Über- und Unterspannungen aushalten und darf keine Ausfälle haben. Neuere Markennetzteile sind oft nach aktuelleren und strengeren Spezifikationen gefertigt. Eine unterbrechungsfreie Stromversorgung (USV) kann selbst einen etwas längeren Stromausfall ausgleichen, sodass genug Zeit zum Herunterfahren des Rechners bleibt. Stromausfälle im laufenden Betrieb führen zwar nur sehr selten zu einer Beschädigung der physikalischen Festplatte, können aber für korrupte Sektoren sorgen, die das Booten des Systems verhindern können. Eine Steckdosenleiste, die Schutz bei Blitzeinschlag bietet, ist natürlich auch eine sinnvolle Investition. Abschirmung der Wandler von internen Soundkarten Hochwertige Festplatten Festplatten sollten für den Dauer-Betrieb ausgelegt sein und möglichst unempfindlich gegen mechanische Einwirkungen (Erschütterungen) reagieren. Hochwertige Speicherbausteine (REM) Hier sollte man REM-Speicher namenhafter Hersteller kaufen und auf eine optimale Kompatibilität achten. Es dürfen keine unsauber programmierten Programme im Hintergrund laufen, die Abstürze der Musiksoftware verursachen können. Auch die Musiksoftware selbst sollte natürlich möglichst frei von Bugs sein. Regelmäßige Datensicherungen Alle wichtigen Daten sollten (spätestens nach jedem neuen Arbeitsfortschritt am Material) gesichert werden. – Wenn Aktualisierungen, die viel Arbeit erforderten plötzlich verloren gehen (und eventuell nicht mehr genau reproduziert werden können), ist das sehr ärgerlich. Anstatt eine Datensicherung im Wochenturnus vorzunehmen, kann man auch jede Aktualisierung seiner musikalischen Arbeiten sichern, der mehr Zeit benötigte, als eine Datensicherung erfordern würde. Eine Datensicherung auf DVDs wird mit der Zeit teuer und erfordert stetig mehr Platz zur Archivierung. Günstiger ist es, die Daten auf einer Festplatte für Backups zu sichern. Da manchmal auch ein komplettes System oder eine Festplatte beschädigt werden kann, (was dann oft die Neuinstallation des Betriebssystems und aller Programme erfordert) kann es nicht schaden, immer ein Backup der gesamten Festplatte vorzunehmen. Das erfordert zwar mehr Speicherplatz, erspart im Notfall aber viel Arbeit.

• •

95

Audio-Mastering-Guide

8. Studiomonitore (Abhörmonitore)

Studiomonitor. – Die Ähnlichkeit zur Hi-Fi-Lautsprechern täuscht! Foto: © Günther Nubert, 2010

Als Monitoring bezeichnet man das Kontrollieren und Veranschaulichen von Zuständen mit Hilfe von Anzeige- oder Messgeräte. Das analytische Durchhören einer Produktion durch Studiolautsprecher zählt ebenfalls zum Monitoring. Deshalb werden Studiolautsprecher als Studiomonitore, Abhörmonitore (oder "Abhöre") bezeichnet.31 Zum Mischen und Mastern von Musik nimmt keine gewöhnlichen Hi-Fi-Lautsprecher, sondern sog. Studiomonitore. – Das sind Lautsprecher, die (im Gegensatz zu Hi-Fi-Lautsprechern) ein lineareres und damit relativ neutrales Wiedergabeverhalten besitzen. Durch diese Eigenschaft eignen sie sich gut, um den Klang einer Produktion objektiver beurteilen zu können. Beim Betrieb von Studiomonitoren müssen jedoch auch die raumakustischen Verhältnisse eine akustisch (weitgehend) unverfälschte Wiedergabe der Musik erlauben (vgl. Kapitel 7).

8.1 Aufstellung von Studiomonitoren
Die Lautsprecher werden entlang der längsten Wandseite aufgestellt. Ihre Frontseite zeigt dabei zur am weitesten entfernten Wandseite. Sie sollten dabei möglichst weit entfernt von den Zimmerecken und Seitenwänden aufgestellt werden. Der Abstand zwischen den Lautsprechern beträgt idealerweise ca. 1–3 Meter zueinander, dabei sollte kein Objekt zwischen den Lautsprecherseiten stehen. – Empfehlenswerter ist jedoch die Aufstellung der Lautsprecher in nur 1 Meter Abstand, wobei beide ca. 90° voneinander wegzeigen müssen. – Diese ungewöhnliche und bis heute weitgehend unbekannte Lautsprecheranordnung wurde vom "Boxenguru" Udo Petscher in den 90er Jahren bei dessen P-HiFi-System erfolgreich angewendet und führt zu einem deutlich besseren Stereo-Eindruck, der einem Dolby Sourround-Klang äußerst nahekommt. Paradoxerweise stellt diese Anordnung das genaue Gegenteil zur sonst stets empfohlenen Stereo-Dreieck-Anordnung dar!

31Auch

Lautsprecher auf einer Bühne, die zu den Musikern gerichtet sind, um ihnen bessere Kontrolle über ihre Performance zu ermöglichen, bezeichnet man als Monitore.

96

8. Studiomonitore (Abhörmonitore)

Um Resonanzen mit der Standfläche zu vermeiden, werden die Lautsprecher durch Gumminoppen, Spikes o. ä. entkoppelt. Hierfür lässt sich auch eine schwere Steinplatte nehmen, die auf Dämm-Material gelegt wird. Nach dem gleichen Prinzip kann man auch Lautsprecher-Ständer akustisch vom Boden entkoppeln. Die Lautsprecher sollten auf einer Linie mit der Vorderkante des Tisches stehen, um Reflexionen von der Tischfläche zu vermeiden. Resonanzen bei zu nahem Wandabstand hinter und seitlich der Lautsprecher können zwar den Bassbereich erhöhen, mindern aber gleichzeitig die Klarheit der Bässe und verfälschen die Lautstärkeverhältnisse. Subwoofer sollten stets etwas vor den Mittel- und Hochton-Lautsprecher aufgestellt werden, da Tiefbässe (aufgrund der größeren Wellenlänge und Einschwingzeit [Membranträgheit]) relativ verzögert wiedergegeben werden.

8.2 Nahfeldmonitoring – Musik aus nächster Nähe
Manche Räume sind zu klein, um als Regieraum genutzt werden zu können. Dort bringt selbst eine akustische Optimierung keine ausreichende Besserung. In anderen Fällen ist es aus finanziellen Gründen nicht möglich, die Raumakustik ausreichend zu optimieren. In solchen Fällen kann nur das Monitoring aus nächster Nähe oder über geeignete Studio-Kopfhörer Abhilfe schaffen. Beim sog. Nahfeldmonitoring setzt man in ca. ≤ 1 m Abstand vor den Lautsprechern. Die Hochtöner sind auch in diesem Fall auf Ohrhöhe ausgerichtet. Bei diesem Abstand kann man die Lautsprecher sehr viel leiser stellen und hört mehr vom Direktschall der Box. Reflektierenden Flächen (wie z. B. Wände und Decke) sollten dennoch weit genug von den Lautsprechern entfernt stehen. Das Nahfeldmonitoring bei sehr leisen Pegeln ist nur als Notlösung zu betrachten. Schließlich ist aufgrund des frequenzabhängigen Lautheitsempfindens des Gehörs auch das Abhören in höheren Lautstärken wichtig. Zur Erinnerung: Die gehörte Lautheit (und somit die Intensität der Wahrnehmbarkeit) vieler Frequenzbereiche ändert sich je nach Schalldruckpegel. Theoretisch ist sie bei ca. 85 dBSPL am gleichmäßigsten. Dennoch muss eine Produktion natürlich auch bei einem leisen Schalldruckpegel ausgewogen klingen. Klingt es leise sehr gut, erhöht sich auch die Wahrscheinlichkeit, dass es bei höheren Schalldruckpegeln auch "noch" gut klingt. Spätestens für den Sub-Bass-Bereich reicht das Abhören im Nahfeld der Lautsprecher bei leisem Pegel aber ganz eindeutig nicht mehr aus.

97

Audio-Mastering-Guide

8.3 Eigenschaften von Studiomonitoren Frequenzgang
Studiomonitore sollen einen möglichst großen Frequenzbereich (z. B. 50–20.000 Hz) so linear wie möglich abbilden können. Linear bedeutet, dass durch die Lautsprecher keine Frequenzanhebungen oder -absenkungen entstehen. Eine absolut lineare Wiedergabe ist selbst bei Studiomonitoren nicht möglich: Lauten die Herstellerangaben z. B. "Frequenzgang: +/- 3 dB bei 80 Hz", heißt das, bei 80 Hz wird das Signal bis zu 3 dB lauter oder leiser. Der Frequenzgang wird oft nur in dBA angegeben und ist dadurch weniger aussagekräftig. – Die tatsächliche Abweichung des Schalldruckpegels (dBSPL) kann nämlich höher sein. Der Frequenzgang sollte im gesamten Wirkungsbereich der Box möglichst gleich sein und der Abstrahlwinkel des Lautsprechers groß genug.

Neutraler Klang bei Lautsprechern?
Selbst wenn ein Lautsprecher messtechnisch einen absolut linearen Frequenzgang aufweisen würde, garantiert das keine absolut neutrale Wiedergabe: Viele Lautsprecher haben sehr ähnliche Frequenzgänge, klingen aber dennoch (auch unter gleichen raumakustischen Bedingungen) äußerst unterschiedlich. Das liegt natürlich auch daran, dass der Frequenzgang normalerweise auf eine Art gemessen wird, die kein aussagekräftiges Ergebnis zulässt. Viele Hersteller arbeiten mit unterschiedlichen Messaufbauten, wodurch eine Vergleichbarkeit von Messdaten gar nicht mehr gegeben ist. Normalerweise nimmt man ein Messmikrofon und stellt es in festem Abstand und einem bestimmten Winkel vor dem Lautsprecher auf. Die Messung erfasst dann aber nur das Übertragungsverhalten des Lautsprechers an einer einzigen Hörposition und dabei meist nur im Nahfeld der Box. – Aussagekräftiger sind Messmethoden, die mehrere Hörpositionen, die gesamte Schallenergie (inkl. Reflexionsschall) und die akustische Phasenauslenkung berücksichtigen. Obwohl ein neutrales Klangverhalten bei Abhörmonitoren das wichtigste Kriterium ist, sagt man auch solchen Lautsprechern stets einen "Klang" nach. "Neutraler Klang" ist ein Widerspruch in sich, denn wenn etwas neutral klingt, fügt es selber dem Originalklang nichts hinzu und gibt ein Signal vollkommen unbeeinflusst wieder. Dass Studiomonitore nicht wirklich "neutral" klingen, sieht man daran, dass die Arbeit mit einem anderen Studiomonitor immer eine gewisse Eingewöhnungszeit erfordert, da der andere Monitor eben anders "klingt". Dennoch geben Studiomonitoren ein Signal sehr viel neutraler wieder, als Hi-Fi-Lautsprecher. – Das sollte aber deswegen nicht mit "Neutralität" verwechselt werden. Der Klang eines Lautsprechers liegt immer wie eine Art Filter zwischen Hörer und Musik. Anstatt diesen Filter zu entfernen, versucht man seinen Klang zu verändern oder ihn (im Falle der Studiomonitore) möglichst "neutral" "klingen" zu lassen. Dennoch verfälscht das Wiedergabesystem stets das eingehende Signal. – Obwohl man den Unterschied zwischen Lautsprecherklang und dem zugrundeliegenden Originalklang erkennen sollte, neigt man dazu, das auszublenden. Es ist bislang weltweit nur einem Menschen gelungen, absolut lineare und neutrale Lautsprecher zu bauen. Diese wurden von Udo Petscher unter der Firma P-Hifi in Weißenburg in den 90er-Jahren unter PETechnology® verkauft und erlangten damals einen bundesweiten Bekanntheitsgrad.

98

Neutraler Klang bei Lautsprechern?

Logo von Petechnology

Eine namenhafte Audiofachzeitschrift hatte über die Anlagen und Lautsprecher von P-Hifi berichtet und selbst Mitarbeiter und Chefs namenhafter HiFi-Firmen bevorzugten privat das Hören über ein P-Hifi-System. Das Hörerlebnis ist bei diesen Anlagen derart realistisch gewesen, dass man z. B. beim Hören einer Gitarrenaufnahme oder einer Sprechstimme den Eindruck hatte, die Musiker stünden lebendig vor einem im Raum. Dieser gelang dadurch, dass bei der Konstruktion dieser Systeme paradoxerweise genau das Gegenteil von dem gemacht wurde, was in der Tontechnik gelehrt wird: Die Lautsprecher besaßen messtechnisch gesehen nicht einmal annähernd einen linearen Frequenzgang, – hatten aber dennoch ein absolut neutrales, lineares Klangverhalten ohne jeden Eigenklang und Verfärbungen. Die Membrane wurden künstlich beschwert und die Positionierung der Lautsprecher war genau das Gegenteil von der sonst empfohlenen Stereo-Dreiecks-Aufstellung. – Dennoch konnte sogar eine Dolby-Sourround-ähnliche Wirkung bei diesem System mit nur zwei Lautsprechern realisiert werden. Der Klang war zwar absolut unspektakulär, aber dafür auch absolut realistisch. Da der Klang einer solchen Anlage definitiv sehr schlicht ist, eignet sie sich aufgrund der heutigen Hörgewohnheiten, bei deinen ein spektakulärer Sound gefragt ist, nicht wirklich für den Verkauf im großen Stil. Das Ideal von aufgedonnerten Bässen und geschönten Mitten heutiger Hi-Fi-Anlagen wird hier eben nicht bedient. Dennoch musste man nach einiger Eingewöhnungszeit zum Resultat kommen, dass das Wiedergabeverhalten normaler Wiedergabesysteme definitiv künstlich klingt. Heutzutage ist man den Lautsprecherklang so sehr gewöhnt, dass die Unterschiede zwischen dem natürlichen Hörereignis (z. B. ein Singvogel in freier Natur) und dem Hörereignis beim Hören einer Tonaufnahme über Lautsprecher (z. B. Singvogel-Aufnahme auf CD) selbst in offensichtlichsten Fällen gar nicht mehr bemerkt werden. (Genauso wie die Bildqualität heutigen Filmmaterials im Vergleich zu dem, was man mit eigenen Augen sieht, übertrieben scharf und kontrastreich ist – und damit zwar besser aussieht als real, aber eben auch unrealistisch.) Man höre sich mal die Soundeffekte in einem Kino an. Als realitätsbewusster Hörer hat man hier keineswegs den Eindruck, dass diese Geräuschkulissen (z. B. Gewitter, Türknallen etc.) noch realistisch klingen. Man höre sich im Vergleich dazu mal die entsprechenden Geräusche real an und wird deutliche Unterschiede erkennen. Z. B. klingt ein Gewitterdonnern aus einer gewissen Entfernung niemals so, wie es im Kino durch die Lautsprecher inszeniert wird. Der Bassanteil eines echten Gewitters liegt mehr in einem sanften Infraschall und klingt real vollkommen anders.

P-Hifi Lautsprecher Modell "Alien"

99

Audio-Mastering-Guide

Das alles drängt zu folgenden Frage auf: Stellt ein Studiomonitor eine zuverlässige Referenz dar, wenn doch jedes Modell anders klingt? Was haben die Hörer von einem optimalen Resultat, wenn sie es sowieso fast immer in akustisch problematischen Räumen und somit verfälscht hören? Studiomonitore sind eine oft unverzichtbare Erleichterung, um herauszuhören, was überhaupt alles in der Musik enthalten ist und eine neutralere Abbildung der Produktion zu erhalten. Da es aber selbst bei Studiomonitoren von Modell zu Modell wieder verschieden klingt, ist das alles dennoch ein wenig relativ. Man sollte also ruhig die Feuerprobe machen und die Abmischung auch auf anderen Wiedergabesystemen hören: kleine Kopfhörer (z. B. iPod), Hi-Fi-Kopfhörer, Küchenradios, Autoanlagen, PA- und Hi-Fi-Anlage, Fernseherlautsprecher. Erst dann wird sich (für einen selbst überprüfbar) zeigen, wie gut sich eine mit den Monitoren vorgenommene Abmischung auf andere Wiedergabesysteme überträgt. Auf jeden Fall erlaubt ein guter Studiomonitor die bestmöglichste Annäherung, wie eine Produktion wirklich klingt. Würde man z. B. nur über billige Hi-Fi-Kopfhörer abmixen, die oft einen überbetonten Bassbereich haben und sehr mittenbetont klingen, würde man automatisch an Bass und Mitten sparen. Das würde zwar auf den Kopfhörern ausgewogen klingen, aber auf vielen anderen Wiedergabesystemen einen viel zu höhenbetonten, dünnen Sound liefern. Dennoch haben selbst billigste Kopfhörer und Lautsprecher eine Berechtigung für das Abhören eingesetzt zu werden, – professionelle Produktionen klingen schließlich am Ende auch auf den billigsten Kopfhörern noch ausgewogen. Grade der Frequenzbereich, auf den das Gehör am sensibelsten reagiert (also grade die höheren Frequenzen ab 1 kHz) sollten deswegen auch mit Hilfe billiger Kopfhörer und Lautsprecher abgehört werden. Um einen Vergleich anzustellen: Jeder Graphik-Designer weiß, dass seine Bilder auf jedem Monitor etwas anders aussehen werden. Er bemüht sich daher, alle Übertragungseigenschaften seines Monitors auf bestimmte Normwerte zu kalibrieren. Dadurch ist sicher, dass das Bild zumindest auf der Mehrzahl anderer Monitore noch "relativ" gut aussieht. Graphik-Designer steht also im visuell Bereich vor eine ganz ähnliche Herausforderung, wie die Tontechniker im Audio-Bereich. Im Laufe der Jahrzehnte gab es auch bei Top-Studioproduktionen teilweise große Unterschiede im Frequenzgang und anderen Klangfaktoren der Produktion. Ebenso benutzt nicht jedes Studio das gleiche Abhörsystem und natürlich sitzt vor jedem Abhörsystem auch ein anderes Paar Ohren. Doch trotz dieser Unterschiede und obwohl manche Produktionen etwas brillanter und andere etwas wärmer klingen, klingen alle an sich ausgewogen. Hierarchisch gesehen ist ein gutes Gehör wichtiger, als eine gute Abhöre, denn auch die beste Abhöre kann ein schlechtes Gehör nicht ausgleichen. Daher sagt man zu Recht, dass ein guter Toningenieur sogar mit Hi-Fi-Lautsprechern eine bessere Abmischung zu Stande bringen kann, als ein Anfänger mit der besten Studio-Abhöre. Beim Großteil der Hörer wird der Klang der fertigen Produktion später durch eine mangelhafte Raumakustik, minderwertige Lautsprecher u. ä. schlechter klingen. Zumindest wird die Produktion dort eben nicht mehr so gut klingen können wie im akustisch optimierten Regieraum über hochwertige Monitore. Sie würde aber noch wesentlich schlechter klingen, falls man den Hörern eine Produktion bietet, deren technisches Klangbild bereits im Studio fehlerhaft war. Dass man Fehler aufgrund raumakustischer Mängel oder schlechter Studio-Monitore nicht raushören konnte, wird nicht davor schützen, dass sie sich dennoch auf den Systemen vieler Hörer bemerkbar machen werden.

100

Impulsverhalten

Impulsverhalten
Gute Lautsprecher zeichnen sich durch eine gute Impulswiedergabe aus. Sie sind also in der Lage, auch sehr kurze Schallimpulse (d. h. sehr hohe Frequenzen) akkurat wiederzugeben. So was ist nicht selbstverständlich, denn die Membran eines Lautsprechers hat immer eine bestimmte Einschwingzeit (Trägheit). – Ist eine Signalspitze kürzer als die Membran schwingen kann, kann sie nicht übertragen werden. Daher darf eine Membran nicht zu lange nachschwingen.

Aktive und passive Frequenzweichen
Ein Basslautsprecher kann nur den Bassbereich optimal übertragen, ein Hochtöner nur die Höhen. Deswegen müssen Frequenzweichen eingesetzt werden, um die für einen Lautsprecher ungeeigneten Frequenzbereiche auszufiltern. Tieftönern teilt die Frequenzweiche (engl. "audio crossover") nur den Bassbereich zu (Low-Pass). – Hochtönern den hochfrequenten Bereichs (High-Pass). Die Frequenz, ab der die Frequenzweiche einsetzt, ist die sog. Übergangsfrequenz (engl. "crossover frequency"). Zwischen den Übergangsfrequenzen zweier Lautsprecher entsteht eine Überlappung. Damit diese minimal bleibt, müssen Frequenzweichen Filter mit hoher Flankensteilheit (engl. "slope") besitzen, – typischerweise 24 dB/Oktave. Passive Monitore sind Studiomonitore ohne aktive Frequenzweichen. Sie werden mit einer externen Studio-Endstufe betrieben. Studio-Endstufen sind auf ein eher lineares Klangbild und auf einen lautlosen Betrieb ausgelegt. Die Endstufe muss etwas mehr Leistung abgeben, als es der Wattangabe der Box entspricht (empfehlenswert wäre eine um ¼ höhere RMS-Leistung). Es ist durchaus möglich, mit einer zu hohen Verstärkerleistung den Lautsprecher zu zerstören. – Viel wahrscheinlicher ist aber die Zerstörung eines Hochtöners durch einen überlasteten Verstärker. Leistungsfähigere Verstärker bieten einen besseren Dämpfungsfaktor und können auch schnelle Spannungsanstiege fehlerfrei übertragen. Viele Verstärker besitzen einen eingebauten Limiter, der die Lautsprecher vor Überlastung schützt. Aktive Monitore besitzen aktive Frequenzweichen. Die Frequenzweichen arbeiten dort flexibel und können manchmal auch von außen nachjustiert werden. Die Endstufe ist bereits in das Lautsprechergehäuse integriert. Weitere Vorteile aktiver Monitore sind kürzere (und geschützte) Kabelverbindungen, da die Endstufe im Inneren liegt. Nicht alle Monitore, die als aktiv bezeichnet werden, sind es auch. – Manchmal handelt es sich nur um Lautsprecher mit passiven Frequenzweichen, die mit einer internen Endstufe betrieben werden. Die interne Endstufe ist bei billigen Modellen oft stark unterdimensioniert, sodass eine lineare, verzerrungsfreie Wiedergabe nicht immer gewährleistet ist. Verstärker haben einen gewissen Eigenklang, der sich auf das Gesamtklangbild auswirkt. Selbst die Lautsprecher-Kabel haben einen gewissen Einfluss auf das Klang- und Übertragungsverhalten. Sie sollten möglichst gut geschirmt und kurz sein und über einen hohen Leiterquerschnitt verfügen. Koaxialkabel sind hier aufgrund des hohen Leitungsquerschnitts die ideale Verbindung. Die Anschlüsse sollten möglichst massiv, müssen jedoch nicht vergoldet sein. Beachtet man dies alles, kann mit einer externer Endstufe natürlich ein ebenso gutes Ergebnis erzielt werden, wie mit einer internen. Im Bereich der Nahfeldmonitore haben sich 2-Wege-Boxen durchgesetzt. Sie lassen sich jederzeit um einem Monitor-Subwoofer für den tiefen Bassbereich ergänzen.

101

Audio-Mastering-Guide

Lautsprechergehäuse
Um Streuungseffekte des Schalls zu vermeiden, sollte die Gehäusekonstruktion theoretisch keine Kanten aufweisen. Idealerweise wird ein Studiolautsprecher deshalb komplett in eine Wand eingelassen und kommt dadurch dem Ideal einer "unendlich" ausgedehnte Vorderseite näher. So etwas ist meist nur in großen Studios zu finden, – die dafür aber nicht "unendlich" groß sein müssen. Bei kleinen Lautsprechergehäusen wird die tiefste wiedergegebene Frequenz nicht mehr hörbar werden, aber oft als Residualton wahrgenommen.

Membranmaterial
Teure Hochtöner sind meistens aus Titan gefertigt. Weniger solide Hochtönermembrane werden aus Textil angefertigt. – Unbedingt abzuraten ist vom Kauf billiger Piezohochtöner. Hochwertige Basslautsprecher-Membrane sind meistens aus Polypropylen. Billige Basslautsprecher-Membrane bestehen aus Pappe. Bändchenhochtöner besitzen einen weicheren Klang besitzen und werden auch in manchen Studiomonitoren eingesetzt.

102

9. Mixing

9. Mixing

9.1 Klangqualität der Aufnahmen
Ist die Soundqualität der Aufnahmen nicht gut, lässt sich das durch Mixing (und/oder Mastering) nicht mehr korrigieren. Haben die Aufnahmen ein mittelmäßiges oder gar schlechtes technisches Klangbild ist ein Re-Recording also eindeutig vorzuziehen. Der Versuch ein schlechtes technisches Klangbild durch Mixing und Mastering zu "reparieren", also quasi erst "nachträglich" einen professionellen Sound zu erzielen, scheitert oftmals. Auch kleine Nachlässigkeiten wie veraltete Drumfelle, alte (rostige) Saiten, schlecht gestimmte Instrumente (dazu zählen auch ungestimmte Drums) verschlechtern bereits die Aufnahmequalität. Es ist jedoch leider nicht damit getan, einfach nur professionelle Instrumente einzusetzen und beim Recording eine gute Performance abzuliefern. – Viele wertvolle Infos über erfolgreiches Recording finden Sie in meinem Buch Audio-Recording-Guide. Eine weitere Voraussetzung für ein amtliches Ergebnis beim Mixing ist, dass das zur Signalbearbeitung genutzte Equipment qualitativ hochwertig genug ist. – Etliche Plug-in-Lösungen scheiden hier, entgegen aller Werbung und Behauptungen, bereits aus.

103

Audio-Mastering-Guide

Natürlich wird bei einer sehr guten Aufnahme der Einsatz von professionellen Audio-Plug-ins die Gesamtqualität nicht so auffällig trüben können, wie bei schlechten Aufnahmen. – Hingegen wird sehr gute Hardware den Sound auch noch bei weniger optimalen Aufnahmen deutlicher aufwerten können und guten Aufnahmen noch zum letzten fehlenden Glanz verhelfen.

9.2 Bitrate und Samplerate beim Mixing 24 Bit gegenüber 16 Bit

Die Bitrate einer Audio-Datei hat nichts mit der Bitrate des internen Wertebereichs des Rechensystems zu tun. Deswegen bringt eine nachträgliche Erhöhung der Bitrate einer Audio-Datei auf 24 Bit keinen Vorteil. Die bei 24 Bit um 46 dB größere Dynamikspanne ist für U-Musik kein Vorteil, denn bereits der bei 16 Bit maximal mögliche Dynamikumfang wird dort kaum ausgenutzt. Der Signal-to-Error und somit das Quantisierungsrauschen liegt bei 24 Bit im unhörbaren Bereich. Doch bereits bei 16 Bit ist der Signal-to-Error selbst für klassische Aufnahmen noch groß genug. Da die Audio-Datei später für viele Formate sowieso wieder in einer Auflösung von 16 Bit vorliegen muss, bringt es nichts, vorher auf eine höhere Bitrate zu konvertieren.

Verschiedene Sampleraten im Vergleich
Erhöht man die Samplerate einer Audio-Datei verbessert das nicht deren technisches Klangbild. Eine Konvertierung auf Ziel-Sampleraten von > 44.1 kHz macht für eine CD-Produktion keinen Sinn, da die finale Samplerate dort sowieso wieder 44.1 kHz betragen muss. Wird dann mit einem mittelmäßigen Sample-Rate-Konverter auf > 44.1 kHz und am Ende wieder zurück auf 44.1 re-sampledt, hat man sogar ein schlechteres Ergebnis als zuvor.32 Durch eine Konvertierung auf 96 kHz können die von manchen Audio-Plug-Ins simulierten analogen Klangeigenschaften "authentischer" klingen, – zumindest, solange das Signal mit 96 kHz wiedergegeben wird. Die Konvertierung auf 96 kHz ist natürlich angebracht, wenn das Zielformat der Produktion ebenso 96 kHz sein soll. Da 44.1 kHz (rein arithmetisch gesehen) genau die Hälfte von 88.2 kHz darstellt, könnte man meinen, dass ein Resampling zwischen diesen Sampleraten technisch leichter wäre, als zwischen 44.1 kHz und 96 kHz, und deswegen auch mit mittelmäßigen Samplerate-Konvertern sauberere Ergebnisse hervorbringen. – Das ist jedoch ein Irrtum!

32Um

zu prüfen, ob ein Samplerate-Konverter saubere Ergebnisse ermöglicht, konvertiert man eine Sinusschwingung auf die Ziel-Samplerate. Mit einem FFT-Analyzer wird dann das Ergebnis geprüft: Bei einem guten Konverter wird die Anzeige von sampling-bedingten Deckfrequenzen min. 90 dB unter dem Signal liegen und bei 24 Bit sogar mindestens 120 dB darunter.

104

Destruktive und non-destruktive Signalbearbeitung

Destruktive und non-destruktive Signalbearbeitung
Eine destruktive Signalbearbeitung sorgt für bleibende (="destruktive") Änderungen am Audiomaterial und kann deswegen nicht (oder nur in einem begrenzten Umfang) wieder rückgängig gemacht werden. Bei der nicht-destruktiven (bzw. non-destruktiven) Signalbearbeitung erfolgt zunächst nur virtuell und nicht an der Originaldatei. Die letztendlich das Signal endgültig verändernden, also "destruktiven", Bearbeitungsschritte erfolgen erst beim Abspeichern. – So gesehen ist also auch diese Form der Bearbeitung letztendlich destruktiv.

9.3 Grundsätzliche EQ-Techniken beim Mixing Kompletives EQing – Wie man Frequenzbereiche unterschiedlicher Signale aufeinander abstimmt
Stärkere Eingriffe mit dem EQ verändern auch deutlich den Signalpegel der Spur. Das Abmischen der Lautstärkeverhältnisse erfolgt also nicht grundsätzlich nur über die Kanal-Fader. Ein EQ kann die Klangqualität einer Aufnahme oder eines Sounds grundsätzlich nicht verbessern. Er kann nur mit dem arbeiten, was tatsächlich im Klangbild des Signals bereits vorhanden ist. Der EQ ist eigentlich nur als Korrekturmittel gedacht (daher auch die deutsche Bezeichnung "Entzerrer") und kann Frequenzbereiche anheben oder absenken. Manchmal wird er ein EQ auch dafür eingesetzt, den Klangcharakter des Signals zu färben. Bei Anhebungen wird das Klangverhalten des EQs manchmal deutlicher als bei Absenkungen. – Schlecht klingende EQs trüben den Klang aber auch bei Absenkungen. Zur Korrektur von Frequenzüberschneidungen zwischen Instrumenten werden die beteiligten Spuren häufig kompletiv EQed: Das bedeutet, hebt man bei einem Signal einen bestimmten Frequenzbereich an (bzw. ist dieser Bereich bereits laut genug), schaut man, ob man dafür bei einem anderen Signal denselben Bereich absenken kann. – Und umgekehrt: Senkt man bei einem Signal einen Bereich ab (bzw. ist dieser Bereich bereits leise genug), schaut man, ob man denselben Frequenzbereich dafür bei einem anderen Signal anheben kann. In anderen Worten: Was man dort, wo es zu viel ist, wegnimmt, gibt man woanders (falls angebracht!) dazu. Und: Was man dort, wo es zu wenig ist, hinzugibt, nimmt man woanders (falls angebracht!) wieder weg. Das ist eine mögliche Vorgehensweise und keine feste Regel! Sie verdeutlicht aber einen wichtigen Grundsatz beim Mixing: Jedes Instrument erhält (in einem geeigneten Bereich des Frequenzspektrums) sein eigenes Wirkungsfeld und die anderen Instrumente lassen ihm entsprechend Platz dafür. Es geht also um das Aushandeln eines Gleichgewichts zwischen den Signalen im Mix.

Absenkungen allein können oft schon ausreichen, da sie automatisch die entsprechenden Frequenzbereiche anderer Instrumente deutlicher hörbar machen, ohne dass man diese Bereiche vom EQ bearbeitet werden müssen. Das ist deswegen gut, da sich die EQ-Bearbeitung speziell bei Anhebungen stellenweise auch mal negativ auswirken kann. Liegt z. B. bei einer Bassdrum bei 100 Hz bereits deutlich erkennbar der "Druck", reicht es den Bass bei 100 Hz etwas abzusenken und der

105

Audio-Mastering-Guide

druckvolle Sound der Bassdrum würde automatisch besser zur Geltung kommen. Auch bei Anhebungen muss nicht zwangsläufig eine Absenkung des gleichen Frequenzbereichs bei einem anderen Signal erfolgen: Hebt man z. B. die Bassdrum bei 100 Hz an, muss der Bass nicht zwangsläufig bei 100 Hz abgesenkt werden. Eventuell ist der Bass nämlich bei 100 Hz bereits richtig dosiert (oder er ist dort sogar so schwach, dass er sogar ebenfalls angehoben werden sollte!). Dies sind also Aspekte, die man bei jedem Mixing selber heraushören und entscheiden lernen muss.

Subtraktives EQing – Wie man Frequenzbereiche indirekt hervorhebt
Man kann einen Frequenzbereich auch indirekt betonen, Frequenzbereiche abgesenkt. Diesen Vorgang bezeichnet (Subtraktion=Minusrechnung, abziehen). indem man die benachbarten man als subtraktives EQing

Das erfordert also den Einsatz von mindestens zwei EQ-Filtern (also rechts und links des zu betonenden Frequenzbereichs). Deren Filtergüte bzw. Bandbreite muss dafür genau abgestimmt werden, damit der zu betonende Frequenzbereich nicht mit abgesenkt wird. Soll nur ein (sehr) schmalbandiger Frequenzbereich hervorgehoben werden, wird durch die zwei EQ-Filter insgesamt ein großer Frequenzbereich bearbeitet. Da dieser Bereich aber sowieso abgeregelt werden soll, fällt dort auch die Auswirkung der EQ-Filter etwas weniger ins Gewicht, was nicht heißen soll, dass sie nicht hörbar wäre. Durch subtraktives EQing lassen sich unschön klingende Boost-Effekte vermeiden, die grade bei Low Budget EQs bei Anhebungen schneller entstehen. Der Signalpegel wird beim subtraktiven EQing (je nach Ausmaß der Bearbeitung) insgesamt verringert. Häufig muss der Signalpegel dadurch wieder über den Ausgangspegel-Regler (engl. "Output") des EQs oder den Kanal-Fader erhöht werden. Für eine direkte EQ-Anhebung spricht jedoch, dass der gute Eigenklang hochwertiger EQs dadurch noch deutlicher wird und man für eine direkte Anhebung eben jeweils nur einen EQ-Filter benötigt. Man sollte den für die jeweilige Aufgabe geeignetsten EQ-Filtertyp auswählen. Die meisten Bearbeitungen lassen sich mit einem Bell-Filter durchführen. Soll ein großer Frequenzbereich bearbeitet werden, kann es hingegen praktischer sein, einen Low- oder High-Shelf-Filter zu benutzen. EQs können unterschiedliche Wirkungsgrade (engl.="Gain"), Filtergüten (Q) bzw. Bandbreite in Oktaven bzw. Steilflankigkeit (engl.="slope") besitzen. Dadurch ermöglichen manche EQs stärkere und genauere Eingriffe als andere. Man kann den zu bearbeitenden Frequenzbereich leichter finden, wenn man zunächst eine breitbandige Filterung (=niedrigere Filtergüte) ansetzt und diese dann schrittweise schmalbandiger (=höhere Filtergüte) regelt. In einer Aufnahme sind oft Frequenzbereiche enthalten, die unwesentlich oder sogar störend sind. Welche das sind, ergibt sich häufig erst im Kontext mit den anderen Spuren der Abmischung. Diese Bereiche können abgeregelt oder gar ganz entfernt werden. Beim "Wegschneiden" von Frequenzbereichen durch High- und Low-Pass-Filter kann sich die

106

Subtraktives EQing – Wie man Frequenzbereiche indirekt hervorhebt

Filterarchitektur des EQs auch noch mehr oder weniger weiträumig auf Frequenzbereiche auswirken, die eigentlich nicht mit bearbeitet werden sollen. – So kann bei einem High-Pass- bereits oberhalb und bei einem Low-Pass-Filter bereits unterhalb der Centerfrequenz die Frequenzabsenkung beginnen. Wenn man in diesem Bereich jedoch sowieso eine gewisse Absenkung wünscht, hat man dadurch zwei Fliegen mit einer Klappe geschlagen. Ist das klangliche Ergebnis ernüchternd, obwohl man die "richtigen" Frequenzbereiche bearbeitet hat, kann das durchaus auch am EQ selbst liegen. Hier würde ein Vergleichstest mit einem anderen EQ Klarheit bringen. Das Klangverhalten eines EQs kann bei manchen Signalen und EQ-Bearbeitungen gut passen, bei anderen wiederum weniger. Es gibt z. B. EQs, die sich für starke Eingriffe in das Signal eignen, andere klingen eher nur bei leichten Eingriffen noch gut. Manche eignen sich gut für Anhebungen, anderen eher für Absenkungen. Manche haben gute LP/HP-Filter und andere sind diesbezüglich nicht mehr wirklich brauchbar. Zudem besitzen EQs, je nach Modell, einen etwas anderen Klangcharakter. Wie bereits angedeutet, liefert EQing nur mit guten EQs auch gute Ergebnisse. Solche EQs findet man fast ausschließlich im Sektor der Mid- und High-End Studio-Hardware. Durch EQ-Plug-ins läuft man oft Gefahr, unnötige Klangverschlechterungen in Kauf zu nehmen. Wenn das technische Klangbild der Aufnahmen bereits sehr gut ist, kann die Klangtrübung durch einen minderwertigen EQ durchaus überhört werden. – Bindet man dann aber noch weiteres minderwertiges Equipment für die Abmischung ein, addiert sich die Klangtrübung durch den EQ mit den anderen Fehlerquellen. In der Summe werden dann letztendlich auch die Fehler kritisch, die für sich allein noch unkritisch waren. Besonders wenn man noch nie mit Mid- und High-End Hardware-EQs gearbeitet hat, wird einem der Unterschied wahrscheinlich nicht auffallen. Oftmals klingen EQ-Plug-ins recht leblos und haben einen leicht harschen Klang an sich. Das fällt grade bei hohen Frequenzen auf. Manche EQ-Plug-ins prägen dem Material einen etwas deutlicheren Eigenklang auf. Doch der wirkt eben nicht wirklich wie von echter Hardware, sondern eben wie eine digitale Simulation und damit zwangsläufig künstlich. Manche EQ-Plug-ins arbeiten hingegen auch angenehm unauffällig. Angesichts der Fülle an Anbietern solcher Plug-in-Lösungen ist es bisweilen sehr schwer, für den jeweiligen Anwendungszweck eine zumindest tolerable Lösung zu finden. Im professionellen Studiosektor sind EQ-Plug-ins meist nur als Ergänzung im Einsatz oder wenn es nur um sehr dezente Bearbeitungen oder Audiorestauration geht. EQ-Plug-ins haben durchaus eine Daseinsberechtigung, sie sind aber kein Ersatz für Mid- und High-End-Hardware-EQs. Ansonsten würden ja alle großen Studios ihre hochpreisigen Hardware-EQs sofort verkaufen oder nur noch als optisches Gimmick im Rack stehen lassen. Ein einzelner guter EQ nützt nicht wirklich viel, wenn er zu wenig Filter hat oder nicht genügend Arbeitsfrequenzen zur Auswahl stehen.

107

Audio-Mastering-Guide

9.4 Grundsätzliches zum Einsatz von Kompression beim Mixing Komprimieren von Einzelspuren
Durch das Komprimieren ergeben sich folgende Möglichkeiten:

Durch die Reduktion der genutzten Dynamikspanne lässt sich die Lautheit steigern, (weil nach der Reduktion der Dynamikspanne eine relativ stärkere Erhöhung des Signalpegels möglich wird!). Weil Pegel nach dem Komprimieren stärker angehoben werden kann, erreichen leisere Pegelanteile eine relativ höhere Lautheit. Details wie z. B. Bogenstrich, Anzupfgeräusche, Hallanteile kommen dadurch besser hervor. – In manchen Fällen kann es aber sehr unnatürlich wirken, die Lautheit von eigentlich leiseren Klanganteile zu erhöhen. Wenn der Kompressor Passagen mit höherem Pegel durchgehend reduziert, kann man deren Lautheit der von relativ leiserer Passagen angleichen. Der Kompressor kann also dazu genutzt werden, den Verlauf der Signal-Amplitude insgesamt einheitlicher zu machen. Dann stellt er einen Leveler (dt. "Gleichmacher") dar.

Mit Kompression ist hier übrigens der Einsatz von Downward-Kompression gemeint. Deren Ziel ist stets das Herunterregeln (engl. "downward"=herunter, abwärts) der über den Schwellenwert (engl. "Threshold") gelangenden Pegelanteile. Um einen geeigneten Schwellenwert zu finden, sollte man die Dynamik innerhalb der Spur vorher genau betrachten. – Was für einen Abschnitt nämlich ein optimaler Schwellenwert wäre, kann für einen anderen Abschnitt der Spur wieder weniger geeignet sein. Hier wird man einen gewissen Kompromiss eingehen – oder aber einen zusätzlichen Kompressor oder Limiter im Signalweg einsetzen müssen. – Die Möglichkeit, dass sich der Threshold automatisch von selbst einstellt gibt es nicht! Eine Signal muss nicht immer komprimiert werden. – Man muss selber entscheiden, ob Kompression überhaupt erforderlich ist und ob der Kompressor sich evtl. negativ auf den Klang auswirkt. Schließlich ruft jeder Kompressor eine gewisse Klangfärbung hervor. Die meisten Kompressoren lassen das Signal auch ein wenig dumpfer klingen. Schließlich werden durch das Absenken des Pegels auch die im Klangspektrum enthaltenen leisesten Obertöne mit abgesenkt. Einige gelangen dadurch in Pegelbereiche, wo sie gar nicht mehr dargestellt werden können bzw. unhörbar werden. Das durch das Überschreiten des Threshold erfolgende Abregeln des Pegels wirkt sich also nicht nur auf die Dezibel aus, die oberhalb des Thesholds liegen. Heute ist es üblich, Signale recht stark zu komprimieren. Grade beim Gesang darf die Kompression aber niemals als solche hörbar werden. Ebenso muss man entscheiden, ob anstelle einer Downward-Kompression eventuell eine Upward-Kompression besser geeignet wäre. Hier wird davon ausgegangen, dass das Ziel vor allem die effektive Erhöhung der Lautheit sein soll, ohne dass es dabei unnatürlich klingt. Dafür ist es natürlich sehr hilfreich, wenn man die Attack- und Release-Time genau kennt. – Bereits das Regelverhalten und die Skalierung mancher Attack- und Release-Regler steht dem leider schon im Wege. Die Dauer der Attack- und Release-Time stimmt nämlich nicht bei jedem Kompressor mit den auf der Regler-Skala angegebenen Werten überein. Die oft in ms angegebenen Werte können daher oft nur als Schätzwert herhalten. Manchmal gibt die Regler-Skala auch nur für einige Regler-Positionen einen Wert an.

108

Komprimieren von Einzelspuren

Abgesehen davon, gibt es bereits für das Regelverhalten des Attack-Parameters verschiede Definitionen, die je nach Hersteller variieren können. Es ist dabei nicht immer klar, wie der jeweilige Hersteller das Regelverhalten genau definiert. Ein Klang (z. B. von einer angezupfte Gitarrensaite) besteht aus drei Abschnitten: der Anschwellphase, dem sog. quasistationäre Klangabschnit und der Anschwellphase. Innerhalb der Anschwellphase beginnt der Klang sich zu bilden, er "schwillt" sozusagen an und wird dabei lauter. Im quasistationäre Klangabschnitt besitzt der Klang einen konstanten Pegel, er ist "quasi" (="sozusagen") "stationär" (=stillstehend, statisch). Die Länge des quasistationären Klangabschnitts kann (je nach der Tondauer und Instrument) variieren. In der Abschwellphase "schwillt" der Klang wieder ab und wird somit leiser. Im Klang ist übrigens nicht nur der Grundton enthalten, der die Tonhöhe und somit die Grundfrequenz bestimmt, sondern auch zahlreiche Obertöne. Die Obertöne bestimmen nicht die Tonhöhe, aber den "Klang" des Tons. Z. B. kann man ein gestrichenes c auf dem Klavier oder auf die Gitarre spielen. Die Tonhöhe (Grundton) ist dabei die selbe, aber der Klang dennoch vollkommen anders. Die Obertöne liegen, wie der Name schon sagt, "oberhalb" des Grundtons, sind also höhere Frequenzen. Lässt der Kompressor durch Ende der Release-Phase das Signal an einer "unpassenden" Stellen los, kann es passieren, dass inmitten einer An- oder Abschwellphase oder inmitten des quasistationären Klangabschnitts der Pegel plötzlich (innerhalb der Attack-Phase) ansteigt. Das kann einem natürlichen Klangeindruck trüben. Eine intelligente flexible Regelung des Release-Parameters könnte das vermeiden. Eine so präzise Regelung der Kompressor-Parameter ist aufgrund der gewissen Trägheit einer Schaltung nicht möglich. Auch ein automatischer Release (Auto-Release) arbeitet dafür zu unzuverlässig. Bei der Kompression geht es jedoch nicht darum, die Dynamikspanne, die "innerhalb" eines Klangspektrums (durch die Pegelunterschiede zwischen An-, Abschwellphase und dem quasistationären Klangabschnitt) besteht, gezielt zu verringern. – Es geht stattdessen darum die Dynamikspanne, die zwischen hohen und weniger hohen Signalpegeln besteht zu verringern. Das ist ein Unterschied, denn dabei werden oft sowohl die Anschwellphase, der quasistationäre Klangabschnitt und die Abschwellphase gleichermaßen abgeregelt. Es geht also um insbesondere um einen gleichmäßigeren Amplitudenverlauf durch Absenkung hoher Pegelanteile. Dadurch lässt sich nachträglich die Lautheit erhöhen. Falls sich dabei stellenweise auch die Dynamikspanne zwischen An- und Abschwellphase verringert, ermöglicht dies lediglich eine noch effektivere Lautheitssteigerung. Für die Attack-Time liegt ein guter Ausgangswert im Bereich bis ca. 10 ms. Von dort aus kann man sich leicht an die jeweils passenden Werte "heranregeln". Bei größeren Attack-Werten riskiert man, dass der Kompressor das Signal zu spät erfasst. Dann bleiben die zuerst über den Schwellenwert gelangenden Pegelanteile (was oftmals Anschwellphasen sind) unkomprimiert. Das kann aber manchmal auch erwünscht sein. Für die Release-Time liegt ein guter Ausgangswert bei 300 ms. Beträgt der Attack dann max. 10 ms und übersteigt der Pegel für eine Sekunde den Threshold, wird der Pegel nach 10 ms zunächst für 300 ms komprimiert. Danach setzt wieder für 10 ms der Attack ein und

109

Audio-Mastering-Guide

der Pegel wird erneut für 300 ms komprimiert usw. – Bereits in einer Sekunde wird der Pegel dadurch ca. 3,2-mal komprimiert. Da mittlere und hohe Frequenzen weitaus schneller pro Sekunde schwingen als tiefe, ist das ein relativ "unauffälliger" Eingriff. – Wäre der Release hingegen 50 ms, würde das Signal (bei einem Attack von 10 ms) in einer Sekunde ca. 16-mal komprimiert werden. Der Kompressor würde das Signal durch den kurzen Release also entsprechend oft "loslassen", wodurch der Pegel jedes Mal wieder für max. 10 ms ansteigen kann. Steigt der Pegel dann stärker an, weil das Signal in der Release-Phase durch einen hohen Ratio stärker abgeregelt wurde, können sich innerhalb der Signal-Amplitude natürlich stärkere Pegelschwankungen ergeben. Weil durch die kürzere Release Time die Kompression also tendenziell weniger gleichmäßig erfolgt, kann sich das auch der Natürlichkeit von An-, Abschwellphase und dem quasistationären Abschnitt in einem Ton bzw. in Tonfolgen schaden. Bei einem langen Release von z. B. 1000 ms, "prüft" der Kompressor nur alle 1000 ms, ob das Signal den Threshold noch überschreitet. Dadurch wird also viel seltener neu bestimmt, ob und um wie viel dB das Signal abgesenkt werden muss. Kommt es innerhalb der Release-Phase zu starken Pegelschwankungen, benötigt der Kompressor viel länger um darauf zu reagieren. So besteht besonders bei hohen und kurzen Tonfolgen das Risiko, dass die Signalamplitude tendenziell mal etwas zu lang, mal etwas zu gering und mal etwas zu stark komprimiert wird. Da bei mittlere und hohe Frequenzen die Signalamplitude durch einen kurzen Attack und Release keine hörbaren Verzerrungen bildet, ist ein Release von ca. 250–300 ms eine gute Wahl.

Komprimieren des Bassbereiches – ein Fall für sich!
Für tiefe Frequenzbereiche sollte man andere Kompressoreinstellungen wählen als bei hohen. Zu kurze Release- und Attack-Werte sind für die stets langsamer schwingenden tiefen Frequenzen zu schnell und führen schlimmstenfalls sogar zu Verzerrungen. Schließlich schwingt eine tiefe Frequenz wie z. B. 80 Hz pro Sekunde "nur" 80-mal, – 8 kHz hingegen 8000-mal. Eine Release von <300 ms ist dann manchmal schon zu kurz (z. B. bei lang gehaltenen Bass-Tönen). Der Kompressor würde die Kompression dann nämlich zu früh beenden. Er würde das Signal also zu früh "loslassen". – Dadurch kann sich die Signalamplitude mitten innerhalb einer Schwingung abrupt erhöhen und wird (durch eine zu kurze Ansprechzeit von z. B. 2 ms) danach wieder unmittelbar bei einer der folgenden Schwingungen leiser. So wird die Signalamplitude teilweise zu Rechteckwellen verformt und es kann ein hörbares Knacksen entstehen. Deshalb sollte man für basslastige Signale Release-Werte > 300 zu wählen. Zu hohe Release-Werte führen jedoch zu einem "pumpenden", wie "aufgeblasen" wirkenden, Klangeindruck. Bei tieferen Frequenzen erhöhen sich die Anschwellphasen von Klängen auf ca. 100–500 ms. Es dauert also etwas länger ehe ein Ton (z. B. Das E auf einer Bass-Gitarre) seinen maximalen Pegel erreicht. Dennoch ist auch hier ein kurzer Attack bis 10 ms geeignet, um das Signal nicht zu spät zu erfassen. Schließlich befindet sich auch in tiefen Tönen nicht nur die Grundschwingung, die die Tonhöhe bestimmt, sondern auch noch zahlreiche schneller schwingende Obertöne, die zum Klang dazugehören. Will man, dass die Einschwingphasen, den Threshold auch unkomprimiert übersteigen können, muss der Attack der Dauer einer Einschwingphase entsprechen. Immer wenn der Kompressor das Signal nach

110

Komprimieren des Bassbereiches – ein Fall für sich!

Ende der Release-Phase wieder "loslässt", bleibt durch den längeren Attack dann ein ausreichend langes Zeitfenster, damit eine Einschwingphase (weitgehend) unkomprimiert durchkommen kann. Eine zu kurze Attack-Time (z. B. 2 ms) bewirkt jedoch, dass auch die (über den Threshold gelangenden) Einschwingphasen von Klängen (z. B. der Kick von der Bassdrum) sehr früh abgeregelt werden können und dadurch unnatürlicher klingen. Das ist aber manchmal ein gewünschter Effekt.

9.5 Stellung im Panorama (Panning)
Durch die zwei Lautsprecher eines Stereo-Wiedergabesystems ergibt sich der akustische Eindruck von Räumlichkeit. Diesen Klangeindruck bezeichnet man bei Stereo als (Stereo-)Panorama. Dieser Räumlichkeitseindruck wirkt nicht so dreidimensional wie bei Dolby-Surround, dennoch wirkt ein Stereo-Klang "räumlich". Dieses Prinzip kann man durchaus etwas mit dem menschlichen Auge vergleichen: Mit einem Auge kann man nicht räumlich sehen, mit zwei Augen schon. Die Signale in der Abmischung kann man durch den Panorama-Regler (kurz: Panpot, – "pot" steht hierbei für "Potentiometer") im Panorama anordnen. Diesen Vorgang bezeichnet man als "Panning". Werden alle Instrumente im Panorama mittig angeordnet, fehlt es dem Mix an räumlicher Breite und den Instrumenten an Platz. Genauso hat ja auch jeder Musiker in einem Orchester seinen Platz und es drängeln sich nicht zwei auf einen Stuhl. Um einen transparenten Mix mit einer gewissen räumlichen "Breite" zu bekommen, sollten einzelne Spuren also im Panorama verteilt werden. Nur die grundlegenden Bestandteile des Beats (Bassdrum, Bass, evtl. auch Snare und Hi-Hat) und die dominierenden Instrumente (z. B. Gesang, Gitarrensolo) sollten im Stereobild genau mittig positioniert sein. Doppelungen von Spuren (auch der Gesangsspur) können für einen breiteren Klangeindruck auch durchaus stark links und rechts im Panorama verteilt werden. Ebenso können E-Gitarren-Aufnahmen stärker nach rechts und links im Panorama verteilt werden, damit in der Mitte genug Raum für den Gesang bleibt. Generell sollte man es aber vermeiden, zu viele Signale extrem rechts- oder linkssteil zu verteilen. Bei Soundeffekten kann man dafür umso stärker mit dem Panorama experimentieren. Eine Steigerung der Stereobreite durch Stereo-Enhancern kann dazu führen, dass der Mix in Mono nicht mehr gut klingt. Die räumliche Anordnung der Schlagzeugsounds sollte auch im Mix der eines realen Drumsets nahekommen. Ein Zuhörer steht normalerweise in Richtung der Frontseite eines Drumsets und würde in einer "natürlichen" Wiedergabesituation (also beim unverstärkten Drumset – z. B. im Proberaum oder bei Gigs in kleinen Clubs) die Signale deswegen im Panorama anders herum orten als der Drummer. Die Hauptelemente des Rhythmus bilden Bassdrum, Snare und Hi-Hat. Die Bassdrum liegt grundsätzlich in der Mitte. Wird die Musik später auch in Mono gehört, sollten auch Hi-Hat und Snare möglichst in der Mitte liegen.

111

Audio-Mastering-Guide

Panoramaverteilung des Drumsets

Bei klassischer Musik bzw. Filmmusik sollte die Sitzverteilung in einem Orchester sinngemäß auf das Panorama im Mix übertragen werden. Hier ein Beispiel für eine, von mehreren möglichen, Orchesterbesetzungen und Sitzverteilungen:

Panorama-Positionen von Orchesterinstrumenten

9.6 Mehr Tiefenstaffelung durch Reverb und Delay
Digitale Halleffekte (engl.="digital reverb unit") können die Raumakustik realer Räume virtuell (mehr oder weniger authentisch) simulieren. Andererseits können sie auch Raumakustiken generieren, die es in der Realität nicht gibt. Analoge Halleffekte enthalten hingegen manchmal selber winzige reale Räume, z. B. bei Plate Reverb, Spring Reverb. Auch kleinere speziell konstruierte Gehäuse oder Räume dienen manchmal zur Erzeugung von Halleffekten. Ebenso stellen Halleffekte, die mit Hilfe von Tonbandgeräten erzeugt werden, eine eigene Kategorie analoger Halleffektgeräte dar. Durch den geschickten Einsatz von Halleffekten kann der Eindruck von räumlicher Tiefe erzeugt werden: Signale in der Abmischung scheinen dadurch unterschiedlich weit entfernt vom Hörer zu liegen (Tiefenstaffelung). Auf diese Weise lassen sich Signale wesentlich besser in den Mix einbetten. Der Mix gewinnt quasi eine dritte Dimension.

112

Komprimieren des Bassbereiches – ein Fall für sich!

Die Beeinflussung der räumlichen Wirkung durch Halleffekte kann man mit einem Landschaftsbild vergleichen: Dort wird die Illusion von räumlicher Tiefe ja auch dadurch erzeugt, dass bestimmte Elemente räumlich "vorne" und andere "hinten" zu liegen scheinen, – obwohl das Bild selbst zweidimensional bleibt. Hallzugabe stellt bei trocken klingenden Signalen eine ideale Ergänzung zur Panorama-Regelung dar. Ohne Tiefenstaffelung würde das Panorma bei trockenen Signalen nämlich nur zweidimensional klingen. Die Signale würden dann also wie auf einer Ebene wirken und nicht räumlich. Je größer der Reverbtail (dt.="Hallfahne") und die Halldauer – und je kleiner der Anteil der Early Reflections (dt.="Frühe Reflexionen") und hohen Frequenzen – ist, desto weiter entfernt wirkt das Signal. Es entsteht der Eindruck, das Instrument befände sich in einem großen Raum. Je geringer der Anteil des Reverbtails und die Halldauer – und je größer der Anteil von Early Reflections und hohen Frequenzen, desto näher wirkt das Signal. Es entsteht dann der Eindruck, das Instrument wäre in einem sehr kleinen Raum bzw. unmittelbar vor dem Hörer. Der Einsatz von Halleffekten zielt heute meist gar nicht darauf ab, dass die Halligkeit als solche hörbar wird. Es geht meist nur darum, dem Signal um einen dreidimensionalen Klangcharakter zu verleihen, es in eine Räumlichkeit einzubetten, ohne dass der Raum wirklich als "Raum" oder gar Hallfahnen hörbar werden. Das wird durch sehr dezente Hallzugaben, genaues Abstimmen der Hall-Parameter und entsprechend hochwertige Hallprozessoren oder sogar reale Räumlichkeiten erreicht. Ein Hallgerät wird also häufig eher im Sinne eines Soundtools, anstatt eines hörbaren Halls eingesetzt. Hallgeräte können natürlichen Hall bzw. Raumklang nicht wirklich ersetzen und das müssen sie auch nicht. Signale in einen Mix werden später in Räumen gehört, die schon von sich aus viele frühe Reflexionen bilden und damit das Signal auf natürliche Weise weiter verhallen. Hallgeräte erfordern deswegen ein etwas anderes Klangverhalten, als man es bei realen Räumen findet. Das zu 100 % mit Hall bearbeitete Signal (100 % Wet) wird grundsätzlich per Sent- oder Aux-Bus auf der gewünschten Spur leise hinzugemischt und nicht über den Insert zugeführt. Grade den Hall auf einer Vocal-Spur soll man nicht bewusst als Hall wahrnehmen. Durch ein Pre-Delay von (je nach Tempo des Gesangs) ca. 10 bis 80 ms kann der Hallanteil etwas vom Gesang entkoppelt werden, was manchmal gewünscht ist, um den Klangkörper des Gesangs besser durchkommen zu lassen. Durch das verzögerte Einsetzen bleibt der Gesang (bei kurzer Halldauer) klarer. Ein zu trockenes, unbearbeitetes Signal erschwert jedoch die Einbettung in den Mix. Um den Gesang im Mix näher zu bringen, kann ein kurzes vor den Reverb geschaltetes Delay den Eindruck von Direktheit und Nähe verstärken. Besonders Gesang kommt nur mit sehr hochwertigen Hardware-Hall-Prozessoren wirklich gut zur Geltung. Schon die sehr beliebten Lexicon-Hallgeräte der Oberklasse kosten teilweise bereits mehrere 1000 Euro. Es gibt zurzeit keine Softwarelösung, die an die Klangqualität hochwertiger Hallprozessoren heranreichen kann. Ebenso stellen IRs (Impulse Responses) keine brauchbare Lösung dar. (Durch geschickte Effektkombinationen von zwei Software-Faltungs-Hallprozessoren, von denen einer die Early-Reflections, der andere die Hallfahne regelt, sowie einem Software-Delay-Effekt und einem Software-Hall-Prozessor ist es jedoch manchmal möglich, sogar mit Software einen zumindest brauchbaren Hall zu simulieren. Dieser wird natürlich dennoch nicht an die Qualität von Halleffektgeräte der Oberklasse [selbst ältester Modelle] heranreichen.)

113

Audio-Mastering-Guide

Parameter von Halleffektgeräten
Early Reflections (ER, Frühe Reflexionen) Dieser Parameter kann meist separat geregelt werden. Erhöht man den Anteil der ERs, gelangt ein Signal mehr in den Vordergrund. Reverb Tail (Hallfahne) Auch die Hallfahne lässt sich meist separat regeln. Erhöht man den Anteil der Hallfahne, tritt das Signal mehr in den Hintergrund. Pre-Delay Regelt die Zeit vom Nutzsignal bis zum Einsetzen der ersten Reflexion (ER). Es stellt also die Verzögerungszeit bis zum tatsächlichen Einsatz des Halls dar. Reverb Time (Halldauer)

Size, Room-Size (Raumgröße) Damping (Bedämpfung) Bestimmt, wie viel vom Höhenanteil des Halls vermindert wird und simuliert dadurch die Bedämpfung des Halls. Dies ist also prinzipiell eine Art Low-Pass-Filter. Außerdem gilt: Weiter entfernte Signale besitzen weniger Höhen. Nähere Signale haben einen stärkeren Höhenanteil. Width (Weite) Simuliert die räumliche Weite des Halls im Stereofeld. Wet/Dry (Hallbalance) Bestimmt, wie viel vom Signal mit Hall versehen wird (wet) und wie viel vom Signal unbearbeitet (trocken) bleibt (dry). Da man Halleffekte normalerweise im AUX- bzw. Sent-Kanal einsetzt, sollte der Wet-Anteil 100 % betragen.

Einsatz von Delay-Effekten
≤ 1 ms: • Bei solch kurzen Delay-Zeiten kommt es schnell zu unschönen Phasenauslöschungen. 2–30 ms: • Durch einen sehr kurzes Delay von 2–30 ms kann ein Signal voluminöser wirken und an Räumlichkeit und Präsenz gewinnen. 11–35 ms: • Bei Delays von 11–35 ms kann es Problemen bei Mixen geben, die nur mono gehört werden sollen. Da ein Delay oft nur sehr leise hinzugemischt wird, relativiert sich die Problematik mit dem Klang in Mono allerdings wieder.

114

Einsatz von Delay-Effekten

20–35 ms: • Ein häufig gewählter Wert für Vocals. Der Delay-Einsatz bei Vocal-Spuren ist heute eher dezent und soll zur Verbeiterung der Stimme beitragen. >35–60 ms: • Delay-Zeiten von 35–50 ms wirken meist nur in Stereo gut.

Will man den Eindruck von Doppelungen erzeugen, wählt man Zeiten von ca. 35–60 ms. Dies kann jedoch die Signalklarheit vermindern.

>60 ms: • Für extreme Effekte und bestimmte Stilarten wie Rockabilly interessant.

Beim Drumset sind Delay-Effekte eher nur bei Snare und Toms üblich.

9.7 Exciter und Enhancer – Neuer Glanz für matte Töne!
Exciter fügen dem Signal zusätzliche Obertöne hinzu, indem sie ein künstliches Obertonspektrum generieren. Dadurch klingt das Signal transparenter, heller und gewinnt meist etwas an Lautheit. Das ist sinnvoll, falls Signale nach dem Durchlaufen langer Signalketten oder nach analogen Aufnahmen dumpf klingen und deswegen eine Auffrischung im Obertonbereich benötigen. Ebenso eignen sich Exiter für bessere Verständlichkeit von Sprachaufnahmen (verstärken dort aber auch Zischlaute und eventuelles Lispeln) und um die Einschwingphase (Attack) einzelner Instrumente hervorzuheben, wie z. B.: • Anzupf- und Anschlaggeräusche • Anblasgeräusche bei Blasinstrumenten • Attack von Drums • Bogenstrich und Pizzicato bei Streichern Beim Einsatz von Excitern sollte man möglichst sparsam sein. Der Effekt ist dann richtig dosiert, wenn erst durch das Ausschalten des Exciters "bewusst" auffällt, dass er vorher auf das Signal eingewirkt hat. Enhancer arbeite ähnlich wie Exciter, bloß werden hier Frequenzen betont, indem die Phasenlage der Frequenz geändert wird, wodurch diese dann lauter wirkt, ohne dafür per EQ angehoben werden zu müssen.

9.8 Saturationseffekte – digital oder original?
Saturationseffekte sind digitale Effekte, die das Klangverhalten von Bandmaschinen oder analogen Verstärkern (im Sättigungsbereich) digital simulieren sollen. Sie werden manchmal zur Aufwertung digitaler Produktionen eingesetzt, wenn entsprechende analoge Hardware nicht zur Verfügung steht. Ihr Haupteinsatzgebiet ist dabei die Simulation von Bandsättigung oder Übersättigungseffekten. Solche Simulationen sind im Bereich der Software-Plug-ins ihren analogen Vorbildern in der Regel haushoch unterlegen und stellen daher einen sehr großen Kompromiss dar.

115

Audio-Mastering-Guide

Bei Musikstilen wie Klassik und Jazz, die absolute Originaltreue des Signals erfordern, wird echte Bandsättigung normalerweise nicht eingesetzt. Hier wäre dann ein per Hardware simulierter Bandsättigungseffekt, wie der Empiricial Labs FATSO jr., eine mögliche Alternative. Sofern man später nicht selber mastern will, sollte man es dem Mastering-Engineer überlassen, ob und wie Saturation der Summe hinzugefügt wird. Dieser wird sie sicherlich nicht auf digitalem Wege erzeugen, sondern dafür eine Studiobandmaschine bzw. geeignetes analoges Equipment einsetzen.

9.9 Vom Rough-Mix zum finalen Mix

I. Abhörlautstärke
Bei hohen Schalldruckpegeln wird der Bassbereich lauter empfunden und dadurch besser durchhörbar. Dadurch kann es passieren, dass man die tiefen Frequenzen zu leise abmischt (insbesondere wenn diese durch eine schlechte Raumakustik sowieso zu laut klingen). – Mixt man hingegen bei leisen Pegeln, neigt man häufig dazu, tiefe Frequenzen zu laut abzumischen. Bei 85 dBSPL ist die Lautheit (also die gehörte Lautstärke [psychoakustische Lautstärke]) für die meisten Frequenzen am ähnlichsten. Jedoch kommt es bei solch hoher Lautstärke auch schneller zur Gehörermüdung, die dann zum regelmäßigen Einlegen von Pausen zwingt. – Zudem kann eine Mischung, die bei 85 dBSPL optimal klingt, wenn man sie leiser hört, eventuell nicht mehr ausgewogen genug klingen. Das Wiedergabeverhalten von Lautsprechern ist ab einer bestimmten Lautstärke (in vielen Fällen schon unterhalb von 85 dBSPL) nicht mehr linear. – Trotz des "theoretisch" richtig gewählten Abhörpegels kann es dann zur Fehleinschätzung der Abmischung kommen. In dem Lautstärkebereich, indem die eigenen Lautsprecher Signale nicht mehr linear genug wiedergeben können, sollte man daher gar nicht erst abmischen. Die Musik wird später von den Hörern natürlich in allen möglichen Lautstärken gehört und nicht nur bei 85 dB. Auch die Loudness-Funktion, die frequenzabhängige Lautheitsunterschiede bei geringerer Abhörlautstärke ausgleichen helfen soll, findet man nicht in jedem Wiedergabesystem. Deswegen ist es empfehlenswert, für eine Abmischung verschiedene Schalldruckpegel als Referenz festzulegen (vgl. Kapitel "Mastering", "Kalibrierung der Studiomonitore").

116

Pegelangleichungen

II. Korrekturen Pegelangleichungen
Hat man beim Aufnehmen manche Spuren zu niedrig ausgesteuert, zeigt das Peakmeter des Kanalzugs eventuell nur noch an deren lauteren Stellen ein Signal an. Hat man manche Spuren zu hoch ausgesteuert, verdecken diese evtl. die leiseren Spuren so stark, dass man sie gar nicht mehr raushört. Zu große Signalpegel-Unterschiede sind also keine gute Ausgangsbasis zum Abmischen. Dieses Problem kann man zwar durch die Kanal-Fader ausgleichen, doch dann liefert die Position der Kanalfader schnell ein verwirrendes Bild, das den tatsächlichen Lautheits-Eindrücken entgegensteht: Die Kanal-Fader der lauten Spuren befinden sich dann relativ weit unten, die Kanal-Fader der leisen Spuren hingegen weiter oben. Ebenso besitzen manche Spuren evtl. zu wenig Headroom (dt.="Aussteuerungsreserve"). Durch das Normalisieren der Spuren auf den gleichen Ziel-Pegel, lassen sich die Pegel-Unterschiede zwischen den Spuren etwas ausgleichen. Dabei sollte man einen Ziel-Pegel wählen, der ausreichend Headroom lässt. Doch auch wenn die Aufnahmen relativ gleichmäßig ausgesteuert wurden, kann man durch das Normalisieren den Headroom aller Spuren vereinheitlichen. Normalisiert man z. B. auf -6 dBFS weiß man, dass man jede Spur nicht stärker als 6 dBFS anheben kann, ohne dass durch mindestens eine Pegelspitze ein Clipping ausgelöst wird. – Ebenso ist es zum evtl. Limitieren und Komprimieren der Spur durchaus sinnvoll, die Höhe der höchsten Pegelspitze zu kennen.

DC-Versatz (DC-Offset)
Wenn analoges Musikequipment bei der Aufnahme nicht richtig aufeinander abgestimmt wird, kann eine zu große Gleichstromkomponente im Audiosignal entstehen. Dadurch ist die Signal-Amplitude nicht mehr korrekt auf der Nullachse zentriert, – der Amplitudenverlauf ist also versetzt. Das bezeichnet man deswegen als DC-Versatz (engl. "DC-Offset") oder Gleichstromversatz. Durch den DC-Versatz kann es z. B. Schwierigkeiten beim Komprimieren des Signals geben. Ein leichter DC-Versatz ist auf den ersten Blick (ohne starkes Einzoomen) nicht sichtbar. Obwohl ein Versatz zumindest bei rein digitalen Produktionen äußerst unwahrscheinlich ist, sollte man das Material sicherheitshalber immer auf einen DC-Versatz prüfen und diesen dann entfernen.

Audiosignal links mit und rechts ohne DC-Versatz

117

Audio-Mastering-Guide

De-Noising – De-Humming – De-Clicking
• • •

De-Noising: Bezeichnet das Entfernen von Störsignalen und Rauschen (engl. "noise"=Rauschen, Störsignal, Störschall). De-Humming: Bezeichnet das Entfernen von Netzbrummen (engl. "hum"=Brummton, Brummen). De-Clicking: Bezeichnet das Entfernen von Knacksern und Klickgeräuschen (engl. "click"=Knackser, Klick). man Noise-Gates, gezieltes EQing oder spezielle

Für diese Verfahren nutzt Audio-Restaurations-Software.

III. Mixing
Ein Musikstück muss man sich wie ein mehrfach-belegtes Sandwich vorstellen. Erst alle Teile zusammen im ausgewogenen Verhältnis ergeben einen guten Geschmack. Der Gesang steht dabei stets im Vordergrund, darf aber niemals entkoppelt vom Rest der Musik wirken. Er steht also weder zu weit "vorne" oder "hinten", noch ist er zu laut oder zu leise. Der (E-)Gitarrensound bewegt sich immer etwas unterhalb des Gesangs und ist scheinbar "zwischen" dem Gesang und den Drums eingebettet. Verzerrte E-Gitarrensounds neigen oft dazu, den Gesang zu verdecken und ragen manchmal unnötig weit in den Bassbereich hinein. Neben Rhythmusgitarren dient oft auch ein Synthesizer-Flächen-Sound dazu, den Mix voller klingen zu lassen. Tiefe, voluminöse Flächensounds können Gitarrensignale und den Gesang ebenfalls verdecken und müssen entsprechend EQed werden. Die Lautstärkeverhältnisse von Instrumenten im Mix können je nach Song und Stilrichtung unterschiedlich abgestimmt werden. Gitarren werden bei manchen Stücken und Musikrichtungen relativ leise im Mix platziert, bei anderen sind sie hingegen sehr dominant. Ebenso können die Drums sehr deutlich und facettenreich oder eben eher leise und hintergründig abgemischt werden. Auch der Bass kann sich gut wahrnehmbar absetzen oder sich eher unauffällig in die Abmischung einfügen. Solche Eindrücke können je nach Wiedergabesystem auch etwas variieren. Das Fundament im Mix bilden die Drums, deren einzelne Bestandteile ein weites Frequenzspektrum abdecken. Der Drumsound und ein authentisch klingendes Drumming (engl.="Schlagzeugspiel") sind sehr entscheidend für den professionellen Charakter einer Produktion. Toms, Bassdrum und Snare können leicht Frequenzbereiche anderer Instrumente und des Gesangs verdecken. – Die Low-Tom kann dabei sogar tiefer als eine Bass-Drum reichen. Die Cymbals (Becken) können sogar Frequenzen bis zu 21 kHz produzieren und dadurch auch schnell zu dominant wirken.

118

Vorbereitungen

Songelemente im Mix Wie man sieht, dominiert entweder die Bass-Drum oder der Bass das Bassfundament im Mix.

Vorbereitungen

Der Masterregler steht beim Abmischen immer auf 0 dBFS. Falls nicht, kann Clipping eventuell nicht mehr angezeigt werden. Die Einzelkanalzüge des Mischpults sollten vor dem Mixen ganz heruntergeregelt werden. – Das ist jedoch nicht zwangsläufig notwendig. Wenn sich schon während des Recordens ein erster "Rough-Mix" ergeben hat, kann man diesen in vielen Fällen als Ausgangsbasis nutzen. Das verwendete digitale Mischpult sollte intern mit möglichst hoher Bit-Auflösung arbeiten, um Rundungsfehlern durch die digitale Bearbeitung einzuschränken (Mix Engine). Total Recall: Alle Parameter eines Kanalzugs, z. B. Effektbelegung der Spur, Aussteuerung des Faders usw. können in den meisten digitalen Mischpulten abgespeichert werden. – Ansonsten sollte man sich die Einstellungen notieren. Volumen-Automatisierung: Durch Einzeichnen einer Volumen-Kurve bzw. Automatisierung des Kanal-Faders lässt sich der Signalpegel sehr gut anpassen. Ebenso kann man unterschiedliche laute Passagen schneiden, und den Signalpegel dieser Abschnitte neu einstellen. Dabei ist es wichtig, den Schnitt stets in Nulldurchgängen anzusetzen und gegebenenfalls Crossfades einzusetzen, damit keine Knackser an der Schnittstelle entstehen. Referenz: Um den Mix besser beurteilen zu können, sollte verschiedene Referenz-Studio-Produktion des gleichen Genres zum Vergleich herangezogen werden. Diese sollten ein möglichst "audiophiles" technisches Klangbild besitzen. Abmischen per Studio-Kopfhörer: Um den gesamten Frequenzbereich einer Abmischung per Kopfhörer richtig einschätzen zu können, benötigt man Kopfhörer mit möglichst linearen Übertragungsverhalten. Kopfhörer sind sehr hilfreich, um Feinheiten besser rauszuhören und einen Eindruck zu gewinnen, wie der Mix unabhängig von raumakustischen Einflüssen klingt. Das Vorurteil, dass man Kopfhörer nicht zum Abmischen einsetzen kann, sind weit verbreitet und etwas übertrieben. – Natürlich sind schönfärbenden oder basslastigen Kopfhörer zum Abmischen

119

Audio-Mastering-Guide

komplett ungeeignet. Ebenso klingt eine Abmischung über Kopfhörer etwas anders als beim Hören über Monitore. Doch: Auch über Kopfhörer kann man die Lautheit der Spuren beurteilen, auch über Kopfhörer kann man die Verteilung der Spuren im Panorama einschätzen und auch über Kopfhörer kann man beurteilen, ob etwas zu höhenlastig, dröhnend, muffig oder in anderer Weise unausgewogen klingt. Nicht zuletzt klingen auch amtliche Produktionen selbst über die schönfärbendsten Kopfhörer noch relativ gut. Dort klingen z. B. die Höhen also nicht plötzlich "beißend" und "kratzig", nur weil ein Kopfhörer höhenbetonter ausgelegt ist. Es kann sogar sehr hilfreich sein, auch mit ganz normalen billigen Kopfhörern gegenzuhören. Ein Beispiel für einen relativ "neutralen" professionellen Kopfhörer zum Abmischen ist der Equation RP-21.

Abmischen per Studio-Monitoren: Die Monitore müssen so gut sein, dass sich dort erstellte Mixe optimal auf andere Wiedergabesystemen "übersetzen", – also auch dort noch relativ ausgewogen klingen. Nicht zu leise abmischen: Pegelt man z. B. eine Spur in 16 Bit Audio beim Abmischen auf durchschnittlich -40 dBFS aus, ist es sehr wahrscheinlich, dass deren leiseren Pegelanteile den Signal-to-Error-Ratio übersteigen und dadurch Quantisierungsrauschen hervorrufen. Exportiert man eine derart leise abgemischte Spur und erhöht auf der Summe durch Kompression u. ä. nachträglich den Pegel, wird das Quantisierungsrauschen durchaus störend hörbar und lässt sich nicht mehr nachträglich entfernen. Zu leise ausgesteuerte Spuren können ebenfalls Probleme machen, wenn sie mit Outboard-Equipment re-recordet werden sollen und das Outboard-Equipment ein hohes Grundrauschen besitzt. Das Rauschen kann dann auf dem re-recordeten Track hörbar werden.

EQing- und Kompressor-Tabelle - Frequenz- und Dynamikbearbeitung einzelner Instrumente
Häufig findet man bei Tabellen zum EQing sehr pauschale Anleitungen wie "bei 8 kHz +3 dB für mehr Biss" usw.) Solcherlei Umschreibungen können zur Annahme verleiten, dass sich mit der empfohlenen EQ-Einstellung tatsächlich ein Klangeindruck "hinzufügen" oder steigern lässt, der der jeweiligen Umschreibung entspricht. Was aber, wenn der Eindruck, dass das Signal "mehr Biss" erhält, gar nicht entstehen kann, weil die Aufnahme bzw. der Klang des Instruments solch einen Klangeindruck gar nicht hergeben? Was, wenn der Eindruck, dass das Signal "mehr Biss" erhält, bei einer anderen Frequenz viel eher zutreffen würde? Was wäre, wenn eine Frequenzanhebung um 3 dB nicht ausreicht oder gar zu viel wäre, um den klanglichen Eindruck, dass es "mehr Biss" hätte, entstehen zu lassen? EQ-Einstellungen, die bei einem Audio-Signal zu den gewünschten Resultaten führen, lassen sich nicht pauschal 1:1 auf jede andere Produktion übertragen.

120

Störende Resonanzen finden

Ein Instrument hat bestimmte Frequenzbereiche, innerhalb derer man für das Instrument typische Klangaspekte finden kann. Manche Klangaspekte können dabei bereits schon in der Aufnahme präsent genug sein, andere wiederum sind zu schwach oder gar nicht vorhanden. So kann dann z. B. das Befolgen eines pauschalen EQ-Tipps, der z. B. bei 100 Hz eine 5 dB-Anhebung für "mehr Druck" vorsieht, bei der einen Produktion genau richtig sein, bei der anderen zu Dröhnen im Bassbereich führen. Deswegen bringt es in den allermeisten Fällen absolut nichts, EQ-Einstellungen, die für eine fremde Produktion ideal gewesen sein mögen, einfach 1:1 für die eigene Produktion zu übernehmen.

Störende Resonanzen finden
Resonanzfrequenzen gelten grade bei Drumaufnahmen als problematisch, da Resonanzen der Drumkessel oft ein dröhniges, störendes Klangbild erzeugen. Drumsamples sind hingegen in vielen Fällen bereits nachbearbeitet und dadurch bereits von solchen störenden Resonanzen bereinigt.

Sweeping – Überschätzte Methode
Manchmal wird empfohlen, Resonanzen durch extrem schmalbandige Frequenzanhebungen mit + ≥15 dB aufzuspüren. Dabei wird das Frequenzspektrum langsam mit dem EQ durchlaufen. Bei dem Frequenzbereich, bei dem sich ein "besonders" hohler und schriller Klang ergibt, soll dann eine Resonanzfrequenz liegen. Diese Vorgehensweise bezeichnet man als Sweeping. Durch solch extrem hohe Frequenzanhebungen klingen bei fast jede Frequenz und besonders bei Low Budget-EQs hohl und schrill (sog. Boost-Effekt). Deswegen ist das Sweeping keine sichere Methode, um Resonanzfrequenzen aufzuspüren. Resonanzfrequenzen lassen sich etwas leichter finden, wenn man die Spur im Zusammenhang mit den anderen Spuren hört und verschiedene EQ-Einstellung ausprobiert. Man wird nämlich eine gewisse Klangverbesserung heraushören, sobald man eine störende Resonanzfrequenz abregelt. (Typische Frequenz-Bereiche für Kesselresonanzen bei akustischen Drumsets sind in der nachfolgenden Tabelle übrigens angegeben.)

Zur Tabelle
Die "Minus"-Spalte der Tabelle umfasst Frequenzbereiche, die meist bedenkenlos abgesenkt bzw. komplett ausgeregelt werden können. In der daneben liegenden Spalte wird angegeben, welche Klangeigenschaften eines Instruments mit welchen Frequenzbereichen assoziiert werden können. – Diese charakteristischen Frequenzbereiche sind tendenziell für eine Anhebung geeignet. In der Spalte "Pan" findet man Empfehlungen für die Platzierung im Panorama (mittels Panpot-Regler). Der Tabellenabschnitt Kompression ist bewusst rudimentär gehalten. Dort werden überwiegend nur geeignete Ausgangswerte für Attack- und Release- angegeben. – Die Wahl geeigneter Ratio- und Threshold-Werte setzt nämlich voraus, den Verlauf der Signalamplitude der jeweiligen Spur sehen zu können. Der ist jedoch oft sehr unterschiedlich, weshalb pauschale Empfehlungen hier nur selten und nur bedingt Sinn machen.

121

Audio-Mastering-Guide

Viele Synthesizersounds und Sounds von Sample-CDs sind bereits stark komprimiert. Sofern sie beim recorden mit möglichst wenig Dynamik eingespielt wurden (Anschlagstärke), ist meist nur wenig oder keine Kompression erforderlich.

E-GITARRE
EQing LC ab ~ 90–120 Hz abwärts Höhen E-Gitarren haben bei ca. 100 Hz noch genug ~ 3–8 kHz Bassanteil. Druckbereich und Tiefe Auch bei höheren Frequenzen möglich, z. B. wenn ~ 80 Hz – ~300 Hz eine Gitarre nur in sehr hohen Lagen spielt. Solis Überschneidungsbereich mit Vocals 800–1000 Hz schriller, kratziger Sound ~ 1–6 kHz Kompression (Bei stark verzerrten Sounds ist keine Kompression notwendig.) Attack ~ 5–10 ms Release ~ 80–200 ms Ratio Hauptspur und Doppelungen möglichst symmetrisch im Panorama verteilen. Vollerer Sound Doppelungen stark nach recht und links pannen. Soli eher 12 Uhr Pan

A-GITARRE
EQing Tiefen (~ 80–120 Hz) Volumen (~ 250 Hz) Höhen (und Saitensound) (~ 8–15 kHz) Griffgeräusche (~ 4.5–6 kHz) Kompression Attack ~ 10 ms Release ~ 200 ms Ratio Pan

122

Sweeping – Überschätzte Methode

E-BASS
EQing LC meist alles < 40 Hz Druck Je nachdem ob der Bass im Frequenzbereich unter oder oberhalb der Bassdrum sein soll, wird innerhalb von 40–110 Hz ein passender schmaler Frequenzbereich entsprechend hervorgehoben. Mitten und Definition ~ 400–500 Hz Anschlag, Slap Saitengeräusche, Plektrum ~ 1.5–5 kHz; schmalbandig Kompression Attack Release Ratio 12 Uhr Pan

Geslapte Töne: kürzerer Attack und höherer Ratio

Kurze Töne: ~ 3 ms Lange Töne: max. 1 Sek

BASS-DRUM
EQing LC ab ~ 50 Hz abwärts Kesselresonanzen ~ 200–500 Hz mehrere breitbandige Absenkungen ~ 600–800 Hz mehrere schmalbandige Absenkungen Kick ~ 1–5 Hz Druckpunkt ~ 50–100 Hz Bei Electro, Hip-Hop u. ä. tiefer als bei Rock/Pop. Fell ~ 800 Hz Höhen ~ 8–12 kHz Kompression Attack ~ 2–50 ms Popmusik: ~ 2 ms bei ~ 4:1 Ratio Schnellere Songs: ~ 5–10 ms bei ~ 8:1 Ratio Härtere Genres: kurzer Attack und Release Release ~ 50–300 ms Ratio 12 Uhr Pan

123

Audio-Mastering-Guide

SNARE
EQing LC, Snare Schlagfell (top) ~ 100 Hz LC, Snare (bottom) ~ 80 Hz Kesselresonanzen ~ 250–800 Hz, ~ 1–2 kHz Oft mehrere Absenkungen nötig. Druck ~ 150–200 Hz Anschlag ~ 3–5 kHz Pappiger Klang ~ 400–500 kHz Höhen ~ 10 kHz 14–15 Uhr Pan

Kompression Attack Popmusik: ~ 2 ms (bei ~ 1 Sek. Release und ~ 4:1 Ratio) Pegelspitzen werden schneller abgesenkt. Geeignet um den Sound softer zu gestalten. Tanzmusik: ~ 5–15 ms (bei kurzem Release und ~ 4:1 Ratio) Pegelspitzen werden weniger schnell abgesenkt. Attack bleibt erhalten. Härtere Genres: Kurzer Attack (bei ~ 2 Sek. Release und ~ 8:1 Ratio) Release ~ 200 ms – max. 2 Sek. Ratio

HI-HAT
EQing LC (ab ~ 500 Hz abwärts) Auch abhängig davon, ab wann und wie stark übersprechende Drumbestandteile hörbar sind Metallischer Sound 800–1500 Hz Kompression Anschlag ~ 3–4 kHz Höhen ~ 8–15 kHz 12 oder 15 Uhr Pan

124

Sweeping – Überschätzte Methode

TOMS
EQing LC ab ~ 150 Hz abwärts Kesselfrequenzen ~ 200–300 Hz Oft Absenkungen nötig Kompression Falls sich Toms nicht durchsetzen Attack ~ 5–20 ms Release 150 ms–1 Sek Ratio Druck ~ 80–120 Hz Anschlag (und Fell) ~ 1–6 kHz Low Tom: 10 Uhr Middle Tom:12 Uhr High Tom: 13 Uhr Pan

OVERHEAD (Drumset/Cymbals)
EQing LS ~ 100; ~ 300 Hz abwärts Abhängig davon wie viel vom Rest des Drumsets zu hören sein soll. LC ab ~ 40 Hz abwärts ~ 400–600 Hier störende Frequenzen schmalbandig abregeln Höhen ~ 6–15 kHz, auch: ~ 1 kHz Anschlag ~ 6–7 kHz Abbildung des gesamten Sets 12 Uhr Abbildung der Cymbals Linke Cymbals: links Rechte Cymbals: rechts (Aus Sicht des Hörers vor dem Drumset, nicht aus Sicht des Drummers!) Pan

Kompression Attack Release Ratio

125

Audio-Mastering-Guide

VOCALS (GESANG)
EQing LC ab ~ 60–80 Hz abwärts Zisch- und S-Laute ~ 5–7 kHz; schmalbandig Prägnanzbereich (stimmhafte Konsonanten) ~ 1–4 kHz Artikulationsbereich ~ 3–8 kHz Eine Anhebung kann hier einen offeneren Sound erzeugen. ~ 2–6 kHz; ~ 4–6 kHz evtl. im Chorus anheben. Bei Backing-Vocals absenken. Hauptstimme 12 Uhr, mono Doppelungen leise rechts und links im Panorama verteilen. Pan

1–3 kHz evtl. absenken

Nahbesprechungseffekt 300 Hz Höhen 11–12 kHz Grundtonhöhe männlich: ~ 120–160 Hz weiblich: ~ 230–330 Hz Vokale: 250–2000 Hz Kompression (Meist mit mittlerer Ratio von z. B. 4:1. Anstatt mit einem Kompressor können Pegel bei großen Dynamischwankungen auch erst einmal manuell angeglichen werden.) Attack ~ 2–50 ms hohen Stimmen und Sprache: eher kurzer Attack- und Release Release ~ 50–2 Sek. Ratio

PIANO (FLÜGEL)
EQing LC ab ~ 80 Hz abwärts Höhen ~ 10–15 kHz Tiefen ~ 60–160 Hz Kompression Attack Release Ratio Tiefe Töne: links Hohe Töne: rechts Pan

126

Exemplarischer Ablauf eines Mixings

STRINGS (STREICHER)
EQing Fülle ~ 200–300 Hz Höhen ~ 7–11 kHz Kompression Attack Release Ratio Pan

BLASINSTRUMENTE
EQing Fülle ~ 100–300 Hz Höhen ~ 4–8 kHz Kompression Attack ~ 10–50 ms Anblasgeräusche: längerer Attack zur Hervorhebung Release ~ 300 ms Ratio Pan

~ LC LS ≤ < ≥ >

circa (ca.) Low-Cut Low-Shelf weniger als... oder gleich weniger als... größer als… oder gleich größer als...

Exemplarischer Ablauf eines Mixings
Man kann das Abmischen prinzipiell von jedem beliebigen Instrument in der Abmischung beginnen. Je nachdem, welche Reihenfolge für einen selber den besten Workflow darstellt. Da der Gesang bei fast jedem Genre im Mittelpunkt steht und sich der Rest des Stückes "drum herum" aufbaut, ist es oft auch empfehlenswert, das Abmischen mit dem Gesang zu beginnen. Im nachfolgenden Beispiel bilden jedoch Bass und Bass-Drum den Ausgangspunkt der Abmischung.

127

Audio-Mastering-Guide

Natürlich werden beim Abmischen auch einzelne Instrumentengruppen separat für sich gehört und abgemischt: Vocal-Mix (Hauptstimme mit Doppelungen und evtl. Background-Vocals) Gitarren-Mix Drum-Mix bzw. Drum-and-Bass-Mix u. a. Um passende Einstellungen zum EQen, die Verteilung im Panorama und gegebenenfalls für die Kompression zu finden, dient die Tabelle aus dem vorherigen Abschnitt als Hilfestellung. 1. Bass und Bassdrum abmischen Low-Cut-Filter (High-Pass) Bass und Bass-Drum sind normalerweise die basslastigsten Signale einer Abmischung. Entfernt man dort die überflüssigen Bassanteile bereits beim Abmischen, wird die Abmischung besser durchhörbar. So wird ein an sich überflüssiger oder unhörbarer Bassbereich auch gar nicht erst bei der RMS-Pegelanzeige berücksichtigt, was zu aussagekräftigeren Messergebnissen führt. Beim nachfolgenden Mastering kann das eventuell auf einen Low-Cut auf der Summe verzichtet werden.

Setzt man den Low-Cut im Bassbereich nicht zu tief an, kann man auf den Einsatz von Monitor-Subwoofern verzichten. Bei einem Low Cut ist stets darauf zu achten, dass er steil genug verläuft, ohne darüber liegende Frequenzen zu stark (bzw. zu weiträumig) zu beeinflussen. Bei hoher Steilflankigkeit (slope) des Low Cut-Filters erfolgt der Low-Cut nämlich nicht wirklich sauber ab der Centerfrequenz, sondern beeinflusst auch noch die benachbarten höheren Frequenzen. Diese werden bei sehr hoher Steilflankigkeit meist stärker mit abgesenkt. Dann ist es sinnvoll, eine niedrigere Steilflankigkeit zu wählen und den Low-Cut-Filter mit einem Bell- oder Shelf-Filter zu kombinieren, um auch bereits direkt an der Centerfrequenz möglichst stark absenken zu können. Ein Low-Cut bei 55 Hz ist für die meisten Musik-Genres vollkommen ausreichen. Ein Low-Cut darf auch durchaus ab 60 Hz (oder sogar ab 70 Hz) abwärts abregeln, wenn die Bass-Drum oder der Bass ihren Schwerpunkt sowieso weiter oben im Bassfundament erhalten sollen (z. B. bei ca. 100 Hz). Die meisten Consumer-Wiedergabegeräte können 70 Hz zudem noch gut wiedergeben, schwächeln darunter aber häufig. Bei sehr basslastigen Musik-Genres ist es notwendig, den Low-Cut tiefer anzusetzen. Ab 40 Hz abwärts kann allerdings bei nahezu allen Genres der restliche Bassbereich durchaus entfernt werden. – Nur manche klassische Musik, Special-Effect-lastige oder wirklich extrem basslastige elektronische Musik benötigt einen tieferen Low-Cut von < 40 Hz. Zur Clubtauglichkeit und der dafür nötigen Basswiedergabe sei gesagt, dass nicht jeder Club eine Anlage hat, die Tiefbässe nahe 40 Hz überhaupt noch wiedergeben kann. In manchen Clubs gibt es sogar Anlagen, die den Bassbereich erst ab 70 Hz wiedergeben. Kompression Nimmt man ein unkomprimiertes Bass- und Bassdrum-Signal, gibt es meistens zu starke Signalpegel- und somit auch Lautheitsschwankungen. Durch die Kompression von Bass- und Bassdrum wird die Lautheit dieser Signale einheitlicher, wodurch sich der Signalpegel der anderer Spuren leichter darauf abgleichen lässt.

128

Exemplarischer Ablauf eines Mixings

2. Gesang abmischen Manuell Korrekturen des Signalpegels Hierfür gibt es mehrere Möglichkeiten, z. B.:

Volumen-Automation durch Einzeichnen einer Volumen-Kurve im Sequenzer. Dadurch lassen sich auch vereinzelte, stark hervorstechende Pegelspitzen gezielt absenken. Die Gesangsspur schneiden und den Signalpegel der so entstehenden Abschnitte manuell aufeinander abstimmen, dass sie untereinander möglichst gleichlaut klingen. Kompression Da der Signalpegel nun bereits manuell angeglichen wurde, genügt häufig ein geringerer Kompressionsgrad (Ratio) von ca. 3:1.

Um möglichst optimale Werte für Threshold und Ratio zu finden, lohnt sich auch eine genaue Betrachtung des Verlaufs der Signal-Amplitude. Liegen die relativ hohen Pegelanteile z. B. stets oberhalb von -8 dBFS, wäre es nicht notwendig den Threshold wesentlich tiefer anzusetzen als -8 dBFS. Der nötige Ratio, um Pegelspitzen zu reduzieren, die den Threshold stärker übersteigen ist für Pegelanteile, die den Threshold nur leicht übersteigen, eventuell bereits zu hoch. Hier wäre also ein vorgeschalteter Limiter oder zweiter Kompressor sinnvoll, der lediglich die aller-höchsten Pegelspitzen (z. B. solche die nicht nur -8 dBFS, sondern auch -3 dBFS überschreiten) abregelt. Setzt man den Threshold zu tief an, senkt der Kompressor den Großteil der Pegelspitzen (und nicht nur die hohen Pegelspitzen) ab. Das Ergebnis ist dann lediglich, dass das Gesamtsignal mehr oder weniger gleichmäßig leiser wird. So ergibt sich zwar eine Reduktion der genutzten Dynamikspanne, aber eine wirklich effektive Steigerung der Lautheit lässt sich dadurch nicht erreichen. Man stelle sich dazu im übertragenden Sinne mal eine Rasenfläche vor, bei der einige Grashalme überstehen. Setzt man den Schnitt richtig an, schneidet man nur die überstehenden Halme ab. Setzt man ihn zu tief an, werden die überstehenden Halme zwar auch entfernt, aber es werden unnötigerweise auch alle anderen Halme gekürzt. – Wohlgemerkt "schneidet" der Kompressor natürlich keine Signalspitzen "ab". Er "entfernt" sie also nicht, sondern senkt sie ab. Halleffekt Dafür nutzt man kurze Hallräume. Hallprogramme wie z. B. Plate-Reverb gelten als Klassiker für Vocal-Reverb.

Ein Studiostandard für Gesangshall sind auch heute noch Lexicon-Geräte der Oberklasse. Diese sind nicht als bloße Halleffekt-Geräte zu verstehen. Sie besitzen einen ganz eigenen Sound, sind also eher Klang formende Tools, die das Signal auf sehr musikalische Weise aufwerten können. Studio-Hallgeräte anderer namenhafter Hersteller wie z. B. von EMT, Quantec, Eventide haben ebenso den High-End-Sektor für Studio-Equipment geprägt. Jedes für sich bietet einen Soundcharakter, den man mit keinem anderen Gerät so erreichen kann. Als eine relativ aktuelle Referenz gilt heute das Bricasti Design M7, was einen sehr dezenten luftigen Sound bietet und verschiedensten Räumlichkeiten absolut authentisch simulieren kann. Dessen Sound ist ebenfalls mit keinem anderen Gerät zu erreichen.

129

Audio-Mastering-Guide

Mit Hallgeräten aus dem Low- und Mid-End-Sektor, sowie Plug-in-Lösungen und Impulse Responses (IRs) wird man besonders bei rein digitalen Vocal-Aufnahmen nicht so recht glücklich werden können. Schließlich spielt das Hallgerät bei der Einbettung der Vocals in den Mix eine entscheidende Rolle. Manche alten Mid-End-Studio-Hallgeräte von Herstellern wie z. B. Dynacord, Sony, Yamaha und Roland können jedoch zumindest eine gewisse Annäherung an High-End-Studio-Hallgeräten darstellen, besitzen aber einen ganz anderen Klangcharakter. Weitere Techniken Für eine optimale Einbettung der Vocals in den Mix haben sich in vielen professionellen Studioproduktionen folgende Mittel bewährt:
• • •

Die Hauptgesangsspur sollte im Panorama immer genau in der Mitte liegen. Von der Gesangsspur sollte mindestens eine gesungene Doppelung vorhanden sein. Diese wird so leise hinzugemischt, dass sie nicht mehr separat wahrnehmbar ist. Durch Programme wie VocAlign und Revoice Pro kann die Doppelung optimal an die Hauptspur angeglichen werden. Erst durch gesungene Doppelungen klingen Vocals voll genug und grade bei professionellen Studio-Produktionen strebt man einen Sound an, der etwas "größer" als real klingt. Die gesungenen Doppelung können symmetrisch im Panorama verteilt werden (z. B.: Die gesungene Dopplung nach rechts pannen. Eine Kopie dieser Doppelung in eine weitere Spur einfügen und nach links pannen.) Bei den Doppelungen der Gesangsspur (und der eventuellen Background-Vocals) kann man den Präsenzbereich der Stimme (der sich meist im Bereich 1–3 kHz befindet) absenken. Dieser Bereich soll nämlich bei der Hauptgesangsspur am deutlichsten hervorkommen. Doppelungen durch spezielle Vocal-Doubling-Effekten oder zwei (bei Stimmungen auf Basis von 440 Hz) um z. B. +/- 8 Cent gepitchte ~ 22 ms-Delays sind oft nur ein Notbehelf, der immer künstlicher und deswegen nicht so überzeugend wie eine gesungene Doppelung klingt. – In manchen Genres wird dieser Effekt aber bewusst als Stilmittel eingesetzt. Sofern das Klangbild irgendwie "mulmig" klingt, bei ca. 100–400 Hz etwas absenken. Solche Absenkungen rauben dem Gesangssignal aber auch etwas Körper. Um die Durchsetzungsfähigkeit der Stimme zu erhöhen, kann die Hauptspur im Präsenzbereich ab 1 kHz leicht angehoben werden. (Bei einer zu höhenreichen Aufnahme sollte ab ca. 1.5 kHz aufwärts jedoch etwas abgesenkt werden.) Oft gibt es irgendwo zwischen ca. 120–250 Hz noch einen zweiten besonders markanten Bereich, der angehoben werden kann. Der Hauptspur und/oder den Doppelungen sollte ein kurzer Hallraum (z. B. Plate-Reverb) eines hochwertigen Hardware-Studio-Hallprozessors hinzugefügt werden. Der Halleffekt befindet sich dabei im AUX-Kanal des Mischpults. Der mit Hall versehene Signalanteil (=100 % wet) wird per Send der betreffenden Gesangsspur ganz leicht hinzugemischt. Im Panorama verteilte Doppelungen können durch längere Hallfahnen (engl. "reverb tail") und kürzere und leisere Early Reflections stärker in den Hintergrund gebracht werden. Ist das Pre-Delay zu kurz, wird das Gesangssignal eventuell zu früh verhallt. Dadurch können die Vocals eventuell schon zu "indirekt" klingen und sich in der Abmischung nicht optimal durchsetzen.

130

Exemplarischer Ablauf eines Mixings

Reflexionen < 15 ms sollten also vermieden werden. – Kürzere Pre-Delays von < 15 ms können jedoch den Klang eines sub-optimal aufgenommen Signals aufwerten, weil sie den auf der Aufnahme enthaltenen Raumklang besser kaschieren. Ist das Pre-Delay zu lang (z. B. über 40 ms) wird das Signal meist zu spät verhallt und wirkt bei zu kurzer Reverb-Time dann zu trocken und hallt bei zu langer Reverb-Time hörbar nach.

Ein sehr guter und dezent eingesetzter Hardware-Choruseffekt kann die Vocals zusätzlich aufwerten. Hier ist die Auswahl an professionell klingenden Softwarelösungen äußerst gering.

Gitarren abmischen Jede Gitarren-Spur wird dem Gesang hinzugemischt. Dabei wird die Lautheit (gehörte Lautstärke) jeder einzelnen Gitarren-Spur auf den Gesang und die anderen Gitarren-Spuren abgestimmt.

EQing

Die Gitarren werden EQed, wenn:

• • •

Einzelne Spuren frequenzmäßig nicht ausgewogen klingen und/oder den Gesang oder andere Signale verdecken. Das erfordert oft Frequenzabsenkungen ab ca. 1 oder 2 kHz bis hinauf zu ca. > 5 kHz. Der aufgenommene Gitarrensound zwar ausgewogen klingt, aber klanglich nicht den Vorstellungen entspricht und deswegen etwas modelliert werden soll. Wenn sich Gitarrenspuren frequenzmäßig im Weg stehen und dadurch einige Gitarrenspuren entsprechend ausgedünnt werden müssen. Der Frequenzgang des Aufnahmemikrofons ausgeglichen werden soll (z. B. Abregeln eines zu starken Nahbesprechungseffekts).

Das EQen von verzerrten Gitarren ist bei mittelmäßigen Aufnahmen eine sehr aufwändige Angelegenheit, die bis zu einem Horrortrip ausarten kann. – Hierbei werden oft extreme Bearbeitungen notwendig und selbst kleinere Änderungen können sich so stark auf den Soundcharakter auswirken, dass man im Grunde einen vollkommen "anderen" Gitarrensound erhält. Deswegen sollte man schon beim Aufnehmen versuchen, einen sehr guten Gitarrensound abzunehmen, der beim Abmischen keine oder kaum EQ-Nachbearbeitungen erfordert. Auf keinem Wiedergabesystem und bei keiner Abhörlautstärke dürfen verzerrte Gitarren schrill und kratzig klingen. Der kritische Höhenbereich kann sich bei verzerrten Gitarren über die gesamten 1–5 kHz erstrecken und sich nicht nur, wie manchmal behauptet, lediglich bei 3 kHz oder 2–4 kHz befinden. Grade bei ca. 5 kHz kommt es im Frequenzgang vieler für Gitarren-Amp-Aufnahmen genutzter Mikrofone zu einer Anhebung, die man aber grade dort oft nicht gebrauchen kann. Der Mittenbereich von 200–400 kHz muss abgesenkt werden, falls es dort zu muffig klingt. Der Bassbereich ist bei der Gitarre für die meisten Musik-Genres erst ab 100 Hz relevant. Natürlich müssen störende Resonanzen im Bassbereich unbedingt eliminiert werden. Kompression Verzerrte Gitarrensounds enthalten wenig Dynamik und benötigen daher meistens keine Kompression. A-Gitarren-Aufnahmen und cleane E-Gitarren-Sounds besitzen oft viel Dynamik, weshalb sie komprimiert werden sollten.

131

Audio-Mastering-Guide

Snare, Hi-Hat, Toms, Cymbals/Overhead abmischen Bisher befand sich nur die komprimierte Bass-Drum vom Drumset in der Abmischung. Nun werden auch die restlichen Bestandteile des Drumsets hinzugemischt. Wie schon bei der Bassdrum neigen auch die Snaredrum (besonders bei einer unpassend gestimmten Snare) und die (Low- und Middle-Tom manchmal zum Verdecken des Gesangs. Durch Pitchshifter kann man eine bereits aufgenommene Snaredrum etwas niedriger oder höher stimmen, falls sie dem Gesang im Weg steht. Hi-Hat und Cymbals werden immer etwas leiser abgemischt als die restlichen Drumsounds, da sie sehr durchsetzungsstark sind. Kompression Snare, Hi-Hat und evtl. auch die Toms sollte man separat komprimieren. Wurde das Drum-Set jedoch als Ganzes aufgenommen, empfiehlt sich ein Multiband- oder Einzelband-Kompressor anwenden.

Manuelle Korrekturen des Signalpegels Eventuell noch vorhandene Lautheits-Schwankungenen zwischen einzelnen Drum-Passagen (z. B. in einem Intro, Fill-In, Chorus usw.) kann man durch Volumen-Automation o. ä. ausgleichen.

8. Hinzumischen und Bearbeiten anderer Instrumente (Piano, Keyboardsounds, Streicher usw.). 9. Pegelanzeigen beim Abmischen beachten Beim Abmischen sollte man darauf achten, dass die dB-Pegel aller Spuren untereinander möglichst gleich sind, denn dann ist es auch sehr wahrscheinlich, dass deren Lautheit untereinander gleichlaut wirkt (z. B. alle Gitarren, Bass und Drums bei -20 bis -23 dB). Dann kann man den Gesang gezielt so aussteuern, dass er gut einige sehr wenige dB darüber liegt, wobei selbst 2 dB mehr schon genügen können, damit der Gesang weder "lauter" als der Rest, noch "zu leise" wirkt. Damit dieser Eindruck durchgehend so bleibt, setzt es aber voraus, dass es innerhalb der jeweiligen Spuren möglichst nur geringe Lautstärkeschwankungen im dB-Pegel (und somit auch nur geringe Lautheits-Schwankungen gibt!). Hierfür ist grade bei digitalen Abmischungen oft mehr Kompression erforderlich. Bei analogen Aufnahmeverfahren und Abmischungen ist es hingegen leichter die Spuren so abzumischen, dass sie "wie aus einem Guss" klingen.

132

Analoges Summieren

9.10 Monokompatibilität und Korrelationsgrad
Wenn beim Hören der Produktion auf Mono-Wiedergabegeräten keine wichtige Bestandteile der Musik verloren gehen, bezeichnet man sie als monokompatibel. Um die Monokompatibilität sicherzustellen, genügt es also, musikalisch wichtige Signale im Stereopanorama nicht extrem rechts- oder linksseitig zu verteilen. Die Monokompatibilität ist bei den meisten Produktionen (insbesondere in der U-Musik), entgegen mancher Behauptungen, nicht mit einem Gerät messbar und kann deswegen nur rein nach Gehör geprüft werden. Auch bei Aufnahmen, die mit verschiedenen Stereofonie-Verfahren (Stereo-Aufnahme mit zwei Mono-Mikrofonen) entstanden sind, lässt sich durch ein Korrelationsmessgerät kein valides Ergebnis ermitteln. Hierüber gab es in der Vergangenheit oft Missverständnisse, die dazu führten, dass man Monokompatibilität grundsätzlich mit einem Korrelationsgradmesser (engl. "phase meter", Goniometer)33 geprüft hat. – Die Monokompatibilität kann jedoch nur bei Produktionen, die ausschließlich mit Intensitätsstereofonie aufgenommen wurden, gemessen werden. – Kritische Werte sind hierbei -1 bis 0. Monokompatible Werte reichen von 01 bis 1.

9.11 Mixdown, Summierung
Sofern ein Mix später zu einem professionellen Mastering übergeben werden soll, muss dessen Summe unbearbeitet bleiben. Wenn man selber mastered, muss man diesen Ratschlag natürlich nicht befolgen. Dann kann sogar bereits im Mix eine Summenbearbeitung (am Masterkanal) vorgenommen werden. Ist der Mix fertig gestellt, werden alle aktiven Spuren zu einem Summensignal zusammengeführt. Diesen Vorgang bezeichnet man als Mixdown. Er umfasst alle aktiven Spuren und Effekte. Stummgeschaltete Spuren und Effekte werden also nicht in den Mixdown einbezogen. Die Mixdown-Funktion ist prinzipiell auch mit der Export- und Bouncing-Funktion identisch. Man kann die beim Mixdown erzeugte Summenspur als neues Sequencer-Projekt erstellen oder aber als Spur in das aktuelle Sequencer-Projekt einbinden. Durch das sog. Realtime-Bouncing kann ein Mix im Sequencer abgespielt und dabei in Echtzeit summiert werden. – Da viele Sampler jedoch nur beim Offline-Bouncing die Samples mit maximal möglicher Soundqualität in die Summe einrechnen, ist das Offline-Bouncing häufig die bessere Lösung.

Analoges Summieren
Man kann eine digital vorliegende Produktion auch analog summieren, was jedoch nur in Echtzeit möglich ist (also durch direktes Ausspielen der Produktion über die Audioausgänge). Dafür benötigt die DAW entsprechend viele analoge Ausgänge (und somit genügend hochwertige DACs). Außerdem muss eine externe Summierungseinheit bzw. ein gutes analoges Mischpult zur Verfügung stehen. Die Summierungseinheit summiert alle separaten Spuren zu einer Summenspur. Diese kann entweder digital (oder auch analog [z. B. auf Tonband]) aufgenommen werden. Beim analogen Summieren kann
33Nicht

zu verwechseln mit einem Stereosichtgerät.

133

Audio-Mastering-Guide

natürlich noch weiteres analoges Equipment zur Bearbeitung einzelner Spuren, Gruppenspuren oder der Summe eingebunden werden. Da die Summe meistens wieder in ein digitales Format gebracht werden muss, geht das analoge Summieren mit einer zusätzlichen D/A- und A/D-Wandlung einher. Durch mittelmäßige Wandler können dabei Klangverschlechterungen entstehen. Viele befürworten das analoge Summieren, da z. B. durch einen guten Summierungsverstärker o.ä analoges Equipment) oft noch ein zusätzlicher Klanggewinn erzielt wird. Das analoge Summieren macht sich, je nach Summiereinheit bzw. Mischpult, aber manchmal erst mit steigender Spurzahl klanglich bemerkbar.

Aussteuerung des Signalpegels beim Mixdown
Beim Mixdown sollte die Summe einen möglichst hohen digitalen Signalpegel haben. Bei 16 Bit-Produktionen war es früher aufgrund stärker rauschender Wandler notwendig, beim Mixdown möglichst dicht an 0 dBFS auszusteuern. Heute besteht bei 16 Bit (und umso mehr bei 24 Bit) keine Notwendigkeit mehr, eine Abmischung penibel nahe an 0 dBFS auszusteuern. Eine Vollaussteuerung auf 0 dBFS kann sogar Nachteile bringen: Wird der Mix zu nah an 0 dBFS ausgesteuert, kann es beim nachfolgenden Mastering eventuell zu Inter-Peak-Clipping kommen. Es kann immer nur ein Amplitudenzustand zurzeit abgebildet werden. – Es ist dafür gleichgültig, ob die Höhe der Signal-Amplitude durch eine einzelne Spur oder die Summe mehrerer Spuren entsteht. Ob z. B. ein Signalpegel von -6,25 dBFS von einer Einzelspur oder von einer Summenspur erzeugt wird, ändert an den -6,25 dBFS ja nichts. – Dennoch kann es bei der digitalen Summierung von Spuren, bedingt durch das Einrechnen Signal-verändernder Plug-ins, zu internen Rechenfehlern kommen, die auch in Form von Klangverschlechterungen hörbar werden können. Das lässt sich vermeiden, wenn die Aussteuerung der Spuren beim Mixdown deutlich unterhalb von 0 dBFS liegt (z. B. -6 bis -10 dBFS).

9.12 Ziel-Formate
Der Titel wird beim Mixdown in ein verlustfreies Audioformat konvertiert. Diese Bedingung erfüllen z. B. die folgenden drei Formate: WAV- (Microsoft Waveform) AIFF- (Audio Interchange File Format) SD2- (Sound Designer 2) 16 Bit und 44.1 kHz sind für die meisten Anwendungszwecke absolut ausreichend. Super-Video-CD- und DVD-Mastering High-End-Mastering Mastering 24 Bit 24 Bit 16 Bit 96 kHz 96 kHz 44.1 kHz

134

10. Summenbearbeitung

10. Summenbearbeitung
10.1 Mastering
Das Wissen darüber, was beim Mastering gemacht werden muss, resultiert hauptsächlich aus der Kenntnis der Wirkungsweise der verschiedenen tontechnischen Werkzeuge und Grundlagen, die bereits vorgestellt wurden. Das "Mastering" hat seit jeher einen nahezu mystischen Stand. Es wird von manchen sogar als "Königsdisziplin" der Audiobearbeitung dargestellt. Grade Amateure glauben häufig, dass erst durch ein Mastering der typische Sound einer Studioproduktion erreicht wird. – Solcherlei Annahme werden sogar durch den Begriff "Mastering" selbst schon etwas suggeriert, da er eine gewisse "Wertigkeit" und hierarchische Spitzenstellung impliziert. So wird das Mastering in seinen Möglichkeiten manchmal gnadenlos überbewertet und die weitaus wesentlicheren Stufen des Produktionsprozesses – das Recording und Mixing – dadurch unterbewertet. Andere vernachlässigen wiederum das Mastering, weil sie es sich zu einfach vorstellen oder darunter nur eine bloße Lautheitserhöhung der Summe verstehen. Dann entsteht leicht der Irrtum, dass es prinzipiell überflüssig wäre, Musik extra in einem guten Tonstudio mastern zu lassen. So kommt es nicht selten dazu, das Produktionen ohne jegliches tontechnisches Know-How und mit den falschen Bearbeitungen "verschlimmbessert" werden. Das Mastering ist ein Bereich, bei dem man speziell bei der rein digitalen Signalbearbeitung an qualitative Grenzen stößt. Zum Mastern ist analoges Mid- und High-End-Equipment noch am besten für eine deutliche klangliche Aufwertung geeignet. Auf rein digitaler Ebene ist es sehr schwer, beim Mastering das technische Klangbild qualitativ zu steigern. Der Klang von Software-Plug-ins, die blumig versprechen analoge Hardware "authentisch" zu simulieren, ist lediglich die Stiefschwester des analogen Vorbilds. Das Paradox zeigt sich schon darin, etwas "Analoges" "digital" simulieren zu wollen. Ein formschönes Design der Plug-ins, vielleicht noch mit glimmenden Röhren und einem VU-Meter im "Vintage"-Look, lassen es glaubhafter erscheinen, dass die analoge Hardware klanglich originalgetreu simuliert wird. (Nicht nur) unerfahrene Hobby-Producer hören – sicherlich auch getäuscht vom Design der Software – Sachen heraus, die gar nicht da sind und sprechen von "gutem Sound", wo eigentlich gar keiner ist. Dem Homerecordler wird es auch sehr leicht gemacht, des "Kaisers neue Kleider" zu sehen: So mancher plakativ mit "warm", "valve" und "analog" benannten Regler, erweckt den Eindruck, dass es dann wirklich nach analoger oder auf Röhrenschaltungen basierender Hardware klingt. Die tatsächliche Veränderung ist jedoch nicht in der durch solcherlei Bezeichnungen suggerierten Weise vorhanden. Solcherlei Dinge verleitet einen dazu, eher das zu hören, was man sieht und nicht unbedingt das, was "tatsächlich" zu hören ist. – Schließlich will man ja auch nicht als Idiot dastehen und zugeben, dass man die versprochene oder sogar in Testurteilen von "Experten" bestätigte Klangaufwertung nicht als solche wahrnimmt. Sogar eine bloße Lautheitserhöhung wird manchmal mit einer Klangverbesserung verwechselt.

135

Audio-Mastering-Guide

Dennoch gibt es einige wenige Audio-Software-Lösungen, die durchaus positiv hervorstechen. Professionelle Audio-Plug-Ins sind ebenso vieler älterer Low Budget Hardware überlegen.
Typische Arbeitsschritte Häufige Arbeitsschritte Relativ Selten

Mastering
Messung auf DC-Versatz Prüfen auf Monokompatibilität EQing (Falls Frequenzgang nicht optimal. Falls Low-/High-Cut erforderlich.) Sweetening (Klangoptimierung/-färbung durch den Einsatz analoger EQs/Kompressoren oder auch Preamps, Tonbandmaschinen u. ä.) Exciter (Falls das Stück zu dumpf klingt, z. B. bei manchen analogen oder zu stark komprimierten Produktionen.) Hall (Falls zu wenig Zusammenhalt zwischen den Instrumenten im Mix besteht. Als stilistisches Mittel.) Stereoverbreiterung (Falls das Panorama verbreitert werden soll.) Multiband-Kompression (Falls die Dynamik für einzelne Frequenzbereiche separat verändert werden sollte. Wenn ein Re-Mixing nicht mehr möglich ist, aber ein Mix korrigiert werden muss.) Upward-Expansion (Bei zu geringer Dynamikspanne) De-Noising, De-Humming, De-Clicking (Bei vorhandenen Störgeräuschen. Zur Audio-Restauration.)

Layback-Mastering (Falls ein analoger Klangcharakter bei Kompression digitalem Material erreicht werden soll. (Falls Lautheit zu gering, zu viel Dynamik, Falls die Lautheit zusätzlich gesteigert zum Zusammenfügen des Mixes.) werden soll.) Limiting (Falls der max. Spitzenpegel auf keinen Fall überschritten werden darf, als Vorstufe zum Komprimieren, Zusammenfügen des Mixes.) Normalisieren (Falls der Gesamtpegel/Spitzenpegel verändert werden soll.)

DC-Versatz Monokompatibilität Entstörung dB-Pegel (PPM; RMS) Frequenzanalyse EQing High-Cut Low-Cut Frequenzgang Kompression Einband Multiband Re-Recording (Layback-Mastering) DAC→Tape→ADC

Theoretisches Modell des Masterings

Veredelung

136

10.1 Mastering

Sicherungskopie
Ehe man mit dem Mastering anfängt, fertigt man von der Summendatei eine Sicherungskopie an (Kopie der Datei speichern oder auf Daten-CD bzw. -DVD brennen). Falls beim Mastering etwas schief geht, kann man auf Grundlage der Sicherungskopie nochmal von vorne beginnen. Es braucht seine Zeit um die passenden Einstellungen zu finden. Leider führt die digitale Signalverarbeitung (sofern die Bearbeitungsschritte abgespeichert worden sind und nicht mehr rückgängig gemacht werden können) mit der Zeit zu immer mehr Rechenfehlern. Obwohl diese Fehler sehr klein und zunächst unkritisch sind und sich nicht wirklich "auffällig" hörbar auswirken, führen sie zu leichten Beeinträchtigungen des Signals (meist durch Obertonverluste), die man bei einem A/B-Vergleich durchaus hören kann. Deswegen ist folgende Vorgehensweise sinnvoll: Man arbeitet zunächst ganz normal an den Dateien, probiert alle möglichen Bearbeitungsschritte aus und speichert auch ruhig zwischendurch ab. Auf diese Weise kann man natürlich auch in mehreren Sitzungen am Projekt arbeiten. Sobald man aber die finalen optimalen Einstellungen gefunden hat, wendet man diese auf eine unbearbeitete Kopie der Audio-Daten an! – Man importiert dafür also einfach eine unbearbeitete Version der Quelldatei erneut in das entsprechende Projekt.

Projekt-Workflow
Entsprechende Systemressourcen vorausgesetzt, kann man jeden Titel der geplanten Zusammenstellung auf eine separate Audio-Spur (Track) importieren. Dann liegen also alle Titel untereinander. Daraus ergeben sich folgende Vorteile: • Kürzere Gesamtlänge des Projekts und somit bessere Übersichtlichkeit. • Schnellerer Vergleich zwischen den verschiedenen Stücken. • Nicht benötigte Spuren können durch die evtl. Freeze-Funktion des Sequencers "eingefroren werden", falls der Rechner der DAW zu wenig Leistungsressourcen besitzt. • Da jede Spur mit Audio-Plug-Ins belegt werden kann, ist man für die Signal-Bearbeitung durch AudioPlug-Ins nicht auf den Master-Kanal angewiesen. Dennoch kann man den Master-Kanal zum Einbinden weiterer Effekte nutzen. Nach dem Mastering wird dann jeder Titel einzeln exportiert. Für das Pre-Mastering werden die exportierten Titel dann später in einem neuen Projekt auf einer Audio-Spur aneinandergereiht.

A/B-Hören
Das technische Klangbild der Produktion soll sich mit professionellen Produktionen möglichst messen können. Hierfür braucht man ein gutes Gehör dafür, was die klanglichen Merkmale einer (professionellen) möglichst "audiophilen" Studioproduktion ausmacht. A/B-Hören bedeutet, die eigene Produktion (A) mit dem Klang einer Referenzproduktion (B) im Vergleich zu hören. – Das A/B-Hören bezeichnet man auch als "Gegenhören".

137

Audio-Mastering-Guide

Solch einen Vergleich führt man natürlich immer unter den gleichen Hörbedingungen durch. Man hört die Referenzproduktion also über dieselbe Signalkette (d. h. D/A-Wandler, Endstufe, Monitor etc.), über die man sich auch die eigene Produktion anhört. Um eine ausreichende Vergleichbarkeit zu gewährleisten, sollte die Instrumentierung der Referenzproduktion der eigenen möglichst ähnlich sein. – Dennoch werden die Bestandteile der eigenen Produktion (selbst bei gleicher Instrumentierung) nicht "genauso" klingen können wie die der Referenz-Produktion. Selbst wenn die eigene Produktion exakt mit denselben Instrumenten und demselben Studio-Equipment aufgenommen und abgemischt wurde wie die Referenzproduktionen, wird das Klangbild der eigenen Produktion (bedingt durch die unterschiedlichen Aufnahmeräume, Abweichungen in den Mikrofon-Positionen und weitere feinere Unterschiede) stets mehr oder weniger anders klingen. Es wird also immer gewisse Unterschiede geben. Jedoch gibt es eine grundsätzliche Note von klanglicher Schönheit im technischen Klangbild einer guten Studioproduktionen, die in ihrem Kern immer erkennbar ist. An dieser Klangästhetik sollte man sich orientieren. Bei einem geschulten Gehör und einem möglichst neutralen Monitoring-System schafft man das sogar durchaus ohne ständige Vergleiche mit Referenz-Produktionen. Natürlich kann die eigene Produktion auf einem Küchenradio nicht so gut klingen wie auf einer High-End-Anlage – das tut die Referenzproduktion jedoch auch nicht. Das Ziel ist also, dass das technische Klangbild auf dem jeweiligen Wiedergabesystem qualitativ ähnlich gut klingt wie die amtliche Referenzproduktion. Benutzt man nur eine Abhöre, weiß man dennoch nicht mit Gewissheit, wie das Stück später auf anderen Wiedergabesystemen (Küchenradio, Autoanlage, Kopfhörer, PA-Anlage usw.) klingen wird. Daher sollte man auch zusätzlich auf anderen möglichen Wiedergabesystemen abhören. Es ist jedoch nicht zwingend notwendig, das Stück über andere Wiedergabesysteme und Monitore abzuhören, sofern man sicher weiß, "dass" man vertrauenswürdige Abhörmonitore besitzt. Dann ist es sehr wahrscheinlich, dass das was dort gut klingt, auch auf jedem anderen System noch "relativ" gut klingen wird. Selbst wenn die Abhöre oder die Raumakustik den Frequenzgang etwas verfälscht, fällt das nicht so stark ins Gewicht, sofern man eine Referenz zur Orientierung hat. Das technische Klangbild der Referenz wird natürlich auf gleiche Weise ebenso verfälscht wiedergegeben werden. Wird die Referenzproduktion also z. B. durch eine Raummode bei 100 Hz lauter wiedergegeben, ändert das ja nichts daran, dass die Referenz dennoch auch für diesen Frequenzbereich optimal abgemischt wurde. Man braucht das technische Klangbild der eigenen Produktion also nur der Referenz, soweit dies eben im jeweiligen Fall möglich ist, anzugleichen. Hört man die eigene Produktion jedoch ohne jede Referenz, werden Fehlentscheidungen viel wahrscheinlicher. Eine durch eine Raummode bei 100 Hz zu starker Bassbereich, wird dann z. B. unnötig abgesenkt, obwohl dieser Frequenzbereich bei der Referenzproduktion ebenso betont geklungen hätte. Riskant wird eine schlechte Abhörakustik aber dort, wo sie klangliche Bestandteile maskiert, die man dadurch sowohl bei der Referenz als auch bei der eigenen Produktion nicht mehr sauber raushören kann (mangelnde Durchhörbarkeit). Beim Mastering kann nur das Summensignal optimiert werden und damit nur der Frequenzgang des gesamten Titels, dieser resultiert aber aus der Summe der Frequenzverläufe aller Einzelspuren. – Somit hat man im Grunde nur sehr wenig Einflussmöglichkeiten für nachträgliche Korrekturen.

138

Kopfhörer beim Mastern?

Es ist vom Prinzip her ähnlich, als würde man mit dem Bass-, Mitten- und Höhenregler einer Hi-Fi-Anlage den Sound nachregeln. – Das kann an den Verhältnissen zwischen den Instrumenten der Abmischung nichts Grundlegendes mehr ändern. Es kann jedoch den Bass- Mitten- und Höhenbereich der gesamten Abmischung in ein optimaleres Verhältnis zueinander bringen.

Kopfhörer beim Mastern?
Über Kopfhörer ist der Klangeindruck in Bezug auf Hallräume, Panorama und Bässe etwas anderes als über Lautsprecher. Das jedoch nicht im negativen Sinne. Die Hallräume und Details sind deutlicher hörbar und die Ortung der Instrumente im Panorama exakter. Man hört über Kopfhörer den Direktschall ungetrübt von jeglichen raumakustischen Einflüssen (wie etwa Raummoden und Kammfiltereffekte). Dennoch verfälschen viele Kopfhörer den Frequenzgang zu stark und betonen meist die Bässe zu sehr. Es gibt nur wenig Kopfhörer, deren Wiedergabeverhalten neutral genug ist, um damit mastern zu können. Da viele Hörer ein Stück später auch über Kopfhörer anhören werden, sollte man teilweise aber auch mit Kopfhörern mastern. Hierbei kann es nicht schaden, unterschiedliche Modelle zu nutzen. Mit kleinen In-Ear-Phones kann man z. B. gut einschätzen, ob eine Abmischung einen zu starken Höhenanteil hat. Durch bass-betonte Consumer-Kopfhörer kann man hingegen gut einschätzen, ob die Mischung auf solchen dann dröhnen würde, also für solche Kopfhörer-Modelle bereits zu starke Bassanteile hat.

Kalibrierung der Studiomonitore
Zur Kalibrierung der Monitore pegelt man ein Rosa Rauschen (engl. "Pink Noise") auf einen Pegel von -20 dBFS ein. Dann regelt man den Lautstärke-Regler des Studio-Monitors so weit aus, dass das vom Lautsprecher wiedergegebene Rosa Rauschen einen Schalldruckpegel von 83 dBSPL erzeugt. – Damit man weiß, wie weit man dafür den Lautstärke-Regler am Monitor aufdrehen muss, benötigt man ein Schalldruckpegelmessgerät. Das Schalldruckpegelmessgerät positioniert man an der eigenen Hörposition auf Ohrhöhe. Wichtig ist, dass man diese Hörposition auch grundsätzlich nutzt, also wirklich beim Abhören immer im gleichen Abstand vor den Studio-Monitoren sitzt. Ist die entsprechende Position auf der Lautstärke-Skala des Monitors gefunden, bei der bei einem -20 dBFS Rosa Rauschen an der Hörposition 83 dBSPL erreicht werden, wird sie als Referenz markiert. Dann weiß man: Signale mit -20 dBFS werden bei dieser Position theoretisch mit 83 dBSPL pro Lautsprecher ausgegeben (und das ergibt beim Einsatz von zwei Lautsprechern, also in Stereo, 85 dBSPL). Diese Referenz eignet sich besonders für Klassik. Für U-Musik sollte sich die Kalibrierung eher auf ein Rosa Rauschen mit -12 oder -14 dBFS beziehen, da der bei U-Musik genutzte Dynamikumfang viel geringer ist. Man kann für die tägliche Arbeit natürlich noch andere dBSPL-Referenzen bestimmen. Das Kalibrieren von Studio-Monitoren ist keine Notwendigkeit! Es erlaubt aber einen genauen Anhaltspunkt dafür zu haben, ab wann (theoretisch) welcher Schalldruckpegel erreicht wird.

139

Audio-Mastering-Guide

I. Überprüfung auf DC-Versatz
(Vgl. Kapitel "Mixing", Abschnitt "DC-Versatz")

II. Überprüfung auf Monokompatibilität
Hier wird per Gehör (!) ermittelt, ob der Titel noch monokompatibel ist (siehe Kapitel: "Monokompatibilität, Korrelationsgrad"). Dafür wird der Master-Kanal bzw. der Audio-Track auf Monowiedergabe geschaltet. Die Korrektur eines nicht monokompatiblen Stereo-Panoramas ist beim Mastering in manchen Fällen möglich. Sie erfolgt entweder durch Automatisieren des Panpot (Panorama-Regler), um die Pegelunterschiede zwischen beiden Kanälen auszugleichen oder mit einem Stereo-Enhancer (dt.="Stereoverbreiterungs-Effekt"), mit dem man (entgegen des Namens) die Stereo-Breite meist auch verkleinern kann.

III. Sweetening – Tontechnischer Zuckerguss!
Beim so genannten "Sweetening" soll durch den Eigenklang eines hochwertigen analogen EQs, Kompressors oder anderer Hardware der Sound einer Produktion zusätzlich aufgewertet werden. Daher der Ausdruck "sweetening" (dt. = "versüßen"). Mastering hat grade bei rein digitalen Produktionen den Zweck, der Musik nachträglich einen analogen Anstrich zu verleihen. Hierbei kann der Eigenklang des Mastering-Equipments zu einem roten Faden in der Produktion beitragen. Deshalb sollte für das Mastering einer Produktion das gleiche Equipment eingesetzt werden. Prinzipiell besitzt jedes Gerät einen gewissen Eigenklang, der sich eventuell für ein Sweetening eignen kann: ein Pre-amp, eine Bandmaschine, ein Kanalzug, ein Effektgerät.

Transparente EQ-Bearbeitung
Für neutrale kleinere EQ-Bearbeitungen bieten sich lineare Mastering-EQs an.

Reihenfolge von EQing und Kompression
Ob man zuerst den Equalizer oder den Kompressor in der Signalkette einsetzt, ist für das klangliche Ergebnis unwesentlich, sofern man die Einstellungen am EQ und Kompressor optimal aufeinander abstimmt. Man sollte die Reihenfolge wählen, die einem vom Workflow am meisten entgegenkommt.

IV. Optimierung des Frequenzgangs
Der Frequenzgang der Summe sollte so EQed werden, dass er ähnlich ausgewogen klingt, wie der Frequenzgang der Referenzproduktion.

Korrekturen im Bassbereich

140

Low- und High-Cut

Gegen Dröhnen im Bassbereich helfen extrem schmalbandige EQ-Absenkungen in Oktavabständen ausgehend von den Frequenzen, bei denen das Dröhnen auftritt: z. B. 50 und 100 Hz; 60 und 120 Hz usw. ( – also immer jeweils das doppelte der vorangegangenen Frequenz). Sofern nicht nur einzelne Frequenzen, sondern ein oder mehrere (schmal- oder breitbandige) Frequenzbereiche überbetont sind, muss man diese entsprechend schmalbandig bzw. breitbandig absenken.

Low- und High-Cut
Eine saubere Reproduktion wird für die meisten Wiedergabesysteme ab 63 Hz mit sinkender Frequenz sowieso zunehmend schwerer, was übrigens auch auf manche Club-Anlagen zutrifft. 40 Hz haben sich für die meisten Produktionen als Faustregel für einen Low-Cut bewährt. Der fühl- und hörbare Sub-Bass-Bereich bis 63 Hz ist grade für elektronische Tanzmusik und Club-Produktionen relevant. Daher sollte der Low-Cut hier idealerweise alles unter 40 Hz abregeln und für extrem subbass-betonte Stücke alles unter 30 oder 20 Hz. – Alles ab 16 Hz abwärts kann aber selbst bei äußerst subbass-betonten Genres bedenkenlos komplett abgeregelt werden. Bei Rockmusik u. ä. sollte der Low-Cut zwischen 40–63 Hz (evtl. auch bis 70 Hz) angesiedelt werden. In solchen Genres liegt entweder der Schwerpunkt vom Bass- oder von der Bassdrum sowieso meist oberhalb von 70 Hz. Ein High-Cut unterhalb ≤ 16–20 kHz ist beim Mastering in der Regel nicht üblich. Auch wenn sich zwischen 16 kHz und 20 kHz meist nicht mehr viel abspielt, sollte dieser Bereich erhalten bleiben. CD-Player filtern alles oberhalb von 20 kHz automatisch aus. Bei sehr steilflankigen High-Cut- (bzw. Low-Pass-Filtern) beginnt der Filter bereits unterhalb der Centerfrequenz abzusenken. Bei sehr steilflankigen Low-Cut- (bzw. High-Pass-)Filtern entsprechend oberhalb der Centerfrequenz. Bei einem sehr steilflankigen High-Cut (bzw. Low-Pass) nahe der oberen Hörgrenze ist die dabei entstehende Absenkung unterhalb der Centerfrequenz jedoch weniger problematisch, da die Sensibilität für diesen Frequenzbereich sowieso geringer ist. – Bei einem sehr steilflankigen Low-Cut (bzw. High-Pass) bei ≥ 40 dB ist die entstehende Absenkung oberhalb der Centerfrequenz jedoch deutlich hörbar. Bei geringer Steilflankigkeit (z. B. 6 dB) ist die unter- (bzw. oberhalb) der Centerfrequenz beginnende Absenkung relativ gering, – dafür erreicht der Filter die maximale Frequenzabsenkung aber auch erst viel weiter ober- (bzw. unterhalb) der Centerfrequenz. Er ist also nicht steilflankig genug, um das Signal bereits an der Center-Frequenz effektiv abzusenken. Daher kann es notwendig werden, einen solchen Cut-Filter mit einem zusätzlichen Shelf- oder Bell-Filter zu kombinieren, um bereits an der Centerfrequenz den Pegel genügend stark abzusenken.

141

Audio-Mastering-Guide

EQing beim Mastering
Da der Frequenzgang bei jedem Titel anders ist, kann man EQ-Einstellungen, die bei einem Titel optimal waren nicht einfach pauschal auf andere Titel übertragen. Lediglich für einen Low- und/oder High-Cut können manchmal alle Stücke der Zusammenstellung mit der gleichen EQ-Einstellung bearbeitet werden. Ansonsten gilt, dass man zum Mastering nur sehr dezente Korrekturen des Frequenzgangs vornimmt: So wenig wie möglich und so viel wie nötig. Idealerweise nie mehr als +/- 3 dB. Jeder Eingriff in den Frequenzgang betrifft schließlich alle im Titel vorkommenden Klänge. Durch stärkere EQ-Eingriffe mag vielleicht ein Instrument besonders optimal klingen, das geht dann aber meist auf Kosten eines anderen Instruments, das dann nicht mehr gut klingt. Kann man einen Titel erst unter Einsatz sehr vieler EQ-Bänder und starker Frequenzkorrekturen "gradebiegen", wirkt sich die klangliche Bearbeitung durch den EQ schnell negativ aus. Um extremere Eingriffe noch transparent und ansprechend vornehmen zu können, benötigt man schon speziell dafür vorgesehene EQs – und das zählt dann schon zum Besten und teuersten, was der High-End Studio-EQ-Sektor zu bieten hat.

V. Optimierung der Lautheit
Nicht selten wird die durch den Kompressor realisierte Lautheitserhöhung mit einer Klangverbesserung verwechselt. Um herauszufinden, ob die Kompression die Klangqualität nicht mindert (bzw. das Material klanglich unangenehm einfärbt), sollte man das komprimierte und unkomprimierte Signal bei gleicher gehörter Lautstärke (Lautheit) gegenhören. Dazu stellt man den Ausgangsregler am Kompressor so ein, dass das Signal bei ein- und ausgeschaltetem Kompressor gleichlaut klingt. Dafür schaltet man den Bypass des Kompressors abwechselnd an und wieder aus und stellt währenddessen den Output-Gain so lange neu ein, bis das Signal bei angeschalteten und auf Bypass geschalteten Kompressor gleichlaut klingt. – Erst dann lassen sich sichere Aussagen über den qualitativen Klangunterschied machen. Damit die evtl. Unterschiede leichter herausgehört werden können, sollte sich der Vergleich immer auf die gleiche kurze Musikstelle beziehen, da einen sonst der veränderte musikalische Inhalt zu sehr ablenkt (z. B. plötzliche Steigerungen, Rhythmuswechsel usw.). Auch beim Kompressor stellt sich natürlich die Frage, ob man eine klanglich möglichst neutral arbeitende Kompression einsetzen möchte oder ob der Kompressor den Klang der Produktion eher einfärben soll. Häufig werden zum Mastering sehr transparent klingende Kompressoren eingesetzt. Der Kompressor- und/oder Limiter-Einsatz hat beim Mastering folgende Ziele:
• • •

Steigerung der Lautheit unter Einhaltung einer Obergrenze für den Signalpegel. Anpassung zwischen der Lautheit verschiedener Titel (im Rahmen einer Musikzusammenstellung, z. B. für ein CD-Album). Kompression bzw. Limitierung des Signals mit oder ohne Sweetening.

Damit der Hörer später nicht bei jedem Song die Lautstärke neu einstellen muss, müssen die Titel eine möglichst einheitliche Lautheit bekommen. Dabei soll die Lautheit der Titel mit anderen aktuellen Produktionen zumindest ausreichend mithalten können. Die Lautheit eines Titels muss dabei aber dennoch musikalisch gesehen Sinn machen, weswegen nicht alle Titel exakt gleichlaut gemastered

142

EQing beim Mastering

werden sollten. – Es wäre fragwürdig, eine Ballade genauso so laut zu mastern wie einen treibenden Rocksong. J Messtechnisch gesehen sollte ein dB RMS-Pegel zwischen ca. -12 bis -6 dBFS erreicht werden. Das ist ein Wertebereich, der auch das "Plattkomprimieren" tendenziell ausschließt. Dennoch mag das für Befürworter der "Loudness-Race" noch nicht genug sein. Zum Komprimieren nutzt man beim Mastering möglichst einen Einzelbandkompressor. Eine bewährte Vorgehensweise ist die Wahl eines relativ niedrigen Threshold (z. B. bei -39 dBFS) bei sehr geringer Ratio (ca. 1:1.5 bis 1:8, maximal: 2:0). Dadurch übersteigt die Signalamplitude über den gesamten zeitlichen Verlauf den Threshold. Alle Pegelspitzen gelangen also in den "Arbeitsbereich" des Kompressors. Besitzt der Titel zu viel Dynamik, kann auch mit etwas größerer Ratio von 2:0 komprimiert werden. Doch bei einem "kräftig zupackenden Kompressor" ist eine Ratio von 2:0 bereits viel zu hoch und ruiniert die Abmischung! Selbst Werte wie 1:1.5 können oft schon hoch genug sein und wirken sich bereits hörbar aus. Es gilt also: Je weniger umso besser, denn dadurch wird das Verfälschen der Dynamik des Stückes verhindert. Werte wie 1:8 oder gar 2:0 sollte man als absolutes Maximum ansehen, dass man eher vermeiden, anstatt anstreben sollte. Nur bei Kompressoren, die wirklich extrem unauffällig und transparent ihre Arbeit verrichten, sollte man Kompressions-Grade von 1:8 bis 2:0 in Erwägung ziehen. Kommt man mit einer Ratio von 2:0 beim Mastern nicht aus, liegt das Problem beim Mix, dass also die Einzelspuren der Abmischung nicht gut genug aufeinander abgestimmt und nicht genug komprimiert wurden. Da der Bassbereich mitkomprimiert wird, dürfen nicht zu kurze Attack- und Release-Werte gewählt werden. Der Attack sollte eher bei ca. 3–10 ms liegen. Ein guter Ausgangswert für den Release beginnt bei 300 ms. Durch zu lange Release-Werte können hörbare Pumpeffekte im Bassbereich entstehen, was unbedingt verhindert werden muss! Durch einen vor den Kompressor geschalteten Limiter können weit aus dem restlichen Signalpegel herausragende Signalspitzen bereits vor dem Komprimieren abgesenkt werden. Das ermöglicht, den Pegel später noch ein wenig mehr anheben zu können. Treten solche vereinzelt hervorstechenden Signalspitzen nur in geringer Anzahl auf, kann man sie stattdessen per Volumen-Automation manuell absenken. Durch einen vor den Kompressor geschalteten zweiten Kompressor können höhere Pegelspitzen separat abgesenkt werden. Dieser zusätzliche Kompressor arbeitet den anderen Kompressor also zu. Auf diese Weise wird eine etwas effektivere und dennoch unauffällige Kompression möglich. Dafür setzt man den Threshold so niedrig an, dass er nur solch relativ hohen Pegelspitzen erfasst. In Hinblick auf den Bassbereich sollte man auch hier den Release-Wert von 300 ms nicht unterschreiten. Die höheren Pegelbereiche dürfen nicht zu stark abgesenkt werden, weil dadurch die dynamischen Verhältnisse in der Abmischung verfälscht werden würden. Der Upward-Kompressor kann eine gute Alternative zum Downward-Kompressor sein, wenn dadurch unerwünschte Signalanteile im leisen Pegelbereich (Rauschen, Atemgeräusche, Hallanteile etc.) nicht störend hörbar werden. Anstatt die lauten Pegel abzusenken, werden durch den Upward-Kompressor einfach die leiseren angehoben.

143

Audio-Mastering-Guide

Wurde ein Titel bereits vor dem Mastering zu stark komprimiert, kann man ihn (wenn kein Re-Mixing mehr möglich ist) durch einen Upward-Expander nachträglich wieder mehr Dynamik verleihen. Hierbei empfiehlt sich ein nachgeschalteter Limiter, damit Clipping verhindert wird. Auf den meisten kommerziellen Alben hat jeder Titel einen geringfügig anderen Spitzenpegel, z. B. 0 dBFS; -0.78 dBFS; -0.21 dBFS u. ä. Selbst gleichlaut klingende Stücke haben oft einen recht unterschiedlichen durchschnittlichen RMS-Pegel. Auf vielen kommerziellen Alben findet man Titel mit -18 dB; -12 dB und -8 dB RMS, die dennoch die gleiche Lautheit besitzen. Bei vielen aktuellen kommerziellen Produktionen werden RMS-Pegel von -4 bis -3 dB RMS angestrebt. Das führt bei allen Musik-Genres zu total leblos klingenden Stücken. Dennoch versprechen sich viele Labels eine bessere Verkaufbarkeit von solch überkomprimierten Produktionen, da sie druckvoller und wärmer wirken. Für ein musikalisch wirkendes Mastering muss eine ausreichend große Dynamikspanne erhalten bleiben. Dafür liegt der durchschnittliche dB RMS-Werte meist im Bereich von ca. -18 dB bis - 8 dB. Bei manchen Stücken kann ein relativ hoher Wert von -8 dB RMS durchaus gut klingen, andere wirken z. B. schon bei -10 dB RMS recht "platt gemastered". Für Jazz und Klassik strebt man meist geringere RMS-Pegel um die -16 dB RMS an, da hier mehr Dynamik erhalten bleiben soll, als in der U-Musik. Es liegt stark am Ausgangsmaterial sowie dem Maß an Summen-Kompression... (1) ... welcher maximaler RMS-Wert möglich ist, ohne dass es zu Übersteuerungen kommt. (2) ... ab welchem RMS-Wert das Material subjektiv zu viel Dynamik einbüßt. (3) ... bei welchem durchschnittlichen RMS-Pegel zwei Stücke subjektiv gleichlaut wirken. Man kann zwar den momentanen, den minimalen, den maximalen und den durchschnittlichen RMS-Pegel eines Titels messen, das bietet aber dennoch keine sichere Auskunft darüber, wie hoch eigentlich die effektiv in einem Stück genutzte Lautheitsspanne (engl. "loudness range") ist. An diesem Punkt kommt das TT Dynamic Range-Meter ins Spiel. Es zeigt die effektiv in einem Stück oder Album genutzte Lautheitsspanne an, die hierbei als "Dynamic Range" (kurz: DR) bezeichnet wird. Während der Produktion zeigt das Dynamc Range-Meter hingegen den DR der jeweiligen Musikstelle an. Der "Dynamic Range" ist die durchschnittliche kumulative Differenz zwischen dem Spitzen- und RMS-Pegel innerhalb eines bestimmten Zeitabschnitts (z. B. in einem Song). Der Messbereich betrifft dabei nur die lautesten 20 % des jeweiligen Zeitabschnitts. Der Dynamic Range (DR) wird ganzzahlig, also ohne Kommazahlen, dargestellt: DR4; DR5; DR6 usw. Die Zahl hinter DR gibt an, wie viel dB Dynamik (laut vorgenannten Berechnungsweg) im gemessenen Zeitabschnitt effektiv genutzt wird. Hier wird man feststellen, dass selbst auf kommerziellen Alben fast jedes Stück einen anderen DR-Wert besitzt und das selbst bei nahezu identischem durchschnittlichen RMS-Pegel. Die Stücke wirken dabei oft auch gleichlaut, dennoch verrät der unterschiedliche DR, dass sie andere Lautheitspannen nutzen. Gleiche DR-Werte bedeuten den gleichen Grad an effektiv genutzter Dynamik in den lautesten Passagen und somit also gleiche "Kompressionsgrade".

144

Der jeweils optimale DR-Werte-Bereich orientiert sich am Genre der Musik. So wäre z. B. DR8 für ein elektronisches Stück auf einem Album ein sehr guter Wert, für eine Akustikballade oder einen Rocksong aber bereits tendenziell überkomprimiert. Für die Akustikballade und den Rocksong wäre dann z. B. DR12 ein sehr guter Wert. Allgemein kann man sagen, dass ein "Dynamic Range" von DR12–DR14 in allen Musik-Genres die musikalischsten Ergebnisse erlaubt und nur bei Sample-basierter bzw. synthetisch erzeugter Musik auch DR8–DR11 noch als sehr gute Werte aufgefasst werden können. – Solche Produktionen wirken dann auch bei der Radioübertragung, bei der das Material grundsätzlich nochmals nachkomprimiert wird, nie unmusikalisch. Die Realität sieht aber derzeit (immer noch) so aus, dass grade Chart-Musik teilweise mit ≤ DR4 komplett überkomprimiert ist und deren lauter, druckvoller und warmer Sound auf Kosten eines musikalisch wirkenden, lebendigen Klanges geht. Erst wenn Musik-Shops und Abspielgeräte technische Maßnahmen einsetzen, um Musik stets mit gleichem Schalldruckpegel (dBSPL) zu präsentieren, wie etwa durch Dolby Volume, wird die große Überlegenheit von Produktionen mit DR12 bis DR14 (bzw. ab DR8) für alle Musikkonsumenten eindeutig werden.

Fairchild Compressor Model 670 Foto: © Mac Morrison, 2011

Multiband-Kompression
Eine schlechte Abmischung kann durch ein Mastering kaum ausgeglichen werden. – Sofern kein Re-Mixing möglich ist, bietet lediglich der Multibandkompressor eine eventuelle Notlösung. Mit ihm kann man den Pegel für verschiedene wählbare Frequenzbereiche neu einstellen bzw. deren Lautheit separat bearbeiten. Da man dadurch sehr stark in die dynamischen Verhältnisse eines Stücks eingreifen kann, ermöglicht dies Korrekturen, die sonst beim Mastering (abgesehen vom sog. Seperation-Mastering) gar nicht möglich wären. Ebenso birgt die Multiband-Kompression aber auch das große Risiko, durch unpassende Einstellungen einen Titel vollkommen "kaputt zu mastern". Nachteil des Multibandkompressors ist, dass es an den Übergangsfrequenzen der einzelnen Frequenzbänder zu Phasenverschiebungen kommt. Damit sich die Frequenzbänder an der jeweiligen Crossover-Frequenz nicht zu stark überlappen, aber auch nicht zu stark voneinander entkoppeln, so dass ein fließender Übergang erzielt wird, ist eine Steilflankigkeit von z. B. 12 dB ein brauchbarer Wert. Den Vorteil sollte man eher in der gesonderten Bearbeitung des Bassbereichs sehen, bei dem oftmals eine stärkere Kompression notwendig ist. Dadurch wird es möglich diesen Bereich zu komprimieren, ohne dass höherfrequente Signale wie z. B. Vocals von der Kompression tieffrequenter Impulse, wie z. B. der Bassdrum beeinflusst werden.

145

Audio-Mastering-Guide

≤180 Hz 180–1000 Hz 1–8 kHz ≥ 8 kHz

Bassbereich Grundtöne und 1. Harmonische Obere Mitten & Höhen

Beim Einstellen der Kompressor-Parameter für die einzelnen Frequenzbänder muss der jeweilige Frequenzbereich berücksichtigt werden: Der Frequenzbereich von ca. 1–4 kHz wird lauter empfunden als tiefer liegende Frequenzen. Bei gleichem Signalpegel besitzen die Höhen gegenüber tiefer liegenden Frequenzen eine relativ höhere Lautheit. – Darum liegen übrigens auch alle Warn- und Signaltöne stets in diesem Frequenzbereich.

Pultec EQP-1A3 Equalizer

Layback-Mastering
Im Idealfall wird einer digitalen Produktion analoge Sättigung hinzugefügt. Hierfür überspielt man das digitale Musikstück (unter Einsatz hochwertiger D/A-Wandler) auf eine 2-Spur-Bandmaschine (mit ½oder ¼-Zoll-Bändern). Von dort überträgt man es mittels A/D-Wandler wieder zurück an die DAW. Das Re-recorden auf Bandmaschine bezeichnet man auch als Layback-Mastering und es wird von vielen Top-Producern angewendet. Damit es korrekt funktioniert, dürfen keine minderwertigen Wandler auf Consumer-Niveau benutzt werden, wie man sie in vielen Workstations, CD-Playern und den meisten DAT-Recordern findet, sondern nur hochwertige High-End-Wandler (das beinhaltet auch: stabile Taktung [clock] und gute OP-Amps). Ansonsten würde es z. B. durch Jitter zu Klangverschlechterungen kommen. Erst qualitativ hochwertige Wandler ermöglichen es also, ein digitales Signal ohne Klangverluste noch mit analoger Hardware wie Kompressoren und EQs nachzubearbeiten. – So können die klanglichen Vorteile solcher Geräte selbst bei rein digitalen Aufnahmen noch nachträglich eingebracht werden. Durch das Re-recorden auf Band lässt sich die Lautheit des Signals nochmals steigern. Schon allein die Trägheit des analogen Bandes beim Magnetisieren sorgt dafür, dass das gesamte Signal etwas komprimiert (limitiert) wird und dadurch runder klingt. Durch das Überspielen auf Band werden typische analoge Klangeigenschaften erreicht: Der Bassbereich wird prägnanter und wärmer, die Höhen und Mitten wirken angenehmer. Die typische "digitale Härte" einer rein digitalen Produktion lässt sich dadurch quasi wieder aus der Aufnahme entfernen. Das wäre mit digital simulierten Saturationseffekten nicht annährend so authentisch zu erreichen. Bandmaschinen werden heutzutage außer einiger 2- und 24-Spur-Modelle nicht mehr hergestellt. Generell werden eher 2-Spur-Geräte mit ½-Zoll-Bändern für Masteringzwecke genutzt. Die für das Layback-Mastering zum Einsatz kommenden Bandmaschinen sind oft nicht billig, aber durchaus noch erschwinglich.

146

Layback-Mastering

Gebrauchte Bandmaschinen haben teilweise schon jahrzehntelange Arbeitszeiten hinter sich, es sei denn sie stammen aus unbenutzten Lagerbeständen oder sind kaum genutzte "Dachbodenfunde". Bandmaschinen unterliegen einem gebrauchs- und alterungsbedingten Verschleiß und erfordern daher regelmäßige Wartung und manchmal auch eine Reparatur. Für viele alte Modelle sind manche Ersatzteile kaum noch aufzutreiben oder stark überteuert. Wegen diesem Aufwand wird Layback-Mastering eher im semi-professionellen und professionellen Bereich angewendet. Die dafür genutzte Bandmaschine müssen hohe Abspielgeschwindigkeiten von 38 cm/Sekunde (15 inch per second [ips]) besitzen, wodurch eine Rauschunterdrückung meist überflüssig wird. Geschwindigkeiten < 38 cm/Sekunde ohne Rauschunterdrückung macht für Mastering weniger Sinn, da der Rauschabstand dann zu gering ist. Eine gute Höhenwiedergabe ist jedoch bereits bei Bandlaufgeschwindigkeiten ab 19 cm/Sekunde (7.5 ips) gesichert. Für das Mastering interessiert der grundsätzliche Klang der Tonband-Aufnahme – und nicht das Erzielen von Bandübersättigungseffekten. Im Studiobereich wurden für Mastering-Zwecke oft 2-Spur-Modelle der Firmen Studer, Revox, Telefunken, ASC oder Teac/Tascam eingesetzt. Danach folgt auf ebenso hohem Niveau die Marke Tandberg, die im HiFi-Bereich als Geheimtipp gehandelt wurden. Ersatzteile sind grade für Studer und Revox noch gut zu beschaffen (und oft nötig...). Auch die eine oder anderen 2-spurige Maschinen von Braun oder Philips sind durchaus empfehlenswert. Bandmaschinen fernöstlicher Marken (z. B. Aiwa, Sony) haben sich früher jedoch keinen guten Ruf erspielen können und wurden nur im Hi-Fi-Bereich eingesetzt. Durch leichte Geschwindigkeitsabweichungen, sog. Gleichlaufschwankungen (engl. "wow & flutter"), die selbst bei den besten Bandmaschinen vorkommen (und das besonders bei ungleichmäßiger Bandaufwicklung!), wird der Klang minimal verfälscht. Eine wirklich 100%ig originalgetreue Reproduzierung wird dadurch verhindert. Bandaufnahmen eignen sich daher nicht für jede Musikart. Bei klassischer Musik, Jazz und elektronischer Tanzmusik soll nämlich absolute Tempogenauigkeit gewährleistet sein. Deshalb eignet sich das Layback-Mastering digitaler Produktionen eher für andere Genres wie Rock, Pop, R n`B, Country, Folk u. ä. Insbesondere für Schlagzeug- und Gitarrenaufnahmen ist das Re-Recording von Gitarren- und Drums auf Tonband ein echter Tipp und klanglich der rein digitalen Aufnahme überlegen. – Im Studiobereich wurde sowieso über Jahrzehnte hinweg beim Recording stets alles auf Band aufgenommen. Somit hat die Bandaufnahme den Klang von Studioproduktionen immer wesentlich geprägt und sollte daher auch heute nicht ganz ausgeschlossen werden. Nun kann man meinen, dass die angenehme Wirkung echter analoger Saturation ja auch erreicht werden könne, indem man auf ein anderes analoges Band überspielt, wie z. B. VHS oder eine Musikkassette (MC). Dieser Gedankengang ist verständlich, aber dennoch nicht richtig. Der Klang einer Bandmaschine entsteht durch die gesamte Bauart der jeweiligen Maschine und nicht nur aufgrund der Tatsache, dass ein Magnettonband verwendet wird.

147

Audio-Mastering-Guide

Natürlich lässt sich ein analoger Sound auch mittels Kassetten erreichen, diese erlauben aber, bis auf äußerst wenige herausragende Tape Recorder Modelle, eben keine so gute Aufnahmequalität wie eine sehr gute Studio-Bandmaschine. Das Re-Recording auf VHS-Tape wurde in Homerecording-Kreise oft als Alternative zu einer echten Bandmaschine eingesetzt. Der Klang ist dabei etwas anders und der Signal-Rausch-Abstand höher als beim CD-Format, weswegen es die Ansprüche an ein professionelles Mastering nicht erfüllen kann. Das Mastern auf Band soll hier nicht in den Himmel gehoben werden, ohne sich vorher über mögliche Nachteile zu vergewissern. Das Ergebnis hängt immer vom schwächsten Glied in der Signalkette ab und das kann leicht auch die Bandmaschine selber sein, wie im Folgenden deutlich wird.

Kalibrierung von Bandmaschinen
Bandmaschinen wurden früher ab Werk auf eine bestimmte Bandsorte eingemessen. Nur mit dieser (oder einer kompatiblen) Sorte ließen sich gute Klangergebnisse auf dem jeweiligen Gerät erreichen. Es gibt für nahezu jede damals populäre Maschine auch heute noch gebauchte (oder sogar alte original verpackte) Bänder zu kaufen. Hier kann man aber auch leicht an Bänder geraten, die aufgrund der Alterung (bzw. schlechter Lagerung) Aussetzer entwickeln und schmieren. Findet man keine passenden Bänder für eine gebrauchte Tonbandmaschine, muss man sie zwangsläufig auf eine andere Bandsorte einmessen lassen. Doch selbst wenn man passende Bänder findet, ist ein Einmessen aufgrund des hohen Alters der meisten Maschinen in der Regel dennoch notwendig. Ebenso, wenn man sich nicht sicher sein kann, wie lang das Gerät ab der letzten Einmessung bereits in Betrieb war. Manche Modelle galten damals sogar ab Werk als schlampig eingemessen. Das Einmessen erfordert normalerweise den Gang zu einem versierten Fachmann. Man kann diesen "Spaß" auch selber machen, muss dann aber folgende Utensilien anschaffen: ein geeignetes Band zum Einmessen der Maschine (Messband, engl.="alignment tape"), Minivoltmeter, Klirrmessgerät, Testtongenerator, eine gute Entmagnetisierdrossel und möglichst auch ein Oszilloskop. Im Internet finden sich jedoch auch Anleitungen, wie das Einmessen ohne Oszilloskop vorgenommen werden kann. Das alles ist nochmal ein nicht unbeträchtlicher Kostenpunkt und erfordert viel Zeit und Know-how. Allein die Preise für Messbänder sind oft happig. Natürlich kann man auch Glück haben, dass eine Bandmaschine noch den werkseitigen Einstellungen entspricht oder vom Vorbesitzer frisch eingemessen wurde. (Es gibt jedoch auch Fälle, in denen versierte Tonbandfreunde mit dem Klang einer eingemessenen Maschine überhaupt nicht zufrieden waren und die Maschine, aus deren Sicht, im nicht-kalibrierten Zustand besser klang.) Je nachdem wie viel Abrieb die Köpfe aufweisen, kann eine Neuausrichtung oder sogar der Austausch der Tonbandköpfe notwendig werden. Tonköpfe mit 5 mm Abrieb sind in den allermeisten Fällen bereits zu stark abgenutzt und nicht mehr zu gebrauchen. Tonköpfe, deren Kopfspalt an einer oder allen Spuren bereits aufklafft (erkennbar an einer kleinen, schwarzen Stelle), sind defekt. Das Entmagnetisieren der Tonköpfe muss regelmäßig erfolgen, damit sich das Rauschen auf späteren Aufnahmen vermindert und dafür benötigt man eine ausreichend starke Entmagnetisierdrossel. Geräuschprobleme durch Bauteile bei Bandmaschinen, die jahrelang nicht benutzt wurden, können sich nach 1–2 Stunden Betriebszeit eventuell wieder von selber legen.

148

Falls die Maschine nur über DIN-Anschlüsse verfügt, benötigt man spezielle Steckverbindungen (Adapter). Durch Line-Level-Signale können die DIN-Eingänge mancher Bandmaschinen übersteuert werden. Dieses Problem lässt sich durch passende Vorwiderstände im DIN-Stecker lösen.

Revox PR 99 MK III - 2-Spur Bandmaschine

VI. Weitere Effekte beim Mastering Exciter und Enhancer
Exciter (Enhancer) waren ursprünglich dazu gedacht, Höhenverluste, die z. B. durch analoge Aufnahmeverfahren, lange Signalketten u. a. auftreten konnten, nachträglich wieder auszugleichen. Das vom Exiter generierte Obertonspektrum ist künstlich und daher kein gleichwertiger Ersatz für ein natürliches Obertonspektrum. Exciter bzw. Enhancer sollten nur dann auf der Summe eingesetzt werden, wenn ein Stück wirklich dumpf und leblos klingt. – Jedoch wurde bei einigen berühmten Studioproduktionen ein Exciter auch ganz bewusst zur Klangformung bestimmter Signale eingesetzt. Der Exciter/Enhancer sollte so dezent zugemischt werden, dass es kaum auffällt, wenn er stummgeschaltet wird. Je auffälliger der Klangunterschied jedoch ist, desto wahrscheinlicher ist es, dass der Effekt bereits zu stark eingesetzt wurde.

Summen-Hall
Hall auf der Summe kann als stilistisches Mittel oder zur Nachbesserung eingesetzt werden. Der Summen-Hall kann den Instrumenten mehr Zusammenhalt zu geben und der Summe einen anderen Räumlichkeitseindruck geben. Ob Summen-Hall erforderlich ist, sollte man mit Bedacht entscheiden. Der Hallanteil sollte dabei äußerst dezent hinzugefügt werden und darf keinesfalls die Signale im Mix verwaschen.

VII. Limitieren
Der Limiter kann einen (im Signalweg vor- oder nachgeschalteten) entgegenarbeiten oder aber auch einzeln eingesetzt werden. Mastering-Kompressor

In beiden Situationen dient der Limiter zum zuverlässigen Begrenzen ("Limitieren") hoher Pegelspitzen.

149

Audio-Mastering-Guide

Der Limiter wird genutzt, um sicherzustellen, dass höchste Signalpegel-Spitzen kein Clipping auslösen bzw. ein bestimmter Maximal-Pegel nicht überschritten werden kann. Dafür muss der Limiter den Pegel lediglich kurz vor der kritischen Übersteuerungsgrenze absenken, z. B. bei -0.3 dBFS. Soll der Limiter auch eine nennenswerte Steigerung der Lautheit ermöglichen, geht es nicht nur darum, Clipping durch höchste Signalpegel-Spitzen zu verhindern, sondern auch noch weitere hohe Signalpegel-Spitzen etwas abzuregeln. Das sollte aber dezent eingesetzt werden, denn zu starkes Limitieren verfälscht sehr schnell die Dynamik der Summe. – Ein Limiter auf der Summe ist also kein Ersatz für das Komprimieren mit einem Summen-Kompressor. Wenn der Limiter einen für Mastering-Zwecke geeigneten Klangcharakter hat, kann man ihn auch zum Sweetening einsetzen. Eine Look-Ahead-Funktion ermöglicht ein sanfteres, transparenteres Limiting.

Teletronix LA-2A Limiter

150

10.2 Pre-Mastering

10.2 Pre-Mastering
Die für das Ziel-Format eventuell notwendige Konvertierung der Bit- und/oder Samplerate stellt keine wirklich klangliche Bearbeitung der Summe (im Sinne einer Veredelung, Lautheitssteigerung oder Bearbeitung des Frequenzgangs) mehr da. Ebenso ist das Konvertieren der Bit- und/oder Samplerate manchmal gar nicht notwendig, weil die Summe bereits in der finalen Bit- und Samplerate vorliegt. Natürlich verändert sich die Audioqualität eines Stückes mit Änderungen der Bit- und Samplerate, doch dies ist einfach nur die unumgängliche Folge davon, dass für das Pre-Mastering für eine CD nur 16 Bit und 44.1 kHz erlaubt sind. Die Zugabe von Dither bzw. Noise-Shaping kann zwar klangliche Auswirkungen haben, die als "künstlerische" Klangbearbeitung verstanden werden können. Dennoch dient Dither hauptsächlich nur dazu, einen Fehler zu korrigieren, der erst durch die notwendige Anpassung der Bitrate an das Ziel-Format entsteht. Das Normalisieren dient beim Pre-Mastering nur dazu, die Signalpegel-Spitze der gesamten Produktion auf einen technisch sinnvollen Wert zu bringen. – Könnte man z. B. sicher sein, dass eine CD bei 0 dBFS kein Inter-Sample-Clipping auslöst oder dass ein Titel im CD-Player automatisch auf einen bestimmten dB-Pegel normalisiert werden würde, wäre auch das Normalisieren gar nicht notwendig. Solche Arbeitsschritte sind also nur deswegen erforderlich, weil die Musik auf die technischen Spezifikationen der CD abgestimmt werden muss:
• • •

Die Einhaltung der beim Ziel-Format erlaubten Bit- und Sampelrate. Die Gewährleistung, dass auch leiseste Signale bei dieser Bitrate fehlerfrei dargestellt werden können (Dither). Die Einhaltung eines für das Ziel-Format technisch sinnvollen Spitzenpegels (Normalisieren).

Deswegen werden diese Arbeitsschritte, die ja nur aufgrund der Herstellung des Pre-Masters erfolgen müssen, in diesem Buch als Bestandteile des Pre-Mastering aufgefasst. Da diese Schritte oft direkt nach dem Mastering durchgeführt werden, entsteht leicht der Eindruck, sie würden "beim" Mastering erfolgen und daher zum Mastering dazugehören. Trotzdem haben sie mit dem eigentlichen Mastering nichts mehr zu tun, – außer man nutzt Dither als klangliches Gestaltungsmittel.

151

Audio-Mastering-Guide

(Konvertierung)

→Bitrate →Samplerate →(Dither bzw.Noise-Shaping)

(Normalisierung) Tracklist PQ-Editing Spacing CD-Text Subindex Kopierschutz ISCR-Code Pre-Master
→(Optional) →(Optional) →(Optional) →(Optional) →Titelauswahl →Titelzusammenstellung →Fades

→CD

Typische Arbeitsschritte

Häufige Arbeitsschritte Pre-Mastering

Relativ Selten

Samplerate-Konvertierung
(Falls Samplerate nicht der Ziel-Sample-Rate entspricht.)

Dithering
(Falls auf eine sehr niedrige Bitrate konvertiert werden soll.)

Bitraten-Konvertierung
(Falls Bitrate nicht der Ziel-Bitrate entspricht.)

Tracklist-Erstellung
(Falls Reihenfolge der Stücke festgelegt werden soll.)

PQ-Editing/Spacing
(Für CD-Zusammenstellung.)

Pre-Master-CD-Erstellung

Das jeweilige Ziel-Format (z. B. CD, DVD oder Schallplatte) stellt jeweils leicht unterschiedliche Anforderungen an das Pre-Mastering. Das CD-Format ist dabei nach wie vor noch das häufigste Zielformat. Für mp3s wird kein gesondertes Pre-Mastering vorgenommen, sondern einfach vom CD-Format ausgehend konvertiert. In manchen Tonstudios pre-mastert man (als Zwischenschritt zur CD) übrigens (auch heute noch) auf DAT.

152

10.2 Pre-Mastering

I. Re-Sampling
Sofern das Stück nicht bereits in 44.1 kHz vorliegt, wird es für das CD-Format mit einem professionellen Samplerate-Konverter auf 44.1 kHz re-sampled. (Es muss also wirklich ein Re-Sampling stattfinden. – Die Datei einfach mit dem "Speichern unter..."-Dialog unter einer neuen Samplerate abzuspeichern ist kein Re-Sampling!)

II. Konvertierung der Bitrate, Dithering
Falls notwendig, wird die Bitrate des Stücks wird für das CD-Format auf 16 Bit konvertiert. Dies kann unter Zufügen eines Dither- oder Noise-Shaping-Algorithmus geschehen. Liegt ein Stück bereits in 16 Bit vor, wird es beim Mixdown (bzw. Bouncen, Sequencern nicht automatisch mit Dither oder Noise-Shaping versehen!
Exportieren)

in den meisten

Näheres zum praxisgerechten Einsatz und dem Sinn von Dither und Noise-Shaping-Algorithmen wurde in diesem Buch bereits ausführlich erläutert.

III. Normalisieren der Musikzusammenstellung
Beim Pre-Mastering sollte erst normalisiert werden, wenn das Audiomaterial in die finale Bitrate konvertiert wurde. Schließlich steht erst dann die letztendliche verfügbare Systemdynamik und somit auch der theoretische Signal-to-Error-Ratio fest. Und es liegt am Signal-to-Error-Ratio, wie weit man den Pegel der Zusammenstellung durch das Normalisieren anheben kann, bis das Quantisierungsrauschen auf störende Weise hörbar wird. Dafür bietet der theoretische Signal-to-Error-Ratio nur einen Anhaltspunkt, denn in der Praxis verringert sich der Signal-to-Noise-Ratio auch durchaus mal um bis zu 9 dB. Für das Normalisieren werden alle Titel, die für die CD-Zusammenstellung vorgesehen sind, auf einer Spur zusammengefasst. Die Musikzusammenstellung wird als ein Ganzes normalisiert und nicht jeder Titel separat. Hat man bei der Summen-Kompression alles richtig gemacht, sollten alle Stücke untereinander nun möglichst gleichlaut wirken, keines sollte also relativ zum vorherigen bzw. nachfolgendem Stück auffällig lauter oder leiser klingen. Dabei ist anzunehmen, dass sich der maximale RMS-Pegel der Zusammenstellung idealerweise unter -4 dB liegt und der höchste dB-Spitzenpegel (Peak-Level) maximal 0 dBFS beträgt. Wenn der höchste Spitzenpegel der Zusammenstellung nun 0 dBFS beträgt, ist davon auszugehen, dass sich auch andere Signalpegel-Spitzen sehr nah an 0 dBFS befinden. Liegt der höchste Spitzenpegel der Zusammenstellung hingegen relativ weit unterhalb von 0 dBFS, wird unnötig Pegel verschenkt. Ein empfehlenswerter Wert für den höchsten Spitzenpegel liegt (bei 96 kHz Auflösung gemessen) bei -0.3 dBFS. Auf diese Weise bleibt genug Headroom, dass die restlichen (niedrigeren) Pegelspitzen ausreichend weit von 0 dBFS entfernt sind, um Übersteuerungen durch Abspielgeräte zu verhindern.

153

Audio-Mastering-Guide

Ein Peakmeter erlaubt bei 44.1 kHz nicht so exaktere Messergebnisse wie bei 96 kHz. Der Spitzenpegel sollte deswegen zuerst bei 44.1 kHz und danach bei 96 kHz Auflösung gemessen werden, da er bei 44.1 kHz meist minimal niedriger (≤ 0.5 dB bzw. < 1 dB) angezeigt wird. – Sonst kann es sein, dass das Peakmeter z. B. 0 dBFS anzeigt, obwohl der Spitzenpegel in Wirklichkeit oberhalb von 0 dBFS liegt. Wer also ganz auf Nummer sicher gehen will, re-sampled die (normalisierte) Musikzusammenstellung auf 96 KHz und misst bei dieser Auflösung nochmals den Spitzenpegel. Gibt es dabei eine Differenz des Spitzenpegels, notiert man diesen Wert. Die Differenz wird meist nicht höher als 0.5 dB sein wird und auf jeden Fall unter 1 dB liegen. Danach re-sampled man zurück auf 44.1 kHz und korrigiert den Spitzenpegel um den gefundenen Differenzbetrag nach unten. – Wird der Spitzenpegel z. B. bei 96 Hz mit +0.3 dBFS angezeigt, obwohl er bei 44.1 kHz mit 0.0 dBFS angegeben wurde, ergibt sich ein Differenzbetrag von 0.3 dB. In diesem exemplarischen Fall steht also fest, dass der Spitzenpegel bei 44.1 kHz um 0.3 dB zu niedrig angezeigt wird und dass das Signal dadurch oberhalb von 0 dBFS liegt, also ein Clipping auslöst. Deswegen wird die Zusammenstellung unter 44.1 KHz also von 0.0 dBFS auf -0.3 dBFS normalisiert. Insbesondere um Clipping durch eine spätere mp3-Umwandlung zu verhindern, sollte der Ziel-Pegel beim Normalisieren maximal -0.3 dBFS betragen. Trotz alle dem ist es unkritisch und nicht hörbar ist, wenn im Laufe eines Stücks vereinzelt ein einziges Sample ein Clipping auslöst. Ein einziges Sample entspricht bei 44.1 kHz schließlich nur 2.27 μs (Mikrosekunden)! – Wird Clipping jedoch durch mehrere direkt hintereinanderliegende Samples ausgelöst, wird das durchaus hörbar. Um Clipping im Inter-Sample-Bereich durch billige Consumer-DACs wirksam zu verhindern, sollte man den Pegel auch stets mit einem Inter-Sample-Peakmeter messen. (Wie bereits erwähnt, bietet die Firma Solid-State-Logic auf ihrer Internetseite ein kostenloses Inter-Sample-Peakmeter als Audio-Plug-in für PC und MAC an.) Ist der "Dynamic Range"-Wert (DR) der Musik zu niedrig, kann auch bei einem Spitzenpegel von -0.3 dBFS durchaus Inter-Sample-Clipping auftreten. Bei einem DR-Wert von DR14 ist diese Gefahr jedoch ausgeschlossen. Wenn durch eine Normalisierung auf -0.3 dBFS dennoch Inter-Sample-Clipping auftritt, muss man auf einen entsprechend niedrigeren Spitzenpegel normalisieren. In manchen Fällen gewährleistet dabei erst ein Spitzenpegel von -3 dBFS genug Headroom, um Inter-Sample-Clipping durch minderwertige Digital-Analog-Wandler zu verhindern. – Es gibt jedoch kaum eine aktuelle Produktion, die den Spitzenpegel so niedrig ansetzt, da man eben alles tut, um bloß keinen Pegel zu verschenken. Jedenfalls wird man bei kommerziellen Produktionen nur äußerst selten ein Stück finden, bei dem der Spitzenpegel bei niedriger als -1 dBFS ist oder gar bei -3 dBFS liegt. Man ist also bemüht, den Spitzenpegel so nah wie möglich an 0 dBFS auszupegeln. Sofern dabei nur gelegentlich zwischen zwei Samples ein Inter-Sample-Clipping ausgelöst wird und der Headroom von -0.3 dBFS eingehalten wird, ist das jedoch auch vollkommen legitim.

154

10.2 Pre-Mastering

IV. Tracklist – Mit der richtigen Tracklist Wirkung erzielen
Zum Erstellen einer Musikzusammenstellung (Tracklist) werden die entsprechenden Titel ausgewählt und in eine bestimmte Reihenfolge gebracht. Die richtige Titelwahl zu treffen und eine musikalisch optimale Reihenfolge zu finden, ist dabei gar nicht immer so leicht. Für die Erstellung der Tracklist sollten sich alle Songs hintereinander auf einer Spur (bzw. in der gleichen Sequencer-Datei) befinden. Eine normale Audio-CD im Red-Book-Format bietet Platz für maximal 99 Titel und 74 Min. Musik. Bei Überlänge sind jedoch höhere Spielzeiten möglich. Das Red-Book-Format sah ursprünglich jedoch max. 74 Minuten als Norm vor. Je nachdem welche Stücke man hintereinander spielt, ergeben sich andere Eindrücke. Nicht umsonst hat man früher noch für Freunde Musik auf Kassetten (Mix-Tapes) oder CDs überspielt und dabei genau auf die Reihenfolge und Auswahl der Stücke geachtet. Bis heute ist dieses Phänomen in Form von mp3-Playlisten erhalten geblieben. Jedoch ist es heute dem Hörer sehr viel bequemer möglich, eine festgelegte Titelfolge beliebig zu umgehen. Bereits in klassischer Musik findet sich die sog. Satzform (z. B. der Sonatensatz), in der die Bestandteile eines Werkes untergliedert sind. Für den Sonatensatz sind folgende Charakteristiken typisch: 1.Satz: Entweder sehr ruhig (quasi ein Vorspiel [Präludium]) oder ein lebhaftes Tempo (z. B. Allegro). 2. Satz: Ruhig (sofern der 1. Satz schneller war) oder etwas Tänzerisches im mittleren Tempo (Menuetto). 3. Satz: Schnell bis sehr schnell. Oft wird das Tempo im Finale des letzten Satzes nochmals gesteigert (prestissimo) oder es folgt ein ruhiger Ausklang. Manchmal ist das Ende des letzten Satzes auch an den Anfang des ersten Satzes angelehnt und bildet dadurch eine Umrahmung. Ein Beispiel für eine musikalisch wirkungsvolle Satzform ist Beethovens bekannte "Mondscheinsonate" op. 27 Nr. 2. Für den Hörer wäre es sicher langweilig, mehrere langsame Titel oder mehrere schnelle hintereinander zu hören. Deshalb setzt man auf Abwechslung und eine musikalische Entwicklung innerhalb der Tracklist. Eine Note ist wie ein einzelner Buchstabe und genauso wie aus Buchstaben Wörter und aus den Wörtern Sätze und ganze Geschichten werden, vermögen auch einzelne Songs aneinandergereiht eine Art Geschichte zu erzählen. Übertragen auf die heutige U-Musik bedeutet das: Die Musikzusammenstellung sollte immer mit einem relativ guten Song als "Opener" beginnen, der auch den Charakter des gesamten Albums gut widerspiegelt oder mit einem Stück, das sich als (instrumentale) Einleitung (Intro) eignet. Spätestens nach einer Einleitung sollte dann aber ein wirklich guter Song folgen, der sich auch für eine Singleauskoppelung eignen könnte. Danach kann die Gangart wieder für einige Tracks zurückgehen. Zur Mitte des Albums hin sollte noch unbedingt ein musikalischer Höhepunkt erfolgen, sei dies ein besonders eingängiger oder besonders langer oder in anderer Form herausstechender Song. Tatsächlich behauptet man von vielen Platten, dass die besten Tracks eher in der Mitte des Albums liegen. Ebenso geschickt ist es, zur Mitte oder nach den ersten zwei Dritteln des Albums eine Art Zäsur zu setzen und Musik zu wählen, die dem Album einen anderen Charakter gibt als zu Anfang. Z. B. könnte

155

Audio-Mastering-Guide

die erste Hälfte sehr lebhaft sein und schließlich klingt das Album plötzlich mit sehr ruhigen Titeln aus. Das Album würde dann beim Hörer einen relativ ruhigeren Gesamteindruck hinterlassen, als wenn die lebhaften Musikstücke am Ende gewesen wären. Der letzte oder vorletzte Titel des Albums sollte sozusagen den Schlussakkord des gesamten Albums bilden. Gern wird hierfür nochmal ein relativ schneller, langsamer oder auf andere Art auffälliger Titel ausgewählt. Oft hat der letzte Titel aber auch nur die Funktion das Album ausklingen zu lassen (z. B. eine reine Instrumentalnummer). Manchmal versucht man auch eine musikalische Einrahmung zu bilden, indem der letzte Titel direkt an den ersten anknüpft. Im Fall eines erst später einsetzten Bonustracks wird sogar die Wirkung eines Trugschlusses erzielt, da überraschend der Bonustrack zum eigentlichen letzten Track der CD wird. Er wirkt sozusagen wie die Zugabe bei einem Konzert. Durch das Erstellen der Tracklist kann man also durchaus beeinflussen, welchen Eindruck ein Album erzeugt. Besser gesagt: Konnte man, denn in Zeiten von mp3 erwirbt der Hörer oft nur einzelne Tracks und kauft digitale Musikbundles. Dadurch kann die Reihenfolge der Stücke kaum noch fest vorgegeben werden. Der Hörer platziert die Titel auf mp3-Playern oft wieder in komplett anderen Reihenfolgen, lässt manche Titel aus oder vermischt die Playlist mit Songs aus anderen Produktionen.

V. PQ-Editing
Zum Erstellen der Musikzusammenstellung auf die Pre-Master-CD müssen Titelbeginn und Pausen zwischen den Titeln durch Marker definiert werden. – Diesen Vorgang bezeichnet man als PQ-Editing. Pausen zwischen zwei Stücken dürfen gemäß des Redbook-Standards nicht kürzer als zwei Sekunden sein. – Dennoch können auch kürzere Pausen realisiert werden. Nur vor dem ersten Track müssen standardmäßig immer 2 oder 3 Sekunden Stille sein. Es sollte am Anfang jedes Tracks ca. 0.5 Sekunden Stille eingefügt werden. Billige CD-Player haben nämlich die Eigenschaft, das Signal am Anfang der Track-ID stummzuschalten, um so das Rauschen minderwertiger D/A-Wandler zu verdecken.

Subindizes
Das Setzen beliebiger Indizpunkte (Subindex) zählt ebenfalls zum PQ-Editing. Sie dienen als "Lesezeichen", um sich flexibler durch die CD zu bewegen. Jeder indexfähige CD-Player kann diese Punkte anspringen.

ISCR-Codes
Ausschließlich bei kommerziellen Produktionen wird der ISCR-Code eingetragen. Er besteht aus Länderund Eigentümercode, Herstellungsjahr und Seriennummer der CD.

Kopierschutz-Flags
Zum PQ-Editing zählt optional auch das Setzen von Kopierschutzflags, die jedoch in der Praxis bekanntlich nahezu wirkungslos sind.

156

CD-Text

CD-Text
Durch die CD-Text-Funktion können Infos über Songtitel, Interpret und Album zu den einzelnen Tracks eingetragen werden. Diese werden bei CD-Text-fähigen CD-Playern im Display angezeigt. Dadurch kann man auch unabhängig vom CD-Booklet den Interpreten und Songtitel identifizieren.

VI. Fade-Outs und -Ins als Gestaltungsmittel (Spacing)
Hat ein Musikstück kein richtiges Ende, wird in der Regel ein Fade-out gesetzt. Ein Fade-out lässt das Musikstück zum Ende hin gleichmäßig leiser werden, bis es schließlich ganz verstummt. Bei einem Fade-in verhält es sich umgekehrt: Die Musik wird langsam eingeblendet. Durch Länge und Verlauf der Fades und das verschiedene Tempo von Stücken erhalten die Pausen zwischen zwei Stücken eine andere Länge (– selbst wenn immer genau zwei Sekunden Stille zwischen zwei Tracks liegen!). Dies kann man sich beim Setzen der Tracks zu Nutze machen, um die Abstände zwischen Titeln individueller zu gestalten. Diesen Arbeitsschritt bezeichnet man als "Spacing"
(dt.="Abstand, Leeraum")

Als Empfehlung für das Spacing gilt: Zwischen Zwischen
Song zwei schnellen Songs Kurze Pause

schnellem und langsamem Mittellange Pausen

Zwischen
Song

langsamem und schnellem Lange Pausen

Nach

längeren Fade-Outs

Keine großen Pausen

Im Endeffekt ist das Spacing natürlich Geschmacksfrage und liegt stark an der Musik und Konzeption des Albums.

VII. Erstellen einer Pre-Master-CD
Für eine CD-Produktion muss man beim Pre-Mastering immer eine Pre-Master-CD erstellen. Sie kann als Vorlage für die Herstellung einer CD-Serie dienen. – Eine CD-Serie kann man entweder in Form von gepressten CDs oder gebrannten CDs (CD-Rs) herstellen. Die Pre-Master-CD kann auch als Vorlage für die Herstellung eines CD-Glasmasters dienen, dass die eigentliche Master-CD darstellt. Dieser Arbeitsschritt wird deswegen als technisches Mastering bezeichnet. Das CD-Glasmaster dient als Vorlage zur Pressung einer CD-Serie. Zum Erstellen der Pre-Master-CD wird die Musik-Zusammenstellung gemäß des Red-Book-Standards auf eine CD-R gebrannt. Das Beschreiben im Red-Book-Format kann mit nahezu jeder Brenner-Software erfolgen.

DAO & TAO-Schreibweise
Bei der DAO-Schreibweise (engl. "disk-at-once", DAO) wird die CD in einen Durchgang beschrieben und nicht wie bei TAO (engl. "track-at-once", TAO) abschnittsweise.

157

Audio-Mastering-Guide

Bei der TAO- bzw. Multisession-Schreibweise kann es zu E32-Fehlern auf der CD-R kommen, – dies kann sich später als hörbares Knacksen bemerkbar machen. Einige ältere CD-Brenner unterstützen zudem nur die TAO-Schreibweise. Die Brenn-Session muss "geschlossen" werden, d. h., die CD wird nicht im Multi-Session-Format gebrannt. Bei heutigen Brennern und CD-Rohlingen kann mit mindestens 8-facher Geschwindigkeit sicher beschrieben werden.

Die CD als Pre-Master-Medium

Metallisierter CD-Glasmaster für die CD-Pressung

Viele Homerecordler und Hobbyproducer lassen ihre Musik nach dem Mastern lediglich als CD-R vervielfältigen und lassen kein CD-Glasmaster anfertigen. Das ist auch in Ordnung, sofern eine Pre-Master-CD gemäß der Red-Book-Spezifikationen beschrieben wird und der verwendete CD-Rohling (CD-R) qualitativ hochwertig ist.

158

Qualität von CD-Rs

Exkurs: Audio-CD und CD-R – Mastern auf CD-R?
Beim Pressen einer CD werden winzige unsichtbare Kerben in die CD gepresst. Dadurch ergeben sich auf der Oberfläche Vertiefungen (engl.="pits") und Erhebungen (engl.="lands"), die die binären Zahlen 0 und 1 darstellen, durch die die Musik digital codiert wird. Der Laserstrahl reflektiert beim Abtasten der CD in den Pits anders als in den Lands und liest je nach Reflexionsgrad eine 1 oder 0. Bei einer gepressten Audio-CD sind die Daten auf mehreren Schichten abgelegt, selbst bei Kratzern gehen sie also nicht so schnell verloren. Solche gepresste CDs haben theoretisch eine hohe Lebensdauer von mindestens 100 Jahren. Bei einer CD-R wird beim Beschreiben eine organische Beschichtung (engl.="dye") durch einen Laserstrahl angeschmolzen, damit sich deren Reflexionseigenschaften entsprechend des digitalen Codes verändern. CD-Rs haben je nach Fabrikat eine sehr unterschiedliche theoretische Lebensdauer von zehn bis 100 Jahren. Mittlerweile sind auch CD-Rs im Umlauf, die laut Herstellerangaben (Herstellerbehauptungen?) eine Datenbeständigkeit von zu 500 Jahren aufweisen. Dies sind jedoch nur theoretische Angaben, denn durch die manchmal ungenügende Verarbeitung von CD-Rs (mangelnde Kratzfestigkeit, beschädigter Dye etc.) gehen Daten häufig sehr viel früher verloren. Hierbei spielt natürlich auch die richtige Lagerung und Handhabung eine Rolle. Die CD-R wird auch manchmal CD-R-Audio genannt, – dies ist aber nur ein formeller und kein qualitativer Unterschied. Bei einer CD-R, die als CD-R-Audio verkauft wird, sind im Kaufpreis GEMA-Gebühren enthalten.

Qualität von CD-Rs Qualitätsgrad und CD-Fehlerspezifikationen
Die Qualität (Grade) eines CD-R-Rohlings wird u. a. durch die durchschnittliche Block Error Rate (BLER) definiert. Je geringer der BLER ist, desto höher die Datenintegrität. Daraus leiten sich fünf Qualitätsgrade ab: Grade A (E) B C D F average BLER <6 <5 > 101 < 220 (pro 10 Sek.) > 220 (pro 10 Sek.) E22-Fehler x E32-Fehler x Aussetzer < 1000 Titelverlust (x)

159

Audio-Mastering-Guide

Beschichtungen (Dye)

Cyanin (eher blaugrün reflektierend)

Cyanin ist kompatibel zu nahezu jedem Laser. In Verwendung mit einer goldenen Reflexionsschicht ergibt es eine grünliche Datenschicht, bei einer silbernen Reflexionsschicht ist sie blaugrün oder blau.

Phtalocyanin (farblos) Phtalocyanin hat höchste Reflexionsgrade und eine hohe Datenbeständigkeit, weil es relativ unempfindlich gegen UV-Licht ist. Es ist deshalb etwas haltbarer als Cyanin und lässt sich besser bei höheren Geschwindigkeiten beschreiben. – Dennoch macht der Unterschied zum Cyanin in der Praxis nicht viel aus. In den meisten Fällen liefern beide Dye-Sorten also gleichgute Ergebnisse. Phtalocyanin an ist farblos. Ist bei Phtalocyanin-beschichteten CD-Rs die Reflexionsschicht aus Gold, ergibt sich eine goldene Färbung der Datenschicht. Bei einer silbernen Reflexionsschicht ist sie hingegen goldfarben.

Azo (eher blau reflektierend)

Azo ist blau und in Verbindung mit einer silbernen Reflexionsschicht tiefblau. Es ist recht langlebig, aber nicht so stabil wie Phtalocyanin und Cyanin. Viele CD-R Hersteller benutzen ihre eigenen Sorten des jeweiligen Dye. Dabei strebt man z. B. an, die Datenbeständigkeit und Kompatibilität mit Abspielgeräten zu erhöhen und den Dye für höhere Brenngeschwindigkeiten zu optimieren.

160

Handhabung

Weitere Beschichtungen Silberne Beschichtungen können im Lauf der Jahre oxidieren und damit unbrauchbar werden. Eine goldene Datenschicht muss nicht bedeuten, dass es sich um eine reine Goldbeschichtung handelt. Reine Goldbeschichtungen werden aus Kostengründen selten verwendet, meist ist noch etwas Silber enthalten (Gold-Silber-Beschichtung). Manche CD-Rs sind nur auf der Vorderseite goldfarben und erwecken so den Anschein, dass auf der Datenseite eine goldhaltige Reflexionsschicht vorhanden wäre. Ausschlaggebend ist aber, wie die CD hinten (auf der Datenschicht) aussieht. Manche CD-Rs haben einen UV-Filter, z. B. in Form einer schwarz gefärbten Beschichtung, die vor der Datenschicht liegt. Durch diese Filterung werden Datenverluste durch Lichteinwirkung praktisch ausgeschlossen, was höchste Langlebigkeit garantieren soll.

Handhabung
Chemisch aggressive Kleber von Etiketten können im Lauf der Zeit die CD-R zerstören, falls diese nicht durch eine zusätzliche Schicht geschützt ist. Zum Beschriften sollte man sicherheitshalber nur weiche Stifte auf Wasserbasis nehmen. CD-Rs sollte man stets lichtgeschützt aufbewahren. Ist man sich über die Lebensdauer seiner CD-R nicht sicher, sollte man regelmäßige Sicherungskopien anfertigen. Nach dem Brennen sollte man eine CD-R auf Fehler überprüfen. Bei der Überprüfung werden die gebrannten Daten der CD-R mit den Originaldaten verglichen. (Ebenso gibt es verschiedene kostenlose CD-R-Diagnose-Programme im Internet zum Download.)

EAN- und UPC-Code
in großes Problem beim CD-R-Kauf ist, dass die Informationen über Dye und den Qualitätsgrad nicht dabeistehen. Um an diese Angaben zu kommen, muss erst nach dem Hersteller der CD-R recherchiert werden. Selten ist der Anbieter (also die Marke, die auf der Verpackung/Rohling steht) auch gleichzeitig der Hersteller der CD-R. Die Hersteller produzieren für verschiedene Anbieter. Die Anbieter beziehen ihre CD-Rs dabei auch nicht immer vom gleichen Hersteller, sondern können diesen wechseln. Insgesamt gibt es weitaus mehr Anbieter als Hersteller. Manchmal wird die CD-R-Produktion eines Anbieters nur zu einem Teil vom Anbieter selbst hergestellt und der Rest von einem anderen – meist günstiger produzierenden – Hersteller angefertigt. Dadurch wird gewährleistet, dass der Anbieter seine eigenen CD-Rs günstiger anbieten kann. So kann es sein, dass sich z. B. in zwei 10er-Boxen CD-Rs eines Anbieters in einer Box die vom Anbieter selber hergestellten CD-Rs befinden und in der anderen Box die eines anderen Herstellers. Es gibt auch Fälle, wo ein Anbieter eine zeitlang seine CD-Rs von einem namhaften großen Hersteller anfertigen lässt und später (nach einem guten Testbericht?) zu einem billigeren Hersteller wechselt. Ist der Anbieter nicht gleichzeitig auch der Hersteller der CD-Rs, lässt sich der Hersteller mittels spezieller Software von der CD-R auslesen, – das geht natürlich erst nach dem Kauf. In der Praxis will man das aber natürlich vorher wissen. Sichere Auskunft über den Hersteller und damit über den Dye des Rohlings liefert dann nur der Barcode auf der Verpackung: Dies ist einmal der EAN-Code (European-Article-Number [bestehend aus 13 Ziffern]) und der UPC-Code (Universal-Production-Code [12 Ziffern]).

161

Audio-Mastering-Guide

Anhand dieser Codes kann man in Internetdatenbanken nach dem Hersteller recherchieren (z. B. unter www.instantinfo.de). Je namenhafter ein Anbieter ist, desto wahrscheinlicher ist es, dass die CD-Rs von einem guten Hersteller stammen, wie z. B. Tayo Juden, Ritek etc.

Erstellen von mp3s
Ironischerweise hat wegen der schlechten Verkaufbarkeit von CDs heute grade das Pre-Mastern eine geringere Bedeutung. Das typische Album-Format hat seine besten Zeiten hinter sich. So werden Arbeitsschritte, die eigentlich zum Pre-Mastering zählen (im Sinne von Tracklist-Zusammenstellung und der Überspielung auf Datenträger), heute letztendlich vom Hörer selbst durchgeführt. Manche Hörer normalisieren sogar die Audio-Dateien oder verändern durch EQ-Presets den Frequenzgang. Das alles gab es früher auch schon, z. B. in Form von Mix-Tapes und Stereo-Anlagen mit Equalizer. – Heute hat das Ganze lediglich eine extremere Form angenommen. Durch die CD konnte man die Titel-Reihenfolge effektiv vorgeben. Das konnte dann erst mal nur durch das Skippen von Titeln umgangen werden, was aber ohne eine Fernbedienung für den CD-Player relativ unbequem sein konnte. Durch den Kauf einzelner mp3s wird deren Bezug zu den anderen Stücken eines Albums oft nicht mehr erkennbar. Damit hat ein Album als Gesamtkunstwerk (und das auch klanglich nach wie vor bessere CD-Format) immer mehr an Bedeutung verloren. Selbst das Hören über Lautsprecher tritt für viele Hörer heute in den Hintergrund, da in der heutigen mobilen Informationsgesellschaft viel häufiger über Kopfhörer (iPods, Laptop u. ä.) gehört wird oder sogar relativ öffentlich über interne, oft mickrig klingende, Handylautsprecher. Somit bekommt beim Mastering auch das Abhören auf iPod-Kopfhörern, Desktop- und Handy-Lautsprechern mehr Relevanz. Früher ging es hingegen darum, dass das Ergebnis grade auf Hi-Fi-Anlagen und Radiogeräten gut klingen soll. Das Drucken von Alben-Covern bzw. das Designen ganzer Booklets ist heute für eine Musikveröffentlichung nicht mehr unbedingt erforderlich. Musiktitel und Alben werden oft nur als rein digitale Produkte via Internet angeboten. Musik wird heute von den meisten Hörern nur im mp3-Format gehört. Dieses Format erhält jedoch nur einen Teil der ursprünglichen CD-Qualität und ist ein verlustbehaftetes Format. Man muss also darauf achten, dass die Titel wenigstens mit möglichst geringen Verlusten ins mp3-Format übertragen werden. Lame Encoder Der Lame Codec stellt bereits seit vielen Jahren den wohl besten mp3-Encoder dar. Man sollte immer die aktuellste Lame-Version nutzen. 320 kB/s Bitrate Dies ist die höchste Bitrate. Hierdurch werden die Qualitätseinbußen zum CD-Format geringer gehalten. Diese Bitrate führt jedoch oft zu erheblich höheren Dateigrößen. Eine Bitrate von 192 kBit/s sollte man aber möglichst nicht unterschreiten. CBR Dieser Modus hält die Bitrate konstant.

162

EAN- und UPC-Code

VBR Der VBR-Modus arbeitet mit einer an die Musikkomplexität angepassten Bitrate. Er liefert (außer bei 320 kbit/s und bis auf sehr seltene Ausnahmen) eine bessere Qualität als CBR. Letztendlich hängt Qualität bei VBR jedoch davon ab, welche kleinste und größte erlaubte Bitrate festgelegt wird und wie beide zueinander gewichtet werden. ABR Mit ABR werden bessere Ergebnisse bei weniger komplexem Material möglich, da die durchschnittliche Bitrate festgelegt werden kann. Joint Stereo Ermöglicht hohe Bitraten bei weniger Speicherverbrauch. Puristen wählen hier den normalen Stereomodus, der bei hohen Bitraten jedoch größere Dateien erzeugt. Low-Cut und High-Cut Ein LC ab 50 Hz und ein HC ab 18 kHz verringern die hörbaren Verluste etwas. ID3-Tag So wie bei CD-Text für CD, können mit dem ID3-Tag Interpret, Titel, Album u. a. als Info eingespeichert werden. Diese Infos werden dann auf dem Abspielgerät angezeigt. EQing Da mp3s dazu neigen, den oberen Mittenbereich etwas mehr zu betonen und Höhen und Bässe weniger, muss man manchmal per EQ nachträglich korrigieren. Hierbei sollte der oft überbetonte Bereich bei 1–5 kHz etwas gesenkt werden.

Durch html5 Audio können übrigens auch wav-Dateien in vielen und zukünftig allen gängigen Browsern online gestreamed werden. Das erhöht die Möglichkeit, Musik in besserer Wiedergabequalität präsentieren zu können. Ob Musik-Communities diese Möglichkeit nutzen werden, ist jedoch fraglich, da dies weitaus mehr Speicherplatz als beim Hosten von mp3s erfordern würde und sich natürlich auch der Traffic enorm erhöhen würde.

163

Audio-Mastering-Guide

11. Musikrecht
11.1 Urheberrecht
Das Urheberrecht für ein geistiges Werk entsteht bereits ab der Schaffung des Werkes. Dabei ist es bei musikalischen Schöpfungen (Kompositionen) gleichgültig, ob sie aufgenommen, niedergeschrieben oder anderweitig festgehalten werden. Es genügt schon, wenn es als Idee im Kopf entsteht, – bereits dann ist es eine geistige Schöpfung. Es muss dabei auch nicht ein richtiges Musikstück im normalen Sinne sein. – Schon eine komponierte Abfolge von Tönen und Geräuschen reicht aus, um durch das Urheberrecht geschützt zu sein. Auch relativ simple Stücke wie Drum n`Bass-Produktionen, wo oft nur verschiedene, von Dritten erstellten Sounds, Samples und vorgefertigten Phrasen zusammengestellt werden unterliegen dem Urheberrecht, da dieser Vorgang bereits als eigenständige geistige Schöpfung angesehen wird.

11.2 Vervielfältigungs-, Verbreitungs-, Veröffentlichungsrecht
Das Urheberrecht für geistiges Eigentum ist an die Person des Urhebers gebunden, erlischt 70 Jahre nach dessen Tod und ist vererbbar. Einzig der Urheber ist berechtigt, sein Werk zu verbreiten, zu ändern und zu vervielfältigen. Wichtig ist dabei aber, dass das Musikstück eine persönliche geistige Schöpfung von ihm ist. Es gibt kaum ein Musikstück, welches vom Urheberrecht nicht erfasst wird. (Natürlich umfasst das Urheberrecht auch alle anderen geistigen Schöpfungen, wie Schriftwerke, wissenschaftliche Arbeiten, Malereien etc.) Das Urheberrecht umfasst immer das gesamte Werk als Ganzes und nicht nur einzelne Teile davon, wie z. B. einzelne Melodien oder nur den Songtitel. – Diese sind jedoch auch sogar separat schutzfähig, wenn sie an sich schon eine schöpferische Leistung darstellen, – auch hierfür sind die Kriterien nicht streng. Dem Urheber stehen das Vervielfältigungsrecht (z. B. Anfertigung einer CD-Serie), das Verbreitungsrecht (z. B. CDs in den Verkehr bringen) und das Veröffentlichungsrecht (z. B. CDs öffentlich wiedergeben) seiner Werke uneingeschränkt zu. Als öffentliche Darbietung gilt alles, was über den privaten Rahmen hinaus öffentlich gemacht wird, – sogar eine Telefonwarteschleife (weil diese ja der Öffentlichkeit zugänglich ist) und auch das Abspielen von Musik auf einer Internetseite. – Ausgenommen davon sind private Feierlichkeiten, da dort nur ein bestimmter Personenkreis geladen ist und diese naturgemäß nicht jedem zugänglich gemacht werden (können). Jeder der Musik öffentlich anbieten und abspielen will, muss, sofern er nicht selbst der Urheber ist, dazu die Rechte erwerben. Vervielfältigungs-, Verbreitungs- und Veröffentlichungsrecht können jeweils einzeln oder insgesamt auf andere übertragen werden.

164

11. Musikrecht

11.3 Verwendung des Copyright-Vermerks
Ein Copyright-Vermerk (©) muss in Deutschland nicht angebracht werden, damit ein Musikstück unter Urheberschutz steht. In manchen Staaten (z. B. den USA) ist der Copyright-Vermerk jedoch die Grundvoraussetzung, damit das Werk überhaupt unter Urheberschutz steht. Der Copyright-Vermerk wird jedoch nur bei Schriftwerken angebracht. Für Musikaufnahmen gilt stattdessen das è-Zeichen (engl. "phonorecordet").

11.4 Häufige Irrtümer über den Beleg der Urheberschaft
Die Hinterlegung eines Werkes bei der GEMA beweist – entgegen vieler Behauptungen – nicht die Urheberschaft und kann demnach auch im rechtlichen Streitfall nicht als beweiskräftig genug angesehen werden, da die GEMA keine Information zu den Melodien, Texten etc. des Werks speichert. – Diese Informationen sind aber ausschlaggebend zum Nachweis der Urheberschaft. Selbst Eintragungen der Urheberrolle im Patentamt sind ist noch kein geltendes Beweismittel dafür, dass jemand zu Recht die Urheberschaft trägt. – Abgesehen davon sind solche Eintragungen nur für diejenigen sinnvoll, die unter Künstlernamen und damit anonym handeln. Sie erreichen damit die Verlängerung des Urheberrechts bis 70 Jahre nach ihrem Tod, – die ansonsten bei unter Künstlernamen publizierten Werken nicht der Fall wäre.

11.5 Gemeinsame Urheberschaft
Haben mehrere Leute an einem Stück komponiert, besitzen alle gemeinsam das Urheberrecht, egal wie groß der schöpferische Beitrag der jeweiligen Miturheber war. Schöpferisch muss die Beteiligung aber gewesen sein, damit jemand als Miturheber gilt. Die Voraussetzung muss dabei natürlich sein, dass sich beide Urheber im gegenseitigen Einvernehmen schöpferisch am Stück beteiligt haben. Solche Stücke dürfen nur veröffentlicht und vervielfältigt werden, wenn alle Urheber ausdrücklich damit einverstanden sind. Damit ein anderer zum Miturheber wird, muss also seine schöpferische Leistung an der Komposition erkennbar sein. Dies kann z. B. schon eine Melodie oder Harmoniefolge sein, die dem Stück eine andere Wendung gibt. Eine schöpferische Leistung, die eine Miturheberschaft rechtfertigt, ist jedoch nicht der Fall, wenn z. B. nur das Arrangement verändert worden ist, bzw. die Klänge oder der Rhythmus (=Drums, Bass, Rhythmusgitarre). Das Ändern von Arrangement, Rhythmus und Sounds stellt nämlich keine Mitschöpfung am Musikstück an sich dar, weil die Komposition auch ohne diese Bearbeitungen eigenständig wäre. Es muss sich also um eine schöpferische Beteiligung handeln, bei deren Weglassen das Stück nicht mehr als eigenständig erkennbar wäre, z. B. einen wichtigen Teil der Gesangsmelodie. Ist der Beitrag eines anderen am Stück nicht als schöpferisch anzusehen, da er nur Rhythmus, Instrumentierung oder das Arrangement am Stück verändert hat, kann er in Ausnahmefällen dennoch die Miturheberschaft am Stück gewinnen. – Dies muss zur Not über den Rechtsweg entschieden werden. Hat einer der Urheber seinen Beitrag zuvor schon als eigenständiges Stück kreiert, – also bevor jemand anderes etwas hinzukomponierte, behält er für diese Erstversion (Frühversion) das alleinige Urheberrecht. Für die andere Version sind natürlich beide die Urheber.

165

Audio-Mastering-Guide

11.6 Urheberschutz von Arrangements
Ein Arrangement besitzt einen Anspruch auf Schutz, – der Arrangeur bzw. die Arrangeure enthalten dadurch aber keine Urheberschaft am Musikstück, das arrangiert wurde, sondern eben nur am jeweiligen Arrangement.

11.7 Plagiate
Zum Erlangen des Urheberrechts zählt nicht, wie gut oder originell die geistige Schöpfung ist oder wie viel Arbeitsaufwand in sie investiert wurde, sondern dass eine eigenständige schöpferische Leistung stattgefunden hat und erkennbar ist. Eine bereits vorhandene Melodie nachzukomponieren und dabei nur leicht zu verändern, wäre demnach als Plagiat zu bewerten, da hier die Melodie von einem anderen (nahezu) 1:1 übernommen wurde und deshalb keine schöpferische Eigenleistung stattgefunden hat.

Wirksamer Schutz vor Plagiarismus34
Natürlich hat jeder Urheber ab Schöpfung seines Werkes bereits das Urheberrecht daran. Jedoch muss er im Zweifelsfall auch beweisen können, dass er tatsächlich der Urheber ist und somit die Urheberschaft beweisen. Es geht dabei also nicht um den "Anspruch" auf das Urheberrecht für die eigenen Werke, sondern ob dieser Anspruch berechtigt ist. Das ist er rechtlich gesehen nur dann, wenn er juristisch nachgewiesen werden kann. Wirksam schützen kann man ein Musikstück deshalb erst ab dem Zeitpunkt, wo es beim Rechtsanwalt bzw. Notar in einer sog. Prioritätsverhandlung hinterlegt wird. Man kann sich, sofern man der der Urheber des Stückes ist, durch die Prioritätsverhandlung die Urheberschaft rechtskräftig bestätigen lassen. Hat man das Stück hingegen nur aufgenommen und ist nicht dessen Urheber, darf und man durch eine Prioritätsverhandlung nur sichern, dass man als ausübender Musiker an den Aufnahmen beteiligt war. Ist man sowohl ausübender Musiker als auch Komponist wird natürlich beides angegeben. Bei der Prioritätsverhandlung hinterlegt man einen Datenträger, auf dem die Stücke als Musik und/oder Noten gesichert sind, dazu ein Beiblatt, auf dem Urheber, Titel, Abfolge und die Dauer der Stücke bezeichnet sind. Wird einem die Urheberschaft durch andere einmal strittig gemacht, kann man durch die Prioritätsurkunde, die einem der Notar auch nachträglich ausstellen kann, jederzeit beweisen, dass man der rechtmäßige Urheber des Werkes ist. Dafür ist aber nicht das bloße Vorhandensein einer Prioritätsurkunde entscheidend, – im rechtlichen Streitfall entscheidet nämlich das Datum der Prioritätsurkunde, wer der rechtmäßige Urheber ist. Manche Leute schicken ihre Stücke per versiegeltem Einschreiben an sich selbst und bewahren den Umschlag dann ungeöffnet auf, um damit später ihre Urheberschaft an dem im Umschlag enthaltenden Material zu beweisen. Da dieses Verfahren zu leicht manipulierbar ist, zählt es vor Gericht nicht als ausschlaggebendes Beweismittel und stellt deshalb keinen sicheren Urhebernachweis dar. Inwiefern verschiedene Anbieter, bei denen man gegen eine Gebühr eigene Werke hinterlegen kann, im Streitfall wirklich den rechtsgültigen Beweis der Urheberschaft ermöglichen, ist strittig, denn solche Dienstleistungen sind nicht das gleiche wie eine Hinterlegung bei einem Rechtsanwalt oder Notar.

34In

Anlehnung an das engl. plagiarism wurde hier das Wort „Plagiarismus“ statt „Plagiatismus“ gewählt.

166

Plagiarismus – Panikmache?!

Plagiarismus – Panikmache?!
Viele Musiker machen sich zu Unrecht Sorgen um Plagiarismus. Daran verdient mittlerweile eine ganze Schar von Unternehmen, die daher gern die Angst vor Plagiarismus schüren. Damit ein Stück Gefahr läuft ganz oder teilweise plagiiert zu werden, ist es nicht wichtig, wie gut der Urheber sein eigenes Stück findet. Erst wenn ein Song oder einer Melodie ein intersubjektiv erkennbares Hit-Potenzial besitzt oder zumindest als sehr gute Musik angesehen wird, wächst die Gefahr, dass jemand versuchen könnte, geistigen Diebstahl zu begehen. Geld ist dabei das einzige Motiv, ein anderes gibt es für solche Taten selten. Die kommerziellen Chancen eines Stückes einzuschätzen, ist aber oft sehr subjektiv. Es müssen außerdem bestimmte Vorbedingungen herrschen, damit der Dieb auch tatsächlich erfolgreich sein kann. Der Plagiateur müsste es schaffen, damit einen gewissen kommerziellen Erfolg zu erlangen, der für ihn den Diebstahl rechtfertigt. Ist der finanzielle Anreiz zu gering, wird auch der Anreiz zum Diebstahl verschwinden, – es sei denn, rein persönliche Motive spielen für den Diebstahl eine Rolle. Gelingt der Diebstahl der musikalischen Idee, ist die Frage, ob der Plagiarist glaubhaft machen kann, dass es wirklich aus seiner Feder stammt. Kann er es selber überhaupt live darbieten oder produzieren bzw. produzieren lassen? Reiht es sich überhaupt in den Stil seiner eventuellen anderen Werke ein? Zur Not müsste der Dieb sich eine neue künstlerische Identität zulegen oder das plagiierte Stück von anderen Musikern darbieten lassen, denen man diese Musik "abkauft" und lediglich als (angeblicher) Komponist und Produzent im Hintergrund agieren. Es ist also sehr wahrscheinlich, dass der Plagiateur das Stück mit eigenen Mitteln nochmals neu produziert muss. Selbst wenn das funktioniert, gibt es ein Problem: Solange der potenzielle Dieb keine bevorzugte Stellung im Musikbusiness hat, wird es für ihn genauso schwer das Musikstück zu einem (kommerziellen) Erfolg zu bringen wie für jeden anderen auch! – Es heißt ja nicht jeder Dieter Bohlen. Da tausende von mp3s im Internet kursieren und die Labels mit Demo-Einsendungen nahezu geflutet werden, ist es sehr unwahrscheinlich, dass ein Plagiarist sich besser etablieren kann als der eigentliche Urheber. Da heutzutage die meisten Plattenlabels den Musikern nicht viel Vergütung bieten können und große Plattenfirmen eher auf gecastete Gruppen und auf bereits langjährig bekannte Top Acts setzen, ist geistiger Diebstahl für unbekannte Musiker und Songwriter wenig aussichtsreich. Ein wirklicher Künstler gibt sich allein aus Stolz schon nicht als Urheber fremder Sachen aus, – selbst wenn er Sachen von anderen Leuten besser findet und ihnen mehr Erfolgspotenzial zuspricht als seine eigenen. Kommt es im Musikbusiness dennoch einmal zu Plagiarismus, muss der Urheber diesen Diebstahl erst einmal bemerken – und das geschieht normalerweise erst dann, wenn die gestohlenen Sachen kommerziell auf gewisse Weise erfolgreich werden. Deshalb kann man davon ausgehen, dass Ideenklau entweder kaum bemerkt wird oder kaum stattfindet. Insofern ist das Risiko Opfer von Plagiarismus zu werden, zunächst einmal nur ein bloßer Gedanke, mit der man sich selbst Angst machen kann – oder eben nicht. Selbst wenn Plagiarismus nicht zu einem finanziellen Schaden des Geschädigten führt, ist er aber dennoch nicht zu verharmlosen, da es jeden kränkt, wenn das eigene Werk auf solche Weise missbraucht wird.

167

Audio-Mastering-Guide

Plagiiert ein Musiker, geht er dadurch, selbst wenn er sich den Nachweis der Urheberschaft erschleicht, ein großes Risiko ein, denn auch trotz einer Prioritätsverhandlung wäre er ja nicht der rechtmäßige Urheber, sondern ein Betrüger. Hat der durch den geistigen Diebstahl geschädigte Künstler schon vorher seine Musik in einer Prioritätsverhandlung schützen lassen, wird der Plagiateur in einem Rechtsstreit am Ende sowieso als Täter entlarvt und muss mit hohen Strafen rechnen. Verdient ein Musiker bereits Geld mit seiner Musik, sind darin auch andere Teilhaber involviert. Weder der Künstler, noch andere beteiligte Rechteinhaber, würden sich einen Betrug durch geistigen Diebstahl gefallen lassen. Um solche Fälle gar nicht erst so hochzuspielen, werden sie häufig auch außergerichtlich durch hohe Zahlungen an die Betroffenen geschlichtet. Meist liegt die Angst vor Ideenklau nur an der äußerst positiven Beurteilung der eigenen Komposition und der gleichzeitigen Angst vor finanziellen Nachteilen, die durch einen geistigen Diebstahl entstehen könnten. Es soll niemand davon abgehalten werden, an die Qualität seiner Kompositionen zu glauben und seine Stücke entsprechend zu schützen. Die Erfolgsquoten von Betrügern sind in der Praxis minimal und sicherlich wird jemand, dem es um Geld geht, mit allen anderen Betrugsarten mehr Erfolg erzielen, als mit dem Plagiieren von Musik.

168

Anhang

Anhang
432 Hertz – Musik in neuen Tönen
Argumente für einen neuen Kammerton mit a1=432 Hz Musiker stimmen ihre Instrumente nach einem Bezugston, – den sog. Kammerton. Erst dadurch wird ein harmonisches Zusammenspiel möglich. Da es für diesen Kammerton immer mal wieder unterschiedliche Definitionen gab, einigte man sich 1939 in der Londoner Stimmtonkonferenz darauf, den Kammerton mit a1=440 Hz festzulegen. Diese Wahl war rein willkürlich und wurde teils heftig kritisiert, jedoch fand dies in den anschließenden Wirrungen des 2. Weltkrieges schließlich keine Beachtung mehr. Seitdem wird bevorzugt auf dieser Stimmung musiziert, aber nicht alle folgten dieser Einigung: Z. B. benutzen einige Orchester eine höhere Stimmung, um einen brillanteren Klang zu erzielen oder Intonationsprobleme bei Blasinstrumenten korrigieren zu können. In den USA wird bisweilen gar mit einem Kammerton von a1=450 Hz gearbeitet. 1950 setzte die Pariser Académie des Sciensces den Kammerton für Frankreich auf a1=432 Hz herab. Aber auch zu früheren Zeiten wurde ein Kammerton unterhalb von 440 Hz gewählt. Mozarts Stimmgabel war z. B. auf 421.6 Hz geeicht. Giuseppe Verdi (1813–1901) erließ 1884 ein Dekret, was die Musiker anwies, den Kammerton mit c= 126 Hz zu definieren, ( – dies entspricht a1 mit 432 Hz!). Würde deshalb Musik basierend auf einen tieferen Kammerton als 440 Hz nicht auch in den meisten Fällen eher den ursprünglichen Klangvorstellungen der damaligen Komponisten gerecht werden? Die Funde alter ägyptischer Instrumente zeigen, dass auch hier überwiegend Stimmungen genutzt wurden, die a1 mit 432 Hz entsprachen, – ebenso die Instrumente der alten Griechen und vieler anderer Urvölker. Auch die Instrumente des indischen Raumes waren und sind auf Frequenzen basierend auf 432 Hz gestimmt. – Selbst der berühmte Ton "Om" basiert auf dieser Schwingung, er wird auch als Erdton bezeichnet, da er sich aus der Eigenschwingung der Erde ableitet. a1=432 Hz war auch der alte . Warum also wird seit Urzeiten eine Stimmung bevorzugt, die tiefer liegt als 440 Hz und warum kristallisieren sich dabei gerade die 432 Hz so sehr heraus? Die Ursache hierfür liegt in den menschlichen Hörgewohnheiten und in unserer Biologie. So schwingt das Cortische Organ (lat.="organon spirale") im Innenohr, welches auch für den Gleichgewichtssinn verantwortlich ist, auf c 126 Hz (dies entspricht a1 mit 432 Hz!) Ohrenärzte und Neurologen nutzen Stimmgabeln mit c 126 Hz bzw. c 256 Hz. In der Musiktherapie werden solche Schwingungen eingesetzt, da sie eine sedierende (entspannende) Wirkung hervorrufen und somit Schmerzen und Stress auflösen können. – Die gesundheitsfördernde Wirkung des Kammertons mit a1 432 Hz ist in der Schulmedizin mittlerweile allgemein anerkannt. Joseph Sauveur (1653–1716) konnte beweisen, dass sich aus der Frequenz c=256 Hz auch die Schwingungszahlen der Stimmbänder beim Singen und die der Lippen beim Blasen und Pfeifen ableiten lassen, sowie alle Eigentöne mittönender Resonanzkörper, die Hohlräume im menschlichen Körper und selbst die kaum wahrnehmbar kleinen Intervalle des Vogelgesanges. Musik auf 432 Hz ist imstande alle Obertöne hervorzubringen, wohingegen Musik auf 440 Hz nur acht Obertöne durchkommen lässt. Auch der Mathematiker Johannes Kepler (1571–1630) ermittelte für den optimalen Kammerton das C mit 126 Hz (und somit 432 Hz für a1!)

169

Die Zahl 432 begegnet einem auch im Maßstab vieler Bauwerke alter Hochkulturen und sogar bei der Gizehpyramide wieder. Der Maßstab der Pyramide beträgt 1:43.200 und eine Seitenlänge 432 Erdeinheiten. 43.200 ist zudem genau die Hälfte der Sekunden eines Tages und beschreibt damit den Zeitraum von 12 Stunden, – also einer halben Erdumdrehung.35 Was haben diese Frequenzen gemeinsam? All diese Frequenzen sind auch ein Vielfaches von 8 Hz. Viele Phänomene unserer Welt scheinen auf 8 Hz getaktet zu sein: Die Frequenz der Erde (Schumann Frequenz) beträgt 8 Hz und auch die gemessene Kommunikation zwischen den Gehirnhälften mittels der Alphawellen erfolgt mit 8 Hz! Der zu 90 % ungenutzte Neocortex des Gehirns wird durch Schwingungen basierend auf 8 Hz vollständig aktiviert. Im Institute of Heartmath (USA) wurde festgestellt, dass ein menschliches Herz im Zustand der Liebe auf 8 Hz schwingt. Der Atomphysiker Dr. Robert Beck ist um die ganze Erde gereist, um die Gehirnströme von Heilern zu messen. Er kam zu dem Ergebnis, dass alle Heiler während ihrer Heilarbeit das gleiche Gehirnwellenmuster von 7.8 bis 8 Hz aufwiesen, – unabhängig von ihrer Methode. Delphine sind theoretisch dank ihres hoch entwickelten Gehörs dazu fähig, diese 8 Hz und somit auch unsere Gehirnaktivität zu hören. Menschen hingegen können nur ein Vielfaches dieser Frequenz wahrnehmen. (Die 64 Codons der DNA geben einen indirekten Verweis zur Zahl 8, denn 64 ist die Summe von 8 x 8. Eine weitere auf 8 Hz basierende Schwingung ist 72 Hz, – auch hier gibt es Auffälliges: So gelangt Blut am leichtesten in die endokrinen Drüsen, wenn es mit 72 Schlägen/Minute arbeitet, – dies entspricht dem normalen Herzschlag. Die Zahl 72 findet man auch noch bei anderen wichtigen Phänomenen, so ändert sich der sog. "Frühlingspunkt" durch die Pendelbewegung der Erdachse alle 72 Jahre um einen Grad.36 Bei den Meru-Pyramide von Borobodur in Java findet man 72 Stuppas (und 432 Buddhas!) und in der jüdischen Kabbala ist die Rede von 72 Gottesnamen.) Es wurde in der Praxis anhand zahlreicher Beispiele festgestellt, dass sich im Gegensatz zu höheren Stimmungen viel leichter und natürlicher auf Basis des Kammertons a1=432 Hz singen lässt. – Das kann jeder Sänger an sich selbst überprüfen. Interferenz- und Inharmonizitätswerte im Klangspektrum wirken bei der Stimmung auf 432 Hz belebend. Dies mag subjektiv sein, lässt sich aber auch durch Fallstudien untermauern und im Selbstversuch zeigen. Klanganalysen des Klavierbauers Andreas Weng bestätigen, dass in sich geschlossene Spannungsbögen im gesamten Klangbild37 am intensivsten bei der Stimmung auf a1 mit 432 Hz und ähnlichen Stimmungen vorkommen.

35Zur

Vertiefung: Eben diese Zahl 12 hatte in vielen Kulturen eine wichtige Bedeutung. Beispiele der Verwendung der 12 sind die 12 Monate im Jahr, zweimal 12 Stunden pro Tag, 12 Tierkreiszeichen, 12 Zeichen in der chinesischen Astrologie. In vielen europäischen Sprachen gibt es extra eigene Zahlennamen für 11 ("elf") und 12 ("zwölf"). Dies weist, wie auch die Verwendung des Dutzend, auf eine breite Verwendung der Basis 12 hin. Zusätzlich hat die 12 die Eigenschaft, durch relativ viele Zahlen teilbar zu sein (2, 3, 4, 6), was ihre Verwendung als Größeneinteilung (z. B. bei Zoll und Fuß) zur Folge hatte.
36Der

Frühlingspunkt ist die geozentrisch beobachtete Sonnenposition zur Tag-und-Nacht-Gleiche im Frühling. zählen das Teiltonspektrum und seine Überlagerungen, die jeweiligen Hüllkurven, Interferenz- und Inharmonizitätswerte etc.
37Dazu

Bässe und Mitten gewinnen mehr an Prägnanz und die Höhen wirken musikalischer und reiner. – Diese Erfahrungen bestätigen viele, sobald sie ihre Instrumente auf den Bezugston 432 Hz einstimmen. Das Schillerinstitut setzt sich heute erfolgreich für die Darbietung von Musik in dem von Verdi damals geforderten Stimmton auf Basis von 126 Hz ein. In einer Publikation des Institutes aus dem Jahre 1992 namens "A Manual on the Rudiments of Tuning and Registration, Vol. I, Introduction and Human Singing Voice" wird demonstriert, dass ein Kammerton von c=256 (entspricht a1=432 Hz) in den physikalischen Gesetzen unseres Universums begründet ist. Das Schillerinstitut setzt sich zusammen mit zahlreichen Musikern dafür ein, den Kammerton auf die von Verdi geforderte Stimmung zu bringen, um somit die klassische Musik von Bach bis hin zu Verdi, wieder so klingen zu lassen, wie sie klingen sollte. Der weltberühmte Verdi Bariton Piero Cappuccilli hat zudem eindeutig bewiesen, wie nachteilig die heutige Stimmung von 440 Hz für den Gesang ist. Auch viele zeitgenössische Musiker haben bereits die Vorteile von Musik auf 432 Hz erkannt. Heutzutage lässt sich nahezu jedes Instrument leicht auf den Kammerton von 432 Hz einstimmen.

Nachwort
Dieser Ratgeber sollte anfangs nur ein einziges Thema beinhalten: Mastering. Doch die Beschränkung auf dieses Thema genügt nicht, um ein gutes Mastering zu realisieren. Das Mastering ist eben nur die "Glasur auf dem Kuchen" und sollte deswegen auch mindestens im Zusammenhang mit dem Mixing betrachtet werden. So wurde dieses Buch ein Mixing- UND Mastering-Ratgeber und verhilft dadurch sehr viel besser, die eigenen Produktionen zu "meistern", als wenn nur ein Thema abgedeckt worden wäre. Es ist damit das einzige mir bekannte Buch, dass die Themen Mixing und Mastering innerhalb eines Buches wirklich ohne Abstriche beschreibt. Ebenso habe ich mich bemüht, besonders die Grundlagen in Tontechnik und Raumakustik zu vermitteln, die für das Mixing und Mastering relevant sind. Selbst wenn mancher hierbei Definitionen über Skalierungen von Peakmetern als unnötigen theoretischen Ballast empfinden mag, ist dieses Wissen sehr nützlich, sobald man mit Studiohardware bzw. im Tonstudio arbeitet. Dieser Guide bedient sich nicht der zwar sehr anerkennenswerten, aber oft wenig sinnvollen Beigabe von Hörproben. – Eine beiliegende CD oder DVD mit Hörproben oder gar Videos mag ja für sich einen Mehrwert zu einem Buch darstellen, besitzt aber oft weniger Nutzen, als man annimmt: Beispielproduktionen erfordern immer mehr oder wenig andere Bearbeitungsschritte und Arbeitsabläufe als bei der eigenen Produktion. Ebenso werden für Hörproben häufig perfekt aufgenommene Signale als Ausgangsmaterial genommen. Die Signale werden dabei unter anderer Raumakustik und zumeist mit anderem Equipment aufgenommen, als man selber besitzt. Somit ist einem also nicht viel geholfen, wenn man z. B. die EQ-Einstellungen einer Fremdproduktion vorgeführt bekommt. Filtert man aber die grundsätzlichen Vorgehensweisen heraus, so gelangt man zu nichts anderem als dem Wissen, das hier vermittelt wird – und das lässt sich auf jede Produktion übertragen. Manche Leser wollen eine Mixing- und Mastering-Anleitung, die sich an ihrem eigenen Audio-Sequenzer orientiert. Solche Anleitungen sind jedoch oft nur ein Aufbrühen und Vertiefen der Bedienungsanleitung des jeweiligen Audio-Sequencers. Ich bin davon überzeugt, wenn man die Disziplin aufbringt, die jeweilige Bedienungsanleitung zumindest rudimentär zu lesen, wird man sich mit seinem Sequenzer genügend gut auskennen, um alle Arbeitsschritte darauf übertragen zu können. Manchmal möchte man auch einmal den Workflow anderer Sequenzer ausprobieren und wird eventuell zum Entschluss kommen, umzusteigen. – Sollte man dann wieder extra ein neues Buch kaufen müssen, dass das Mixing und Mastering speziell im Rahmen des neuen Sequenzer-Programms beschreibt? Ich denke, das wäre nicht der richtige Ansatz. Die wirklich wesentlichen Punkte der Audiobearbeitung behalten (unabhängig von Sequenzer-Versionen) immer ihre Gültigkeit. Man hat wesentlich mehr Freiheit, wenn man sein Know-how selbstständig auf jede Arbeitsumgebung (ob Software oder Hardware) übertragen kann. Es gibt Leute, die haben zu diesem Thema zwei, drei Bücher gelesen und kommen sich bereits ausgelernt vor. Doch dieses Thema ist so mannigfaltig, dass man immer wieder Details dazulernen kann und wird. Ein guter Autor macht sich dabei auch immer wieder selber zum Schüler!

Diese Bücher zeichnet besonders ihre klare Organisation und Gliederung aus. Ein Leser schrieb mir mal, dass er sich dieses Buch während seines Studiums an der SAE gewünscht hätte. Mit Sicherheit zeigt diese Bemerkung zumindest, dass mein Ansatz Früchte getragen hat, trotz aller Ausführlichkeit ein praxistaugliches Buch zu verfassen. Meine Guides sind aber im Grunde nur das, was ich mir selber "ganz am Anfang" gewünscht hätte, – aber nicht fand. Fehlinformationen, die z. B. aufgrund von Gerüchten, Halbwahrheiten oder auch einfach nur oberflächlich geschriebenen Büchern entstanden, haben jahrelang immer wieder zu vergeudeten Stunden und zu Frustration geführt. – Diese Frustration bleibt den Lesern des "Audio-Mastering-Guides" erspart. Dieser Guide soll einen Beitrag dazu leisten, Einsteiger von Anfang an auf den richtigen Zweig zu bringen – und Fortgeschrittenen noch hilfreich unter die Arme zu greifen. Absolute Profis werden ohnehin keinen Guide mehr benötigen.

Literatur
BERNDORF, GUNNAR ET AL. (2003) Musikrecht. Die häufigsten Fragen des Musikgeschäfts. 3. Auflg. Bergkirchen. DICKREITER, MICHAEL (1997): Handbuch der Tonstudiotechnik. München. Enders, Roland; Schulz, Andreas (1999): Das Homerecording Handbuch. München. FEY, FRITZ (2003): "Jenseits von 0 dBFS". In: Studiomagazin, Nr. 275. HENLE, HUBERT (2001): Das Tonstudio Handbuch. München. HÖMBERG, MARTIN (2000): Taschenlexikon Homerecording. Bergkirchen. KATZ, BOB (2002): Mastering. The art and science. Oxford (USA). OWSINSKI, BOBBY (1999): The mixing engineer`s handbook. Milwaukee (USA). PETSCHER, UDO (1991): Ohrenbarung in Hi-Fi. Weißenburg. Eigenverlag. SENGPIEL, EBERHARD (2001): Tutorials zur Mikrofonaufnahmetechnik, Elektro- und Psychoakustik. URL: http://www.sengpielaudio.com (Stand 12. April 2011) WENG, ANDREAS (2003): a weng à 432 Hz: Traktat zur Initiative à 432 Hz. Mannheim. Eigenverlag.

Bildquellen:
In diesem Buch sind ausschließlich Fotografien und Abbildungen enthalten, die entweder vom Autor selber angefertigt worden sind, oder die der Creative Commons Attribution 2.0 Generic License oder der Attribution-ShareAlike 3.0 Unported unterliegen oder für die der jeweilige Rechteinhaber ausdrücklich auf seine Urheberrechte an dem Foto verzichtet hat.

In diesem Buch wird das gesamte Wissen vermittelt, was man benötigt, um seine Stücke durch richtiges Mixing und Mastering professioneller klingen zu lassen. Mixing und Mastering sind Prozesse, die mit vielen anderen Themen der Audiobearbeitung verknüpft sind. Fehlt es dort an Hintergrundwissen, führt dies schnell zur falschen Arbeitsweise und dadurch zu mangelhaften Ergebnissen. Deswegen bedient dieses Buch, neben Mixing und Mastering, noch viele weitere Themenfelder: Raumakustik, Schalldämmung, Kenntnisse über Dynamikbearbeitung, Studiomonitore u.v.m. Der Audio-Mastering-Guide hilft dem Einsteiger Irrtümer im Bereich der Audiobearbeitung gar nicht erst entstehen zu lassen und lädt den Fortgeschrittenen zur Vertiefung ein. Das Wissen kann leicht auf die praktische Arbeit im Homerecording- und Studioalltag übertragen werden. Die Themen und Begriffe werden so beschrieben, dass ein roter Faden entsteht, der Gesamtzusammenhänge besser verständlich macht.