Sie sind auf Seite 1von 15

Entropiebasiertes Stimmen von Musikinstrumenten

Haye Hinrichsen

Universität Würzburg Fakultät für Physik und Astronomie D-97074 Würzburg, Germany

E-mail: hinrichsen@physik.uni-wuerzburg.de

Zusammenfassung. Das menschliche Gehör empfindet eine Kombination von Tö- nen als ’zueinander passend’ wenn die entsprechenden Obertonspektren korreliert sind, wenn also das neuronale Anregungsmuster im Innenohr eine erhöhte Ordnung aufweist. Ausgehend von dieser Hypothese wird vorgeschlagen, dass Musikinstrumente wie z.B. Klaviere durch Minimierung der Entropie ihrer Fourierspektren gestimmt werden kön- nen. Diese Methode liefert eine Stimmkurve, die nicht nur die korrekte Spreizung re- produziert, sondern auch ähnliche Fluktuationen wie beim Stimmen nach Gehör.

Übersetzung des engl. Originalartikels in Rev. Bras. Ens. Fis. 34, 2301 (2012).

1. Einführung

Westliche Tonsysteme basieren auf der gleichförmigen Stimmung, in der sich benachbarte Halbtöne um ein konstantes Frequenzverhältnis von 2 1/12 unterscheiden [1]. Das Stimmen von Tasteninstrumenten in gleichförmiger Stimmung nach Gehör ist eine anspruchsvolle Aufgabe und wird erreicht durch eine zyklische Iteration über bestimmte Intervalle, die systematisch gestaucht oder gestreckt werden. Heutzutage übernehmen elektronische Stimmgeräte diese Aufgabe, die automatisch den angeschlagenen Ton erkennen, seine Frequenz messen und die Abweichung vom theoretischen Wert der gleichförmigen Stimmung anzeigen. Benutzt man allerdings ein solches Gerät, um z.B. ein Klavier exakt in gleichförmiger Stimmung zu stimmen, wird sich das Instrument danach verstimmt anhören, obwohl die Frequenz eines jeden Tons exakt eingestellt ist. Dieser überraschende Effekt wurde zuerst von O. L. Railsback erklärt, der 1938 zeigte, dass dieser Eindruck durch die Inharmonizität des Obertonspektrums des Instruments verursacht wird [2]. Professionelle Klavierstimmer kompensieren diesen Effekt durch kleine Abweichungen von der gleichtemperierten Stimmung, eine Vorgehensweise, die man als Spreizung bezeichnet. Die Spreizung hängt vom jeweiligen Grad der Inharmonizität ab und kann als eine Stimmkurve dargestellt werden (siehe Abb. 1).

Da sich die Inharmonizität von Instrument zu Instrument unterscheidet, ist es äußerst schwierig, die korrekte Spreizung durch Berechnung vorherzusagen und

Entropiebasiertes Stimmen von Musikinstrumenten

2

Entropiebasiertes Stimmen von Musikinstrumenten 2 Abbildung 1. Typische Stimmkurve eines Flügels [3]. Die senkrechte

Abbildung 1. Typische Stimmkurve eines Flügels [3]. Die senkrechte Achse gibt an, wie stark sich jeder Ton vom mathematischen Wert der gleichtemperierten Stimmung unterscheidet. Die Abweichungen werden, wie in der Stimmpraxis üblich, in Cent angegeben, wobei ein Cent als als 1/100 eines Halbtons definiert ist, was einem Frequenzverhältnis von 2 1/1200 1.0005778 entspricht.

in elektronischen Stimmgeräten zu implementieren. Bei einigen Geräten lassen sich je nach Art und Größe des Instruments typische vordefinierte Stimmkurven auswählen. Hochwertigere Geräte dagegen messen das individuelle Obertonspektrum ausgewählter Töne und berechnen die erforderliche Spreizung durch Korrelation höherer Harmonischer. Obwohl diese Methode zu brauchbaren Resultaten führt und auch zunehmend von professionellen Klavierstimmern eingesetzt wird, sind dennoch die meisten Musiker davon überzeugt, dass elektronische Stimmverfahren mit der Arbeit erfahrener Klavierstimmer nicht konkurrieren können. Damit stellt sich die Frage, warum das Stimmen nach Gehör den elektronischen Verfahren überlegen ist.

Wenn man die Frequenzen eines nach Gehör gestimmten Klaviers misst, stellt man überrascht fest, dass die Stimmkurve keineswegs glatt ist, vielmehr wird die globale Spreizkurve durch unregelmäßige Fluktuationen von Ton zu Ton überlagert (siehe Abb. 1). Auf den ersten Blick möchte man meinen, dass diese Fluktuationen zufällig sind und auf die natürliche Ungenauigkeit des menschlichen Gehörs zurückgeführt werden können. Allerdings weisen die in dieser Arbeit vorgestellten Resultate darauf hin, dass das Gegenteil der Fall sein könnte, d.h. die Fluktuationen sind vermutlich nicht rein zufällig, sondern sie reflektieren die spezifischen Unregelmäßigkeiten im Obertonspektrum des jeweiligen Instruments und könnten deshalb eine entscheidende Rolle für die Qualität einer Stimmung spielen. Vermutlich kann unser Ohr einen viel besseren Kompromiss in diesem hochdimensionalen Raum der Obertonspektren finden als die heute verfügbaren elektronischen Stimmgeräte.

Um diese Fluktuationen besser zu verstehen, wird in dieser Arbeit gezeigt,

Entropiebasiertes Stimmen von Musikinstrumenten

3

dass ein Musikinstrument durch Minimierung eines geeigneten Entropiefunktionals gestimmt werden kann. Diese Hypothese setzt voraus, dass ein komplexer Klangeindruck als ‘angenehm’, ‘harmonisch’ oder ‘richtig gestimmt’ empfunden wird, wenn die resultierende neuronale Anregung im Innenohr geordnet ist, wenn also die Shannon- Entropie des Anregungsmusters minimal ist. Die Hoffnung besteht darin, dass solche eine Entropie-basierte Methode zu einem besseren Kompromiss zwischen der Vielzahl der miteinander in Schwebung befindlichen Obertöne führen kann als ein bloßer Vergleich ausgewählter Spektrallinien.

2. Harmonisches Spektrum, Tonleitern und Temperamente

Musikinstrumente produzieren Schallwellen

mit einer großen Anzahl von Fourierkompo- menten. Das einfachste Beispiel ist das Spek- trum einer schwingenden Saite [5]. Je nach Anregungsmechanismus findet man sowohl die Grundschwingung mit der Frequenz f 1 als auch eine große Anzahl von Obertönen mit den Fre-

quenzen f 2 , f 3 ,

Für eine ideale (unendlich

dünne) Saite sind die Obertonfrequenzen ein- fach durch Vielfache der Grundfrequenz gege-

ben, d.h.

f n

=

nf 1 .

(1)

der Grundfrequenz gege- ben, d.h. f n = nf 1 . (1) Abbildung 2. Oberschwingungen einer

Abbildung 2.

Oberschwingungen einer Saite [4].

Ein solches linear organisiertes Obertonspek- trum bezeichnet man als harmonisch.

Da harmonische Obertonreihen in der Natur allgegenwärtig sind, bevorzugt unser Gehör Intervalle mit einfachen Frequenzverhältnisssen, da hier die Obertonreihen der beteiligten Töne teilweise zusammenfallen. Beispiele sind die Oktave (2:1), die Quinte (3:2) und die Quarte (4:3), die in allen Musikkulturen eine zentrale Rolle spielen. Auf der anderen Seite sind aber die Noten einer Tonleiter in einem Schema organisiert, das sich von Oktave zu Oktave wiederholt. Da sich die Frequenz von Oktave zu Oktave verdoppelt, nimmt die Frequenz also exponentiell von Note zu Note zu. Diese exponentiell organisierte Struktur einer sich in Oktaven wiederholenden Tonleiter gerät damit zwangsläufig in Konflikt mit dem linear organisierten Spektrum der Obertöne. Ein Tonsystem ist gewissermaßen ein Kompromiss mit dem man versucht, diese sich widersprechenden Ordnungsstrukturen miteinander zu vereinen, indem die Frequenzen der Töne so gewählt werden, dass möglichst viele der Obertöne in den Intervallen korreliert werden. Wie in Abb. 3 gezeigt wird, gelangt man so auf natürliche Weise zu der sogenannten heptatonischen (siebentönigen) Tonleiter, die in den meisten Kulturkreisen verwendet wird. In der westlichen Musik werden die sieben Töne (die

Entropiebasiertes Stimmen von Musikinstrumenten

4

weißen Klaviertasten) durch fünf Halbtöne (schwarze Klaviertasten) ergänzt, wodurch die Oktave in zwölf ungefähr gleich große Intervalle unterteilt wird.

Da die zwölf Töne einen Kompromiss zwischen den arithmetisch geordneten Obertonreihen und der exponentiell organisierten Tonleiter darstellen, sind die Intervallgrößen nicht eindeutig festgelegt, sondern können in gewissen Grenzen variiert werden. Im Lauf der Jahrhunderte hat diese Freiheit zur Entwicklung verschiedener Stimmschemata, sogenannter Temperamente geführt, welche die harmonische Reihe in unterschiedlichem Maße approximieren. Ein Extremfall ist die sogenannte reine Stimmung, mit der versucht wird, möglichst viele Obertöne exakt zur Deckung zu bringen und die deshalb ganz und gar auf einfachen rationalen Frequenzverhältnissen basiert. Wie in Abb. 3b gezeigt wird, stimmt die reine Stimmung weitgehend mit den Obertönen eines geeignet gewählten Grundtons überein. Allerdings ist diese Stimmung nicht äquidistant in einer logarithmischen Darstellung, d.h. die sie ist nicht invariant unter Verschiebungen der Tonart (Transpositionen). Aus diesem Grunde funktioniert die reine Stimmung nur in der jeweiligen Grundtonart (z.B. C-Dur), während sich in allen anderen Tonarten ein mehr oder weniger verstimmter Eindruck ergibt.

Mit der zunehmenden Komplexität westlicher Musik und der Entwicklung anspruchsvoller Tasteninstrumente wie Cembali, Orgeln und Klaviere benötigte man flexiblere Temperamente, mit denen ein Tonartwechsel möglich wird, ohne das Instrument erneut umstimmen zu müssen. Auf der Suche nach einem besseren Kompromiss zwischen Reinheit (rationalen Frequenzverhältnissen) und Tonartunabhängigkeit (Invarianz unter Transposition) wurden verschiedene Schemata entwickelt, darunter die berühmte mitteltönige Stimmung der Renaissance und die wohltemperierte Stimmung der Barockzeit. Seit dem 19. Jahrhundert basiert die westliche Musik vorwiegend auf der oben erwähnten gleichtemperierten Stimmung, die vollständig invariant unter Tonartwechseln ist. In der gleichtemperierten Stimmung unterscheiden sich die Frequenzen benachbarter Halbtöne um den irrationalen Faktor 2 1/12 , so dass die Spektrallinien der Obertöne in einer logarithmischen Darstellung einen konstanten Abstand haben (siehe Abb. 3c). Allerdings bezahlt man dafür den Preis, dass sich alle Intervalle mit Ausnahme der Oktave leicht verstimmt anhören, der Grad der Verstimmung jedoch nicht von der gewählten Tonart abhängt. Anscheinend hat sich unsere Zivilisation im Lauf der Zeit daran gewöhnt, diese Diskrepanzen zu tolerieren.

3. Inharmonizität

Das lineare Gesetz f n = nf 1 der harmonischen Obertonreihe ist streng genommen nur für ideale Oszillatoren gültig, deren Zeitentwicklung durch eine Differentialgleichung zweiter Ordnung gegeben ist. In realen Musikinstrumenten gibt es jedoch Korrekturen höherer Ordnung im Kraftgesetz, die zu kleinen Abweichungen im Obertonspektrum führen. Der Grad dieser sogenannten Inharmonizität bestimmt den Charakter des Instruments sowie einen Großteil der Farbe und Textur seines Klangs.

Entropiebasiertes Stimmen von Musikinstrumenten

5

Entropiebasiertes Stimmen von Musikinstrumenten 5 (a) (b) (c) 300 400 440 500 (a) (b) (c) 10
(a) (b) (c) 300 400 440 500 (a) (b) (c) 10 20 30 50 100
(a)
(b)
(c)
300
400
440
500
(a)
(b)
(c)
10
20
30
50
100
200
300
500

f [Hz]

Abbildung 3. Harmonische Obertonreihe im Vergleich mit der reinen und der gleichtemperierten Stimmung in logarithmischer Darstellung. Unterer Teil: (a) Grundfrequenz f 1 = 11 Hz mit der dazugehörigen harmonischen Obertonrei- he. (b) Reine Stimmung in C-Dur, die nicht-äquidistante Frequenzverhältnissen besitzt. (c) Gleichtemperierte Stimmung mit äquidistanten Frequenzverhältnis- sen. Der obere Teil der Abbildung zeigt eine Vergrößerung der Oktave C4-C5. Wie man sehen kann, stimmt die heptatonische Tonleiter (die weißen Klavier- tasten, fette Striche) der reinen Stimmung in (b) exakt mit der Obertonreihe in (a) überein, während die Halbtöne (schwarze Tasten, dünne Linien) nicht übereinstimmen. Im Gegensatz dazu weicht die gleichtemperierte Stimmung (c) in allen Tönen (mit Ausnahme von A440) von der Obertonreihe (a) ab, aber dafür ist diese Stimmung in der logarithmischen Darstellung jedoch äquidistant und deshalb invariant unter Verschiebungen (Transposition) der Tonart.

Die Inharmonizität entsteht dadurch, dass eine Saite ein Mittelding zwischen einer idealen Saite und einem Stab ist. Eine ideale Saite gehorcht der partiellen Differentialgleichung y¨ ∝ −y mit einer linearen Dispersionsrelation f ∝ |k|, während die Schwingung eines steifen Stabs durch die Differentialgleichung vierter Ordnung y¨ ∝ −y mit einer quadratischen Dispersionsrelation f k 2 gegeben ist. Daraus folgt, dass die Steifigkeit einer realen Saite zu einer Korrektur niedrigster Ordnung von der Form

y¨ ∝ −y y

f 2 k 2 + k 4

(2)

in der Bewegungsgleichung führt, so dass das Obertonspektrum der Saite durch

f n

n f 1 1 + Bn 2 ,

n = 1, 2,

(3)

gegeben ist, wobei f 1 die Grundfrequenz und f n die Obertonfrequenzen bezeichnet. Die

Entropiebasiertes Stimmen von Musikinstrumenten

6

-2 (a) 10 -3 10 -4 10 100 1000 Inharmonicity B
-2
(a)
10
-3
10
-4
10
100
1000
Inharmonicity B

f [Hz]

0 10 -1 10 (b) -2 10 -3 10 -4 10 -5 10 -6 10
0
10
-1
10
(b)
-2
10
-3
10
-4
10
-5
10
-6
10
-7
10
0
200
400
600
800
1000
f [Hz]
Intensity I [arb. units]

Abbildung 4. Links: Inharmonizitätskoeffizienten B eines Klaviers. Die zwei getrennten Abschnitte der Daten entsprechen den diagonal gekreuzten Sektionen der Saiten. Rechts: Leistungsspektrum des tiefsten Tons eines Klaviers. Der rote Pfeil markiert die Grundfrequenz von 27.5 Hz. Die blauen Pfeile weisen auf besonders schwache Obertöne hin, die wegen der Position des Hammers an einem Knoten der entsprechenden Schwingungsmode unterdrückt sind.

Knoten der entsprechenden Schwingungsmode unterdrückt sind. Abbildung 5. Ideales harmonisches Spektrum der Obertonreihe

Abbildung 5. Ideales harmonisches Spektrum der Obertonreihe in einer linearen Darstellung. Die Oktave wird als klanglich angenehm empfunden, weil jeder zweite Oberton des höheren Tons mit einem Oberton des tieferen Tons exakt übereinstimmt.

dimensionslose Konstante B ist der sogenannte Inharmonizitätskoeffizient, der von phy- sikalischen Parametern wie Länge, Durchmesser, Spannung und Materialeigenschaften der Saite abhängt. In einem Flügel bzw. Klavier variiert der Wert von B etwa von 0.0002 im Bass bis zu 0.4 im Diskant (siehe linke Tafel in Abb. 4). Eine starke Inharmonizität verursacht einen unangenehmen fremdartigen Klang, wie man ihn von einem Hackbrett kennt. Ein wesentlicher Aspekt in der Kunst des Klavierbaus ist es, die Inharmonizität so gleichmäßig wie möglich zu halten.

4. Wie Stimmung wahrgenommen wird

Wie bereits eingangs erwähnt wurde, empfindet das menschliche Gehör Intervalle mit einfachen rationalen Frequenzverhältnissen als angenehm. In diesem Zusammenhang ist es wichtig zu verstehen, dass das menschliche Ohr überhaupt nicht in der Lage ist, die

Entropiebasiertes Stimmen von Musikinstrumenten

7

Grundtöne direkt zu vergleichen, vielmehr erkennt unser Gehör lediglich Koinzidenzen in den Obertonspektren. Wenn wir z.B. eine Oktave A2-A3 hören, vergleicht unser Ohr

die Obertöne 2,4,6,

und nimmt die Oktave als ‘richtig gestimmt’ wahr, wenn beide harmonischen Reihen einrasten (siehe Abb. 5).

Hat man es allerdings mit inharmonischen Korrekturen zu tun, so ist es nicht mehr möglich, beide Reihen exakt zur Deckung zu bringen. In diesem Fall sucht unser Ohr nach dem bestmöglichen Kompromiss, wobei es die Frequenzdifferenzen zwischen fast übereinstimmenden Obertönen zu minimieren versucht. Diese kleinen Differenzen werden als Schwebungen wahrgenommen, d.h. als Überlagerung langsamer Modulationen der Einhüllenden mit Frequenzen von einigen Hertz. Ein Klavierstimmer nimmt diese Modulationen wahr und versucht, sie soweit wie möglich zu minimiren oder zumindest zu einem guten Kompromiss zu gelangen.

des höheren Tons

des tieferen Tons mit den Obertönen 1,2,3

Wie in Abb. 6 beispielhaft gezeigt wird, kann beim Stimmen einer Oktave ein solcher Kompromiss erzielt werden, indem man die Frequenz des oberen Tons geringfügig anhebt. Wir empfinden also die Oktave als richtig gestimmt, wenn sie im mathematischen Sinn leicht verstimmt ist. Diese Korrektur, die sogenannte Spreizung, spielt eine zentrale Rolle in der Praxis des Stimmens, selbst wenn die Inharmonizität des Instruments relativ klein ist.

5. Funktionsweise hochwertiger Stimmgeräte

Heutzutage werden auf dem Markt hochpreisige elektronische Systeme angeboten, die die geeignete Spreizung für jedes Instrument individuell vorausberechnen können. Die genaue Funktionsweise ist dieser proprietären Systeme ist nicht bekannt, doch geht man im allgemeinen davon aus, dass bei diesen Verfahren ausgewählte Obertöne zur Deckung gebracht werden. Dazu werden einige Töne des Instruments aufgenommen und die entsprechenden Inharmonizitätskoeffizienten durch Vermessen der Obertonspektren bestimmt. Anschließend wird die Spreizung berechnet, indem man z.B. eine Folge von Oktaven derart dehnt, dass die vierte Harmonische des niedrigen Tons mit der zweiten

harmonic: B=0

inharmonic: B=0.02

A3 A2 A3 A2 A3 (stretched) 110 220 330 440 550 660 770 880
A3 A2
A3
A2 A3 (stretched)
110
220
330
440
550
660
770
880

f [Hz]

Abbildung 6. Ausgleich der Inharmonizität durch das Spreizen von Oktaven (siehe Text).

Entropiebasiertes Stimmen von Musikinstrumenten

8

Harmonischen des oberen Tons zusammenfällt (4:2-Stimmung).

Mathematisch kann man dieses Verfahren folgendermaßen formulieren: Wenn man

die Tasten des Klaviers mit k = 1

Harmonische der k-ten Saite bezeichnet, erhält man mit dieser 4:2-Methode K 12

(k) die n-te

K durchnummeriert und mit f

n

Gleichungen für die Spreizungen in der Form

f

(k+12)

1

f

(k)

1

=

r

(k)

4

r

(k+12)

2

,

(4)

1 (k) das Verhältnis der n-ten Harmonischen in Bezug auf die

wobei r n = f

Grundfrequenz der Saite ist. Durch Logarithmierung erhält man so ein System von

1 (k) . Die übrigen

12 Unbekannten werden durch den Kammerton A440 und die Wahl des jeweiligen Temperaments bestimmt. Eine gleichtemperierte Stimmung kann man z.B. erzeugen, in dem man eine quadratische Kostenfunktion für variierende Frequenzabstände zwischen Halbtönen hinzufügt. Durch das Lösen dieser Gleichungen kann man also die gemessenen Inharmonizitäten direkt in eine Stimmkurve übersetzen. Wenn die Inharmonizität (als Funktion des Tastenindex) eine stückweise glatte Funktion ist (wie die in Abb. 4 gezeigte Kurve), wird die Stimmkurve ebenfalls stückweise glatt sein. Ebenso kann man ein 6:3- Stimmschema verwenden, das zu einer noch ausgeprägteren Spreizung führt. Die Größe der Spreizung insgesamt ist also nicht strikt festgelegt, sondern vielmehr eine Frage des musikalischen Geschmacks. Einige Computerprogramme interpolieren sogar zwischen dem 4:2- und 6:3-Verfahren, um so zu einem akzeptablen Kompromiss zu gelangen.

Indem man also die Spreizung direkt durch Vergleich bestimmter Obertöne berechnet, erhält man wie bereits erwähnt stückweise glatte Stimmkurven. Menschliche Klavierstimmer produzieren dagegen Stimmkurven mit ausgeprägten Fluktuationen in der Spreizkurve, insbesondere im Bass und im Diskant. Die wesentliche Botschaft dieser Arbeit ist die Vermutung, dass diese Fluktuationen nicht zufällig sind, sondern im Gegenteil eine wesentliche Rolle für eine hochqualitative Stimmung spielen.

Die Fluktuationen haben vermutlich verschiedene Gründe. Einerseits ist jede Ober- schwingung unterschiedlich stark mit dem Resonator (Klangboden) des Instruments gekoppelt, was zu kleinen unterschiedlichen Frequenzverschiebungen im Vergleich zu Gleichung (3) führen kann. Ein weiterer Grund mag die unterschiedliche Intensität der Obertöne sein. Wie man auf der rechten Tafel von Abb. 4 erkennen kann, umfasst das Spektrum einer Klaviersaite eine Vielzahl von Obertönen, wobei benachbarte Obertö- ne in ihrer Intensität durchaus um mehr als eine Größenordnung schwanken können. Darüber hinaus sind bestimmte Obertöne (markiert durch die blauen Pfeil in der Abbil- dung) stark unterdrückt, was man damit erklären kann, dass der Hammer den Knoten der entsprechenden Vibrationsmode der Saite trifft. Dies alles legt nahe, dass in realen Situationen der Eindruck einer guten Stimmung nicht nur von den Frequenzen, sondern auch von den Intensitäten der Obertöne abhängt.

K 12 linearen Gleichungen für K unbekannte Grundfrequenzen f

k

(k) /f

n

Entropiebasiertes Stimmen von Musikinstrumenten

9

6. Psychoakustische Aspekte

Da das Stimmen eines Musikinstruments als Suche nach einem Kompromiss für möglichst gute Übereinstimmung von Obertönen interpretiert werden kann, wird dieser Vorgang wesentlich von akustischen und psychoakustischen Eigenschaften des Innenohres abhängig sein. Die Psychoakustik ist ein eigenes Forschungsgebiet (siehe z.B. [6–8]) und spielt eine entscheidende Rolle z.B. in der Entwicklung verlustbehafteter Kompressionsmethoden wie z.B. MP3. Im Folgenden werden hier einige wichtige Elemente aus diesem Bereich, die zum Verständnis des Stimmens wichtig sind, skizziert.

Betrachten wir zunächst den Frequenzgang des Ohrs. Ausgangspunkt ist zunächst eine Schallwelle, also eine zeitabhängige Veränderung des Luftdrucks p(t). Deren komplexwertige Fouriertransformation ist durch

p˜(f) =

1 2π dt e 2πif t p(t) ,

(5)

gegeben, wobei p˜(f ) = p˜ (f ) ist. Das entsprechende Leistungsspektrum

I(f) = |p˜(f) 2 |

(6)

beschreibt die Energiedichte des Spektrums in Abhängigkeit von der Frequenz f . Als eine technologisch übliche Größe definiert man den logarithmischen Schalldruck (“sound pressure level“ SPL)

L(f ) = 10 log 10 I(f)

I

0

(7)

gemessen in Dezibel (dB), wobei die Intensität I 0 der Hörschwelle entspricht.

Der Schalldruck wird – abhängig von der jeweiligen Frequenz – mit einer mecha- nischen Anregung im Innenohr korreliert sein. Da der physikalische Übertragungsweg im Ohr hochgradig komplex ist, approximiert man diesen Zusammenhang üblicherwei- se durch bestimmte empirische Gewichtsfunktionen. Unterhalb von 55 dB wird häufig die sogenannte A-Gewichtung gemäß dem internationalen Standard IEC 61672:2003 be- nutzt, deren Filterfunktion durch

R A (f) =

12200 2 f 4

(f 2 + 20.6 2 )(f 2 + 12200 2 ) (f 2 + 107.7 2 ) (f 2 + 737.9 2 )

(8)

gegeben ist. Dies definiert den A-gewichteten Schalldruck (SPLA)

L A (f) = 2.0 + 20 log 10 R A (f) L(f )

(9)

in Einheiten von A-gewichteten Dezibel (dBA). Dieser gewichtete Schalldruck kann als ungefähres Maß der in der Cochlea deponierten Energie als Funktion der Frequenz interpretiert werden.

Entropiebasiertes Stimmen von Musikinstrumenten

10

Die Rezeptorzellen im Innenohr konvertieren die deponierte Energie in eine bestimmte neuronale Aktivität, welche dann die Wahrnehmung des Klangs in unserem Gehirn hervorruft. Diese neuronale Informationsverarbeitung ist noch um ein Vielfaches komplexer und nicht vollständig verstanden. Aus diesem Grund hat man ein psychoakustisches Maß für die subjektiv wahrgenommene Lautstärke eingeführt, nämlich die sogenannte Lautheit N (f ), die als empirische Größe gemittelt über viele Testpersonen zu verstehen ist. Der Literatur zufolge wird dieser Zusammenhang näherungsweise durch ein stückweise kombiniertes Exponential- und Potenzgesetz gut beschrieben:

N(f) =

2 (L A (f )40)/10

(L A (f )/40) 2.86

falls

falls

L

L A (f ) 40dBA

(f ) > 40dBA

A

(10)

Nicht nur die Empfindlichkeit des Ohres ist frequenzabhängig, sondern auch dessen Fähigkeit, Töne mit verschiedenen Frequenzen zu unterscheiden. In der Literatur werden verschiedene Maße für die Frequenzauflösung diskutiert, wobei der sogenannte “kleinste wahrnehmbare Unterschied” (engl. just noticeable difference (jnd)) die Rolle einer unteren Schranke spielt [6]. Die jnd wird üblicherweise durch

genähert.

f

=

3 Hz

0.006f

falls

falls

f 500 Hz f > 500 Hz

7. Entropiebasiertes Stimmverfahren

(11)

In diesem Abschnitt wird nun ein entropiebasiertes Stimmverfahren für Musikinstrumen- te vorschlagen. Da das Stimmen eines Instruments, wie wir gesehen haben, als Suche nach dem bestmöglichen Kompromiss für die Übereinstimmung von Obertönen verstan- den werden kann, liegt die Vermutung nahe, dass ein solcher Kompromiss durch eine minimale Entropie des Leistungsspektrums charakterisiert wird. Dies ist äußerst plausi- bel, da zwei überlappende Spektrallinien naturgemäß eine geringere Entropie aufweisen als zwei getrennte Linien (siehe Abb. 7).

Entropiebasiertes Stimmen von Musikinstrumenten

11

Entropiebasiertes Stimmen von Musikinstrumenten 11 Abbildung 7. Shannon-Entropie als Maß für die Übereinstimmung von

Abbildung 7. Shannon-Entropie als Maß für die Übereinstimmung von

Spektrallinien. Die Abbildung zeigt die Überlagerung zweier Gaußfunktionen, die zwei Obertöne repräsentieren sollen. Wenn die beiden Obertöne klar unterscheidbare Frequenzen besitzen, nimmt die (kontinuierliche) Entropie

f (x) log 2 (f (x))dx einen konstanten Wert H 4.094 an. Sobald

es aber zu einer teilweisen Überlappung kommt, die für den Klavierstimmer als Schwebung hörbar ist, nimmt die Entropie ab und erreicht schließlich ein Minimum (H 2.094 hier in diesem Beispiel) wenn die beiden Spektrallinien übereinstimmen.

H =

+

−∞

Um diesen Ansatz zu überprüfen, wurden alle 88 Töne eines nach Gehör gestimmten Klaviers aufge- nommen und deren Leistungsspek- tren berechnet. Die Spektren wur- den dann in einer logarithmisch or- ganisierten Diskretisierung reorga- nisiert, um so die Frequenzauflö- sung des Innenohres zu modellie- ren. Anschließend wurde die existie- rende Spreizung entfernt, indem al- le Grundfrequenzen auf gleichtem- perierte Stimmung zurückgesetzt wurden. Nach dieser Vorverarbei-

tung der Daten wurde der folgen- de in der statistischen Physik ge- bräuchliche Monte-Carlo-Algorithmus ausgeführt (siehe schematische Darstellung in Abb. 8, nähere technische Details sind im Anhang zu finden):

Abbildung 8. Monte-Carlo Algorithmus.

Anhang zu finden): Abbildung 8. Monte-Carlo Algorithmus. • Addiere die A-gewichteten Spektren aller 88 Töne und

Addiere die A-gewichteten Spektren aller 88 Töne und berechne die Entropie.

Ändere zufällig die Tonhöhe eines zufällig ausgewählten Tons und berechne die Entropie erneut.

Wenn die neue Entropie niedriger ist als die vorherige, behalte die Änderung der Tonhöhe bei, andernfalls verwerfe die Änderung und stelle die ursprüngliche Tonhöhe wieder her.

Entropiebasiertes Stimmen von Musikinstrumenten

12

pitch difference f [cents]

Dieser einfache Vorgang wird wiederholt, bis keine weitere Verbesserung erreicht wird, bis also der Algorithmus ein lokales Minimum der Entropie gefunden hat. Man beachte, dass durch das Aufaddieren aller 88 Töne die Methode alle Intervalle und Tonlagen gleichberechtigt behandelt, sich also nicht nur auf das Stimmen ausgewählter Oktaven beschränkt.

8. Diskussion

Abb. 9 zeigt die resultierende Stimmkurve im Vergleich mit dem Resultat einer Stimmung nach Gehör für ein Klavier. Wie man sehen kann, wird nicht nur die globale Spreizkurve in etwa richtig reproduziert, sondern man erhält auch Fluktuationen, die in beiden Kurven hochgradig korreliert sind, insbesondere im Bass und im Diskant. Anscheinend ist die entropiebasierte Methode in der Lage, ähnliche Abweichungen von der durchschnittlichen Spreizung zu produzieren wie bei einer Stimmung nach Gehör. Dies ist überraschend und noch nicht wirklich verstanden, aber es zeigt, dass diese Fluktuationen in gewissen Grenzen reproduzierbar sind und deshalb eine wesentliche Rolle in der Praxis des Stimmens spielen könnten.

Die Implementierung der Methode ist verhältnismäßig einfach. Die Töne des Instruments werden aufgenommen, Fourier-transformiert, wie oben beschrieben auf geeignete Weise gefiltert, logarithmisch diskretisiert, aufaddiert und von deren Summe schließlich die Entropie bestimmt. Eine explizite Identifizierung der Obertöne und eine Messung der Inharmonizitätskoeffizienten ist nicht erforderlich. Vielmehr berücksichtigt die Methode die Unregelmäßigkeiten des Instruments automatisch auf implizite Weise.

40 20 0 -20 -40 0 20 40 60 80 key index k
40
20
0
-20
-40
0
20
40
60
80
key index
k

Abbildung 9. Typisches Resultat des im Abschnitt 6 beschriebenen Stimmverfahrens (rote Kurve) im Vergleich mit dem Resultat einer Stimmung nach Gehör (schwarze Kurve).

Entropiebasiertes Stimmen von Musikinstrumenten

13

Allerdings ist die hier vorgestellte Methode unausgereift. Sie kann in vielfacher Weise modifiziert werden und eine systematische Untersuchung steht noch aus. Darüber hinaus wurde die Methode bislang nur mit einem einzigen Instrument getestet. Die wichtigsten offenen Fragen sind folgende:

Es gibt anscheinend eine große Anzahl lokaler Minima, so dass der oben skizzierte zufällig arbeitende Algorithmus zwar ähnliche aber nicht reproduzierbare Resultate liefert.

Die vorgestellten Monte-Carlo-Resultate basieren auf dem A-gewichteten Schall- druck (SPLA) in Gleichung (9). Wenn man anstatt dessen die Lautheit in Gl. (10) benutzt, erhält man unsinnig überspreizte Stimmkurven im Bass.

Die Spektren wurden logarithmisch diskretisiert in Einheiten von einem Cent. Dies modelliert eine Frequenzauflösung von einem Cent, was unter dem (jnd ) liegt. Faltet man allerdings die Daten mit einer frequenzabhängigen Gaußkurve gemäß dem erwarteten jnd in Gl. (11) erhält man keine besseren Resultate.

Fortgeschrittene Monte-Carlo-Methoden z.B. mit adiabatischer Abkühlung wurden bislang nicht getestet.

Anstatt die Spektren aller 88 Töne aufzuaddieren, kann man versuchen, nur eine Teilmenge aus Oktaven, Quarten und Quinten aufzuaddieren, womit die Praxis des Klavierstimmens nach Gehör imitiert wird. Dies destabilisiert die Methode und zerstört die gleichtemperierte Grundstimmung. Vermutlich wird durch die Summe über alle Töne sichergestellt, dass man in der gleichtemperierten Stimmung bleibt.

Als mögliche technische Realisierung wäre es interessant, eine hybride Methode zu entwickeln, mit der zuerst die glatte Stimmkurve durch Vergleich von Obertönen auf herkömmliche Weise ermittelt wird und anschließend die Fluktuationen durch die hier beschriebene entropische Methode optimiert werden. Damit vermeidet man das Problem, dass der Algorithmus in falschen lokalen Minima hängen bleibt.

Danksagung Ich danke der Universidade Federal do Rio Grande do Sul (UFRGS) in Porto Alegre, Brasilien, wo Teile dieser Arbeit entstanden sind, für die herzliche Gastfreundschaft. Diese Arbeit wurde finanziell durch den Deutschen Akademischen Austausch Dienst (DAAD) im Rahmen des Brasilianisch-deutschen Kooperationsprogramms PROBRAL unterstützt.

Appendix A. Technische Details

Datenaufnahme und Vorverarbeitung

(i) Zunächst werden alle Töne k = 1

K im WAV-Format einzeln aufgezeichnet.

Die binären PCM-Amplituden werden extrahiert und in eine Folge von

Entropiebasiertes Stimmen von Musikinstrumenten

14

(ii)

(iii)

(iv)

(v)

ST 1 konvertiert, wobei S = 44100

Hz die Abtastrate und T 20s die Aufnahmezeit ist.

Durch eine schnelle Fouriertransformation (Softwarepaket fftw3) erhält man die

Q, wobei Q = ST/2 ist (die andere

Hälfte der Daten ist dazu komplex konjugiert). Die q-te Komponente entspricht der

Frequenz f (q) = q/T .

| 2 R + durch logarithmische Diskretisierung

neu organisiert. Dazu definiert man ein Array I

Frequenzen f (m) = 10 · 2 m/1200 Hz, wobei m von Null (10 Hz) bis 12000 (10 kHz) läuft. Sei

Für jedes k wird das Spektrum |y˜

Spektren y˜

Fließkommazahlen y

j (k) R mit j = 0

(k)

q

C indiziert durch q = 0

(k)

q

(k)

m

R + entsprechend der

(k)

I

m

:=

Q

q=0

δ m,[1200+log 2 (

10T )] |y˜

q

(k)

q

| 2

,

(A.1)

wobei [·] die Rundung auf eine ganze Zahl bezeichnet. In dieser Darstellung un- terscheiden sich benachbarte Diskretisierungspositionen um ein Frequenzverhältnis von einem Cent.

werden auf den entsprechenden A-gewichteten Schalldruck

(SPLA) L

Nach dieser Vorverarbeitung der Daten kann die Frequenz eines Tons durch bloße Verschiebung des Array-Index m m c um c Cent erhöht oder erniedrigt werden. Dadurch ist es möglich, das Instrument virtuell auf dem Computer zu

Die Intensitäten I

(k)

m

(k)

m

abgebildet.

stimmen. Dazu wird zunächst die in der Aufnahme vorhandene Spreizung entfernt, indem man die Grundfrequenzen aller Töne auf gleichtemperierte Stimmung, d.h.

f

1 (k) = 440 · 2 (kk 0 )/12 Hz zurücksetzt, wobei k 0 der Index des Kammertons A440 ist.

Damit werden die Spreizungskorrekturen zunächst entfernt.

Monte-Carlo dynamics

(i) Ändere die Frequenz eines zufällig gewählten Tons zufällig um ±1 Cent.

(ii)

(iii)

(iv)

(v)

Berechne die Summe p m = 88

k=1 L

(k)

m

des A-gewichteten Schalldruck aller Tasten.

Normiere p m derart dass m p m = 1 ist.

Berechne die Shannon-Entropie H = m p m ln p m .

Wenn die Entropie abnimmt, behalte die Änderung bei, andernfalls stelle die ursprüngliche Tonhöhe wieder her.

Diese Schritte werden wiederholt, bis keine weiteren Tonhöhenänderungen mehr statt- finden.

Entropiebasiertes Stimmen von Musikinstrumenten

15

References

[1] J. G. Roederer, Introduction to the Physics and Psychophysics of Music, Springer, New York

(1973).

[2] O. L. Railsback, Scale Temperament as Applied to Piano Tuning. Journal of the Acoustical Society of America 9 (3): 274 (1938). [3] Figure taken from: http://en.wikipedia.org/wiki/File:Railsback2.png (March 2012). [4] Figure taken from: http://en.wikipedia.org/wiki/File:Harmonic-partials-on-strings (March 2012). [5] N. H. Fletcher and T. D. Rossing, The Physics of Musical Instruments, Springer, New York (1991). [6] H. Fastl and E. Zwicker, Psychoacoustics: facts and models, Springer, New York (2007). [7] C. J. Plack, A. J. Oxenham, and R. F. Richard, eds. Pitch: Neural Coding and Perception. Springer, New York (2005). [8] B. C. Moore and B. R. Glasberg, Thresholds for hearing mistuned partials as separate tones in harmonic complexes. J. Acoust. Soc. Am., 80, 479–483 (1986).