Sie sind auf Seite 1von 8

Hausarbeit Aspekte der Sprachsynthese

Karim Kuropka
Matr.-Nr.: 738528

Thema: Artikulatorische Sprachsynthese


Fokus: Energieverluste im Sprechtrakt

1. Smells Like Intro Spirit

Diese Arbeit befasst sich mit der Sprachsynthese, genauer mit der artikulatorischen solchen,
welche u.a. neben der Formantensynthese zur Familie der parametrischen, also regelbasierten
Verfahren gehört. Im Gegensatz zu konkatenativen Verfahren, die das synthetische Signal aus
großen Mengen von Sounddatenbausteinen zusammensetzen und gegebenenfalls in Frequenz,
Amplitude und Dauer manipulieren, widmet sich der artikulatorische Ansatz direkt der
Simulation der menschlichen Spracherzeugung, indem sie den Sprechapparat modelliert und
die physikalischen Vorgänge bis zum Entstehen der als Sprache identifizierbaren
Schwingungen berechnet. Durch diese Nähe zum realen Äußerungsvorgang sollte es bei
umfassender Forschung möglich sein, einfacher als bei anderen Verfahren Sprechertypen,
Stimmqualitäten oder auch außerordentlichen Äußerungsarten (Singen, Sprachfehler) zu
variieren sowie dadurch und darüber hinaus neue Einblicke in den natürlichen Prozess
aufzuschließen. Ich werde in der Arbeit basierend auf Birkholz (2006) einen kurzen Überblick
über einige Gesichtspunkte der artikulatorischen Synthese geben und dabei zuerst auf einige
Annahmen der Modellierung eingehen, einen kurzen Abstecher zu den Grundlagen der
aerodynamischen Berechnung machen und dann etwas intensiver die entstehenden Verluste
sondieren.

2. About A Simulation Model

Um die Vorgänge im Sprachtrakt überschaubar und effizient berechenbar zu halten, ziemt es


nach Birkholz (2006:7) sich einige Vereinfachungen anzunehmen. So werden die sich
ausbreitenden Schallwellen im Normalfall als ebene Wellen angenommen, da sich hier bei bis
zu 4 kHz das Schallfeld nur entlang einer Dimension simulieren lässt. Stehende Querwellen
werden nur aufgrund der für höhere Frequenzen kürzeren Wellenlängen an Orten größeren
Traktdurchschnitts angenommen. Da Sondhi (1986) aufgezeigt hat, dass die Abweichungen
bei einem geraden Rohr im Vergleich zu einem gekrümmten lediglich 4-8 % betragen ,wird
die Biegung des Vokaltrakts ebenfalls vernachlässigt und durch ein solches ungebogenes
Rohr repräsentiert. Diese Darstellung wird auf den ganzen Sprechtrakt erweitert mit dem
Zusatz, dass sie aus 20-40 kleinen Rohrabschnitten gleichen, meist zylindrischen Querschnitts
besteht. Obwohl höhere Abschnittszahlen das ganze vergenauern würden, reicht diese Zahl,
da bei über 40 Abschnitten die Verbesserung nicht mehr relevant wäre. Im Gesamten bilden
diese Annahmen also ein verzweigtes Rohr bestehend aus mehreren querschnittsgleichen
Stückchen, dessen Querschnittsverlauf eine Flächenfunktion A(x) beschreibt, bei welcher der
x-Wert die aktuelle Position im Trakt anzeigt. Nachdem die kontinuierliche Bewegung des
Traktmodells auf das eindimensionale Röhrenmodell übertragen wurde, werden die zeitlichen
Änderungen des Trakts mit dieser Funktion dargestellt und dann an ein akustischen
Simulationsverfahren weitergeleitet, welches hiermit das Schallfeld simulieren kann. Die
ermittelten Werte an den Mund- und Nasenöffnungen können jetzt zur Errechnung des
letztendlichen Schallsignals verwendet werden. Um den Rahmen dieser Arbeit nicht zu
sprengen werde ich auf das Modell des Sprechapparats nicht genauer eingehen und mich mehr
der aerodynamisch-akustischen Simulation des Luftstroms oder, genauer gesagt, den
auftretenden Verlusten widmen.

3. Come As You Flow

Um die Bewegung des Luftstroms zu beschreiben, braucht man die drei Grundgleichungen
der Strömungsmechanik. Auch hier wird allgemein vereinfachend angenommen, dass die
Strömung eindimensional verläuft. Diese sind der Impulssatz, die Kontinuitätsgleichung und
der Energiesatz. Der Impulssatz drückt die Erhaltung des Impulses aus und besagt nach
Birkholz soviel wie, dass „ die zeitliche Änderung des Impulses [...] eines Fluidteilchens [...]
gleich der Summe der an ihm angreifenden Kräfte“ ist (2006:49). Die Kontinuitätsgleichung
betrifft die Erhaltung der Masse und begrenzt Änderungen der Fluidmasse auf Fälle bei denen
in einem infinitesimal dünnen Stück modelliertem Traktrohr durch die rechte oder linke
Stirnseite Massenströme zu- oder abfließen. Der Energiesatz widmet sich der Erhaltung der
Energie, d.h. dass bei De- und Komprimierung einer konstanten Masse Luft Druck- und
Temperaturänderungen auftreten. Da bei einer Schallwelle dieser Vorgang sehr schnell
abläuft, kann allerdings praktisch keine Wärme verschütt gehen, sodass sich die Änderung
hauptsächlich beim Druck vollzieht. Dies hat ebenso zur Folge, dass sich der Querschnitt des
Rohres geringfügig ändert, da die Rohrwände in der Realität elastisch sind und auch im
Modell als derart angenommen werden. Für niedrige Frequenzen sind diese Änderungen ein
tragender Grund für Dämpfungen und Verschiebungen in den Formanten. Für alle diese
Prozesse in Bezug auf die Sprachsynthese gibt es diverse Formeln, zu deren Herleitung und
Aussehen bei Interesse die Arbeit von Birkholz ans Herz zu legen ist (2006:47-54).

4. Something In The Way:

Einen nicht zu vernachlässigenden Einfluss auf die Bandbreiten und Frequenzen der
Formanten haben die diversen Energieverluste, die im Sprachtrakt auftreten. Zu diesen
gehören unter anderem die Reibung an der Rohrwand, sowie der Verlust durch
Schallabstrahlung, wobei beide vorrangig bei mittleren bis hohen Frequenzen ihr Werk tun,
während für niedrige Frequenzen vor allem der Verlust durch elastische Wände mitspielt.
Ebenso bewirkt die Entstehungen von Wirbelströmen bei plötzlichen Querschnittsänderungen
Abweichungen bei den Formanten. Die Verluste durch Wärmeleitung sind nach wie vor
wegen ihres geringen Effekts vernachlässigt.

4.1 Territorial Frictions

Durch die Viskosität von Fluiden ist jede Bewegung derselben durch Rohrleitungen
Widerständen ausgesetzt, die von der Rohrgeometrie und -beschaffenheit sowie den
Strömungsverhältnissen abhängig sind. Während der Luftfluss im Zentrum des Rohrs
annähernd gleichmäßig verläuft, bildet sich also durch die Reibung eine Grenzschicht, deren
Dicke und Widerstand neben oben genannten Größen auch von der Schallwellenfrequenz
abhängt. Es ist allerdings sinnvoller die Bewegung als stationäre Strömung zu beschreiben,
d.h. wenn Volumenstrom und Fließgeschwindigkeit keiner zeitlichen Änderung unterliegen,
was in unserem Model durchaus der Fall ist. Birkholz sieht sie außerdem als laminar an, da
sich hierfür unter Annahme elliptischer Rohrquerschnitte eine frequenzunabhängige Formel
für den Reibungswiderstand finden lässt, was der Universalität des Systems zuträglich ist und
weil Verwirbelungen bei nur bei plötzlichen Querschnittsänderungen wie etwa an der Glottis
auftreten und gesondert einberechnet werden. Die Formel lautet
4 ⋅ µ ⋅ (a ² + b ² )
(1) Rlam = ∆x ⋅ ,
π ⋅ a ³ ⋅ b³
wobei µ die Viskosität des Fluids darstellt und a und b der längste und der kürzeste Radius
der Ellipse sind. Auf diese Weise lassen sich auch stark exzentrische Rohrabschnitte wie der
der Glottis berechnen, während der Fehler im Vergleich zur Anwendung von
Grenzschichtenrechnung sich durch numerische Dämpfung der Bandbreiten korrigieren und
somit gering halten lässt.

4.2 Gallons Of Turbulent Air Flow Through The Strip

An plötzlichen Verengungen oder -weitungen passiert es, dass er Luftstrom von der
Rohrwand abreißen kann und dadurch in der strömungsfreien Zone Verwirbelungen und
damit Energieverluste auftreten. Dennoch ist es nach Birkholz zweckmäßiger zwei Prinzipien
anzunehmen, mit denen man die Verluste bei Verwirbelungen der von ihm aufgestellten
Gleichung zur Druckerhaltung überlassen kann, die hier nur zum Verständnis herleitungsfrei
aufführt sei.
∂p ∂v ρ 0 ∂v ²
(2) − = ρ0 + ⋅
∂x ∂t 2 ∂x
Die Prinzipien besagen einerseits, dass die Fluidbewegung von weiten zu engen
Rohrquerschnitten stets verlustfrei erfolgt und dadurch „der Druck im engen Querschnitt [...]
[nach der Bernoullischen Druckgleichung] um den Betrag (ρ0/2)(v1²-v2²) niedriger ist als im
weiten Querschnitt“ (2006:60). Dies lässt sich durch ausschließliche Annahme allmählicher
Querschnittsverengungen begründen. Andererseits kann man beim Übergang von engen zu
weiten Querschnitten vom Totalverlust der überschüssigen Geschwindigkeitsenergie
ausgehen und daraus schließen, dass der bereits im ersten Prinzip erwähnte Term aufgrund
der gleichen Geschwindigkeit gleich null ist, also der Druck gleich bleibt. Die Begründung für
dieses Prinzip findet sich in Beobachtungen des Wirkungsgrades, der sowohl an der Glottis
als auch an den Mund- und Nasenöffnungen gegen null zu streben scheint. Diese Prinzipien
bedenkend folgt also, dass der gebündelte Luftstrahl an der Position des engsten Querschnitts
abreißt.

4.3 Lake Of Acoustic Emission

Um die Verluste durch Schallabstrahlung zu beschreiben, welche an Nasen- und


Mundöffnung auftreten, lässt sich nun ein Modell anwenden, welches die Abstrahlung mit der
Strahlungsimpedanz eines vibrierenden Kolbens in einer Kugel vergleicht, allerdings nicht als
geschlossener analytischer Ausdruck darstellbar ist und daher im Grenzfall, bei dem die
Kugel eine unendlich ausgedehnte Wand und somit die Größe des Kolben im Vergleich zum
Pseudokugeldurchmesser, behandelt wurde, was zu einer eigenständigen Gleichung führt (s.
Birkholz, 2006:62), die wiederum durch Approximation der in ihr enthaltenen Bessel- und
Struve-Funktionen sowie Einsetzung von Wellenzahl und Kolbenfläche zur Gleichung (3)
mutiert, welche ihrerseits zwar von Fant (1960) und Wakita et al. (1978) um den Fehler
erleichtert wurde, der durch das Betrachten einer Wand im Gegensatz zu einer Kugel entsteht,
allerdings nach Birkholz ausreichend ist, auch wenn er zu erklären vergessen hat wieso, und
die nach Flanagan (1965) für die wichtigen Frequenzen bis 4 kHz durch die Parallelschaltung
eines Widerstands (4) und einer Induktivität (5) angenähert umsetzbar ist.
ρ 0ω ² 8 ρ 0ω
(3) Z = + j
2cπ 3π Aπ
128 ρ 0 c
(4) Rrad =
9π ² A
8ρ 0
(5) Lrad =
3π πA
Hier stellen ρ die Dichte, ω die Kreisfrequenz, c die Schallgeschwindigkeit und A die
Kolbenfläche dar.

4.4 Stay Elastic

Die Wirkung der Elastizität einzurechnen, bedarf es dreier Parameter, mit Namen der Masse
M, der Dämpfungskonstante B und der Federkonstante K. Da direkte Messungen bisher nicht
angestellt wurden, kann man die benötigten Werte lediglich aus anderen Datenaufnahmen
abschätzen, wobei sich Birkholz auf Ishazaka (1975) stützt und für den Rachen-, Nasen- und
Mundraum die Werte entspannter Wangen nutzt, die auf M = 21 kg/m², B = 8000 kg/(m²s)
und K = 845000 N/m³ festgestellt werden konnten. Für subglottale Parameter finden sich in
Ishizaka (1976) die Werte M = 2,5 bis 3,0 kg/m² und B/(2M) = 250 1/s für die Luftröhre bis
2500 1/s für die Alveolen, wobei Birkholz letztere als sich linear ändernden Wert nimmt, der
von 10000 kg/m²s an den Alveolen bis auf 1000 kg/m²s am obersten subglottalen Rand
abfällt. Da für die Wandsteifigkeit in der genannten Studie keine Werte bekannt gegeben
wurden und auch nicht so sonderlich wichtig sind, kann man wie Birkholz weiter mit einem
konstanten K von 845000 N/m³ arbeiten oder selbst Nachforschungen anstellen.
5. Serve the Servants

Ich bin bisher nicht auf die anderen Gleichungen Birkholz’ zur Simulation des Signals
eingegangen. Da aber die Verlustgleichungen in diese eingebunden werden müssen und es
naheliegt, vorher kurz auszuholen um den Gesamtzusammenhang klarzumachen, werde ich
das an dieser Stelle tun. Wenn man die ermittelten Gleichungen zu den oben erwähnten
Sätzen zur Energie-, Massen- und Impulserhaltung örtlich diskretisiert, erhält man die
Gleichungen (6) bis (8):
(6) pi − p j = u& ij ⋅ (Li + L j ) + u ij ⋅ (Rbern,i + Rbern, j )

1
(7) p& i = ⋅ (u e ,i − u a ,i − u w,i )
Ci
t
1
C w,i ∫0
(8) pi = Lw,i u& w,i + Rw,i u& w,i + u w,i dt

R sind hier Widerstände, L sind Induktivitäten, C Kapazitäten und p der Schalldruck, die
anderen Symbole sind für die auf die Verluste eingeschränkte Betrachtung hier nicht weiter
interessant. Aufgrund dessen, dass die akustischen und elektrischen Systeme mit der gleichen
Art mathematischer Gleichungen beschrieben werden, kommt die Analogie der Beziehungen
zwischen Schalldruck und Volumenstrom zu den Beziehungen zwischen Spannung und
elektrischem Strom in inhomogenen Übertragungsleitungen zustande. Strom und
Volumenstrom, haben schon den Namen gemeinsam, ansonsten entspricht weiterhin die
Spannung dem Schalldruck, sowie Spulen (Induktivität) der akustischen Masse,
Kondensatoren (Kapazität) der akustischen Federung und Widerstände dem akustischen
Widerstand. Mit diesem Wissen lassen sich die Formeln eher interpretieren und es liegt nun
die Grundlage vor, die oben aufgezeigten Verluste in das Gesamtsystem einzubauen.
Gehen wir der Reihe nach vor und widmen wir unsere Aufmerksamkeit der Reibung.
Diese wurde als Widerstand beschrieben, also sprach Zarathustra, wir machen es im
elektrischen Model ebenso und realisieren die Reibung sinnigerweise in Form von zwei
Widerständen in Gleichung (6):
(9) pi − p j = u& ij ⋅ (Li + L j ) + u ij ⋅ (Rbern,i + Rbern, j + Rreib ,i + Rreib , j )

Für die Inkorporierung der Wirbelverluste müssen zum Zwecke der fehlenden Druckerhöhung
bei sich wieder erweiternden Rohrendie Widerstände Rbern,i und Rbern, j auf null gesetzt

werden. Wie bereits besprochen muss dann die Strahlungsimpedanz für Schallabstrahlung am
Ende der beiden Rohrabschnitte angesetzt werden und wird dort durch die Parallelschaltung
eines Widerstands und einer Spule manifestiert, deren Werte sich mittels der im
entsprechenden Abschnitt gezeigten Formeln bestimmen lassen. Die mechanische Impedanz
der elastischen Rohrwände letztendlich wird durch die Komponenten Lw,i , R w,i und C w,i

eingeführt, welche in Gleichung (8) enthalten sind.

6. Polly Wants An Outro

Ich habe in dieser Arbeit die Einarbeitung von Verlusten, welche im Verlauf der natürlichen
Spracherzeugung im Sprachtrakt auftreten, in ein artikulatorisches System nach Birkholz
beschrieben und dabei auch die Modellierung und den ein oder anderen Aspekt zur
Gesamtmodellierung sehr kurz umrissen. Wozu ich noch kein Wort verloren habe, ist die
Signalerzeugung. Diese lässt sich durch eine Schalldruckquelle, sprich im elektrischen
System durch eine Spannungsquelle einbauen, womit das auch kurz erwähnt wäre. Als
Schlusswort lässt sich nun nur noch feststellen, dass ein artikulatorisches System sehr viel
komplexer ist, als dass es im Rahmen einer Arbeit wie der vorliegenden hinreichend
beschrieben werden könnte, weswegen hier die Spezialisierung auf die Verlustquellen
vollzogen wurde um zumindest einen Teil des System einigermaßen transparent zu machen.
Quellen

BIRKHOLZ, PETER (2006). 3D-Artikulatorische Sprachsynthese. Dissertation, Universität


Rostock

FANT, G.(1960). Acoustic Theory of Speech Production. Mouton, The Hague.

FLANAGAN, J. L. (1965). Speech Analysis, Synthesis and Perception. Springer-Verlag, Berlin.

ISHIZAKA, K., J. C. FRENCH UND J. L. FLANAGAN (1975). Direct Determination of Vocal Tract
Wall Impedance. IEEE Transactions on Acoustics, Speech, and Signal Processing, 23(4):370–
373.

ISHIZAKA, K., M. MATSUDAIRA UND T. KANEKO (1976). Input Acoustic-Impedance


Measurement of the Subglottal System. Journal of the Acoustical Society of America,
60(1):190–197.

SONDHI, M. M.(1986). Resonances of a Bent Vocal Tract. Journal of the Acoustical Society of
America, 79(4):1113–1116.

WAKITA, H. UND G. FANT (1978). Toward a Better Vocal Tract Model. STL-QPSR, 1:9–29.