Sie sind auf Seite 1von 45

Rückblick.

3. Grundlagen der menschlichen Spracherzeugung


Menschlicher Sprechtrakt.

(aus Heute, 1990,


nach Flanagan, 1972)

1
3. Grundlagen der menschlichen Spracherzeugung
Menschlicher Sprechapparat.
Prinzip der Spracherzeugung:
ƒ Generierung eines Luftstromes → Anregung
ƒ Energiequelle hierzu: Lunge und Atmungsmuskulatur
ƒ Pressen des Luftstromes durch Luftröhre und Kehlkopf
ƒ Entweichen in den Mund- und Rachenraum
ƒ Modulierung des Luftstromes im Rachen- und Mundraum → Lautformung

2
3. Grundlagen der menschlichen Spracherzeugung
Anregung.
Möglichkeiten:

periodisch aperiodisch

kontinuierlich einmalig

Impulsfolge Breitband- Sprungfunktion


Rauschen

3
3. Grundlagen der menschlichen Spracherzeugung
Lautformung.
Prinzip:
ƒ Vokaltrakt: Röhrenförmiger Raum mit veränderbarer Querschnittsfläche,
wirkt als Resonator
ƒ Verstärkt bestimmte Frequenzen
ƒ Schwächt andere Frequenzen ab
1
ƒ Darstellbar als LTI-System in Allpolstruktur H ( jω ) = n
1 − ∑ bk e − jω kτ 0
k =1

4
3. Grundlagen der menschlichen Spracherzeugung
Anregung und Lautformung.
Einfaches Modell der menschlichen Spracherzeugung:

Stimmlippen
Impuls- Abstrahlungs-
anregung charakteristik
Rausch-
anregung
(Querschnittsverlauf)

Anregung: periodisch (Impulsfolge) oder


aperiodisch (Rauschen, Schaltvorgang)
Lautformung: Stellung von Unterkiefer, Zunge, Lippen

5
3. Grundlagen der menschlichen Spracherzeugung
Anregung und Lautformung.
Resultierende Sprachsignale:
T0 = 1/f0 T0
Zeitbereich:
t
t

t t

H(jω)
Frequenzbereich:
f0
f f

f f

Anregung Sprachsignal
6
3. Grundlagen der menschlichen Spracherzeugung
Sprachlaute.
Klassifikation von Vokalen:

(Blauert, 1994)
7
3. Grundlagen der menschlichen Spracherzeugung
Sprachlaute.
Klassifikation von Konsonanten:

(Blauert, 1994)
8
3. Grundlagen der menschlichen Spracherzeugung
Sprachlaute.
Formantkarten:

(Vary et al., 1998, 47)


9
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Mechanisches Modell: Sprechapparat nach von Kempelen (1791)

10
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Röhrenmodell des Vokaltraktes:

Stimmlippen Mund

Stimmlippen Mund

Querschnittsverlauf Querschnitt durch


Röhrenabschnitte

11
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Rohr konstanten Querschnitts:

c
Resonanz: f k = ( 2 k − 1) ⋅ , k = 1, 2,...
4l
m
Bsp: l = 17 cm, c = 340 ⇒ f k = ( 2 k − 1) ⋅ 500 Hz
s

12
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Variabler Querschnitt:

∂ p 1 dA ∂ p
2
1 ∂ p 2
Webster‘sche DGL
+ ⋅ ⋅ = 2⋅ 2 Trichtergleichung
∂x 2
A dx ∂ x c ∂ t

Randbedingungen:

Mund: p (t ) = 0 für x=l

Glottis: q (t ) = 0 für x=0

13
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Lösung der DGL:
A1 − A2
Mit Reflexionsfaktor r12 =
A1 + A2

p2+ = (1 + r12 ) ⋅ p1+ + r12 p 2 −


p1− = r12 p1+ + (1 − r12 ) ⋅ p 2 −

(1 + r12 )
p1+ τ + τ p2+
Kelly-
r12 − r12 Lochbaum-
Struktur
p1− τ + τ p2−
(1 − r12 )

14
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Quelle-Filter-Modell:

stimmhaft F1
Glottis- x
filter F2
Grundfrequenz +
+
F3
Rausch-
generator x
stimmlos
Fn

Anregung Vokaltrakt

Quelle: Modellierung des Anregungssignals


Filter: akustische Röhre beschrieben als lineares Filter

15
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Realisierung des Vokaltraktfilters:

S(jω) G(jω) Schaltung für T(jω):


H(jω)
τ0 a1

2τ0 a2
G(jω)
X
+ 3τ0 a3 +
S(jω)
A

nτ0 an
T(jω)

16
Kapitel 4: Sprachsignalanalyse.
4. Sprachsignalanalyse
Themen.
3 Verfahren:
ƒ Spektralanalyse
ƒ Cepstrum
ƒ Lineare Prädiktion

18
4. Sprachsignalanalyse
Spektralanalyse.
Möglichkeiten:
ƒ Spektralanalyse mittels eines Bandpassfilters
ƒ Durchstimmbares Bandpassfilter und Demodulator
ƒ Modulator und festes Bandpassfilter
ƒ Spektralanalyse mittels einer Bandpassfilterbank
ƒ Spektralanalyse mittels direkter Transformationsberechnung

19
4. Sprachsignalanalyse
Spektralanalyse.
Durchstimmbares Bandpassfilter und Demodulator:

Ωm variabel

x(k) x ( k ) ∗ hB ( k ) ( x ( k ) ∗ h B ( k ) ) e − jΩ mk

HB(ejΩ)

X(ejΩ) X(ejΩ)⋅HB(ejΩ) X (e j ( Ω + Ω m ) ) ⋅ H B (e j ( Ω + Ω m ) )

e − jΩ m k
Ωm fest

20
4. Sprachsignalanalyse
Spektralanalyse.
Modulator und festes Bandpassfilter: Suchtonanalyse

e− jΩmk Ωm variabel
Ωm fest

HT(ejΩ)
x(k) x(k ) ⋅ e− jΩmk ( x(k ) ⋅ e− jΩmk ) ∗ hT (k )

X(ejΩ) X (e j (Ω+Ωm ) ) X (e j ( Ω+Ωm ) ) ⋅ H T (e jΩ )

21
4. Sprachsignalanalyse
Spektralanalyse.
Ergebnis:
ƒ Amplitude X (e jΩ m ) bei Ω = Ωm
in beiden Fällen identisch, sofern

H T ( e jΩ ) = H B ( e j ( Ω + Ω m ) )

H T ( e j ( Ω − Ω m ) ) = H B ( e jΩ )

→ Frequenzgänge gehen durch Verschiebung auseinander hervor

hT (k ) ⋅ e jΩ m k = hB (k )

22
4. Sprachsignalanalyse
Spektralanalyse.
Ergebnis:
ƒ Ausgangssignal

y (k ) = ( x ( k ) ∗ h B ( k ) ) ⋅ e − jΩ k
m
= (x(k ) ⋅ e − jΩ m k
)∗ h
T (k )

= ∑ ( x
κ = −∞
(κ ) ⋅ hT ( k − κ ) ) ⋅ e − jΩ κ
m

ƒ Kurzzeitspektrum des Signals x(k)


ƒ Fourier-Transformierte des mit hT (k-κ) gewichteten Signals x(k)
an der Stelle Ω = Ωm
ƒ hT (k) nimmt mit steigendem k ab → Multiplikation blendet ein Stück
„Signalvergangenheit“ des Signals ein
ƒ bei endlich langem hT (k) : Gleitende Signal-Fensterung,
gleitende Kurzzeit-Spektralanalyse
23
4. Sprachsignalanalyse
Spektralanalyse.
Problem:
ƒ Zur Berechnung eines kompletten Spektrums bei allen Frequenzen ist eine
Speicherung des Signals und sequentielle Berechnung des Spektrums
notwendig

Lösung:
ƒ Bandpassfilterbank mit vielen parallelen Filtern (2. Möglichkeit)
ƒ Typische Realisierungen:
ƒ Filter konstanter absoluter Bandbreite: ΔΩ = konstant
ƒ Filter konstanter relativer Bandbreite: ΔΩ / Ω = konstant
ƒ Nachteil: Höherer Realisierungsaufwand

24
4. Sprachsignalanalyse
Spektralanalyse.
Bandpassfilterbank:
ƒ Bei zeitlich instationären Signalen ist wiederum eine Fensterung notwendig
ƒ Multiplikation mit Fensterfunktion im Zeitbereich
→ Faltung mit der Fourier-Transformierten des Fensters im Frequenzbereich
„Fenstereffekte“

25
4. Sprachsignalanalyse
Spektralanalyse.
3. Möglichkeit:
ƒ Direkte Berechnung der Transformationen

x(k ) ( ) = ∑ x(k ) ⋅ e
X e jΩ − jkΩ
= F {x(k )}
k = −∞

M −1 2π M −1
−j μk
X μ = ∑ x( k ) ⋅ e = ∑ x(k ) ⋅ wM = DFT {x(k )}
M μk
x( k )
k =0 k =0

ƒ Aus Gründen der Realisierbarkeit: Nur M Frequenzkomponenten (DFT)


→ beschreiben Signale endlicher Länge oder Periodizität exakt,
sonst nur näherungsweise

26
4. Sprachsignalanalyse
Spektralanalyse.
Vergleich DFT - Bandpassfilterbank:
ƒ Ausgangssignal der Bandpassfilterbank

y μ (k ) = ∑ (x μ (κ ) ⋅ h T (k − κ ) )
κ= −∞

mit x μ (k ) = x(k ) ⋅ e − jμΩ0k de-modulierte Signale


ƒ Spezialisierung:
⎧≠ 0 für k ∈ {0,1,..., M − 1}
hT (k )⎨ nicht-rekursives Filter vom Grad M-1
⎩= 0 für k ∉ {0,1,..., M − 1}

∑ (xμ (κ ) ⋅ h (k − κ ) ) Kurzzeitspektrum in endlich langem


k
y μ (k ) = T
κ = k − ( M −1)
Fenster

27
4. Sprachsignalanalyse
Spektralanalyse.
Bandpassfilterbank:
ƒ Realisierung
x(k)
TA TA TA TA

hT(0) + hT(1) + hT(2) + hT(M-1) +

y(k)
+

28
4. Sprachsignalanalyse
Spektralanalyse.
Spezialfall:
ƒ Betrachtung zu festen Zeitpunkten k = n ⋅ M – 1, d.h. alle M Takte
ƒ Bandpassbreite ΔΩ kleiner als 2π M
ƒ Rechteckfenster
⎧ = 1 für k ∈ {0,1,..., M − 1}
hT (k )⎨
⎩= 0 für k ∉ {0,1,..., M − 1}

ƒ Ausgangssignal
M −1
y μ (k ) = ∑ (x μ (κ ) ⋅1)
κ =0
M −1 2π
− jμ κ
= ∑
κ
x(κ ) ⋅ e
=0
M

= DFT {x(k )}

29
4. Sprachsignalanalyse
Spektralanalyse.
Ergebnis:
ƒ DFT ist eine spezielle Filterbank mit
ƒ M äquidistanten Kanälen
ƒ Unterabtastung um den Faktor M
ƒ Filter mit Rechteckfunktion als Impulsantwort
⎛M ⎞
ƒ Frequenzgang dieses Filters: M −1 sin ⎜ Ω⎟
H T (e jΩ ) = e 2 ⋅ ⎝
−j Ω 2 ⎠
⎛Ω⎞
sin ⎜ ⎟
⎝2⎠
⎛ 2π ⎞
ƒ Allgemeine Fensterfunktionen: T
h ( k ) = α + β ⋅ cos ⎜k ⎟
⎝ M ⎠
ƒ Hamming-Fenster: α = 0.54, β = -0.46
ƒ Hann-Fenster: α = 0.5, β = -0.5
ƒ Rechteck-Fenster: α = 1, β = 0

30
4. Sprachsignalanalyse
Spektralanalyse.
Fensterfunktionen:

(Vary et al., 1998, 84)


31
4. Sprachsignalanalyse
Spektralanalyse.
Direkte DFT-Berechnung:
M −1 2π
−j μk
x( k ) X μ = ∑ x(k ) ⋅ e M

k =0

ƒ Rechenaufwand: M 2 komplexe Multiplikationen und M 2 Additionen


ƒ Bespiel: M = 1000, fs = 8...48 kHz → 8...48⋅106 Operationen

Realisierung: Fast-Fourier Transform (FFT)


ƒ M gerade
M −1 M 2 −1 M 2 −1
X μ = ∑ x(k ) ⋅ wM ∑ ∑
μk 2μ k 2μ k μ
= x(k ) ⋅ wM + x(2k + 1) ⋅ wM wM
k =0 k =0 k =0


ƒ wegen wM = e gilt
−j 2μ k μk
M wM = wM
2

32
4. Sprachsignalanalyse
Spektralanalyse.
Realisierung: Fast-Fourier Transform (FFT)
ƒ mit ⎧ M ⎫
x1 (k ) = , k ∈ ⎨0,1,..., − 1⎬
x ( 2k )
⎩ 2 ⎭
⎧ M ⎫
x2 (k ) = x(2k + 1) , k ∈ ⎨0,1,..., − 1⎬
⎩ 2 ⎭
gilt:
M 2 −1 M 2 −1
Xμ = ∑
k =0
x1 (k ) ⋅ w M
μk μ
+ wM ⋅ ∑
k =0
x2 (k ) ⋅ w M
μk

2 2

→ anstelle 1 DFT mit Länge M Berechnung von 2 DFTs der Länge M/2
2
⎛M ⎞ M2
ƒ Aufwand: 2⋅⎜ ⎟ = kompl. Mult. & Add.
⎝ 2 ⎠ 2
μ
( 2) + M = 1 + 1
2⋅ M
2

M kompl. Mult. mit Faktor wM M2 2 M


M Additionen der Teilergebnisse Reduktion

33
4. Sprachsignalanalyse
Spektralanalyse.
FFT-Realisierung: Radix-2/Decimation-in-Time

(Vary et al., 1998, 78)


34
4. Sprachsignalanalyse
Spektralanalyse.
Realisierung: Fast-Fourier Transform (FFT)
ƒ Rechenaufwand: Bei M = 2 m
M M
⋅m = ⋅ log 2 M
2 2

ƒ Beispiele:
ƒ M = 16: Reduktion um 1/8
ƒ M = 1024: Reduktion auf etwa 0,5%

35
4. Sprachsignalanalyse
Cepstrum.
Quelle-Filter-Modell:

G ( jω ) = S ( jω ) ⋅ H ( jω )

Sprache Anregung Vokaltrakt


ln G ( jω ) = ln S ( jω ) ⋅ H ( jω )
= ln S ( jω ) + ln H ( jω )

C ( x) = F {ln G ( jω ) }
X: quefrency
= F {ln S ( jω ) + ln H ( jω ) }
C(x): Cepstrum
= C1 ( x) + C2 ( x)
36
4. Sprachsignalanalyse
Cepstrum.
Ergebnis der cepstralen Analyse:
ƒ Cepstrum erlaubt Zerlegung in Anteile von Vokaltrakt und Anregung
ƒ Trennung durch „Liftering“

Anwendung:
ƒ Formantbestimmung
ƒ Grundfrequenzbestimmung

37
4. Sprachsignalanalyse
Cepstrum.
Beispiele:

(Flanagan, 1972, 175)


38
4. Sprachsignalanalyse
Lineare Prädiktion.
Idee:
ƒ Quelle-Filter-Modell → Inverse Filterung

(Blauert, 1994)
39
4. Sprachsignalanalyse
Lineare Prädiktion.
Transversalfilter T(jω):
ƒ berechnet aus vergangenen Werten g(t) ein aktuelles
g(t) – A ⋅ s(t)
ƒ sagt die Differenz zwischen Sprache und Anregungssignal voraus
→ lineare Prädiktion, LPC-Analyse
ƒ Bestimmung der Parameter:
ƒ A: quadratischer Mittelwert
ƒ ai: minimaler mittlerer quadratischer Fehler zwischen S(jω) und S‘(jω)
bzw. s(t) und s‘(t)
ƒ Neuberechnung für jeden Signalabschnitt notwendig

40
4. Sprachsignalanalyse
Lineare Prädiktion.
Nach der Analyse:
ƒ „weißes“ Anregungssignal
ƒ spektrale Einhüllende – und damit Lautinformation – steckt im Prädiktorfilter

Anwendung:
ƒ effiziente Kodierung (vgl. Kapitel 6)
ƒ Formanterkennung

41
4. Sprachsignalanalyse
Lineare Prädiktion.
Formanterkennung und -tracking:

(Blauert, 1994)
42
4. Sprachsignalanalyse
Lineare Prädiktion.
Genauere Analyse:
ƒ Nach der LPC-Analyse bleibt Periodizität bei stimmhaften Anregungen
ƒ Extraktion durch weiteren „Langzeit-Prädiktor“

s ' ' (t ) = s ' (t ) − b[s ' (t − T0 )]

T0 : Grundperiode

43
Backup.

Das könnte Ihnen auch gefallen