Beruflich Dokumente
Kultur Dokumente
1
3. Grundlagen der menschlichen Spracherzeugung
Menschlicher Sprechapparat.
Prinzip der Spracherzeugung:
Generierung eines Luftstromes → Anregung
Energiequelle hierzu: Lunge und Atmungsmuskulatur
Pressen des Luftstromes durch Luftröhre und Kehlkopf
Entweichen in den Mund- und Rachenraum
Modulierung des Luftstromes im Rachen- und Mundraum → Lautformung
2
3. Grundlagen der menschlichen Spracherzeugung
Anregung.
Möglichkeiten:
periodisch aperiodisch
kontinuierlich einmalig
3
3. Grundlagen der menschlichen Spracherzeugung
Lautformung.
Prinzip:
Vokaltrakt: Röhrenförmiger Raum mit veränderbarer Querschnittsfläche,
wirkt als Resonator
Verstärkt bestimmte Frequenzen
Schwächt andere Frequenzen ab
1
Darstellbar als LTI-System in Allpolstruktur H ( jω ) = n
1 − ∑ bk e − jω kτ 0
k =1
4
3. Grundlagen der menschlichen Spracherzeugung
Anregung und Lautformung.
Einfaches Modell der menschlichen Spracherzeugung:
Stimmlippen
Impuls- Abstrahlungs-
anregung charakteristik
Rausch-
anregung
(Querschnittsverlauf)
5
3. Grundlagen der menschlichen Spracherzeugung
Anregung und Lautformung.
Resultierende Sprachsignale:
T0 = 1/f0 T0
Zeitbereich:
t
t
t t
H(jω)
Frequenzbereich:
f0
f f
f f
Anregung Sprachsignal
6
3. Grundlagen der menschlichen Spracherzeugung
Sprachlaute.
Klassifikation von Vokalen:
(Blauert, 1994)
7
3. Grundlagen der menschlichen Spracherzeugung
Sprachlaute.
Klassifikation von Konsonanten:
(Blauert, 1994)
8
3. Grundlagen der menschlichen Spracherzeugung
Sprachlaute.
Formantkarten:
10
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Röhrenmodell des Vokaltraktes:
Stimmlippen Mund
Stimmlippen Mund
11
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Rohr konstanten Querschnitts:
c
Resonanz: f k = ( 2 k − 1) ⋅ , k = 1, 2,...
4l
m
Bsp: l = 17 cm, c = 340 ⇒ f k = ( 2 k − 1) ⋅ 500 Hz
s
12
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Variabler Querschnitt:
∂ p 1 dA ∂ p
2
1 ∂ p 2
Webster‘sche DGL
+ ⋅ ⋅ = 2⋅ 2 Trichtergleichung
∂x 2
A dx ∂ x c ∂ t
Randbedingungen:
13
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Lösung der DGL:
A1 − A2
Mit Reflexionsfaktor r12 =
A1 + A2
(1 + r12 )
p1+ τ + τ p2+
Kelly-
r12 − r12 Lochbaum-
Struktur
p1− τ + τ p2−
(1 − r12 )
14
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Quelle-Filter-Modell:
stimmhaft F1
Glottis- x
filter F2
Grundfrequenz +
+
F3
Rausch-
generator x
stimmlos
Fn
Anregung Vokaltrakt
15
3. Grundlagen der menschlichen Spracherzeugung
Modelle.
Realisierung des Vokaltraktfilters:
2τ0 a2
G(jω)
X
+ 3τ0 a3 +
S(jω)
A
nτ0 an
T(jω)
16
Kapitel 4: Sprachsignalanalyse.
4. Sprachsignalanalyse
Themen.
3 Verfahren:
Spektralanalyse
Cepstrum
Lineare Prädiktion
18
4. Sprachsignalanalyse
Spektralanalyse.
Möglichkeiten:
Spektralanalyse mittels eines Bandpassfilters
Durchstimmbares Bandpassfilter und Demodulator
Modulator und festes Bandpassfilter
Spektralanalyse mittels einer Bandpassfilterbank
Spektralanalyse mittels direkter Transformationsberechnung
19
4. Sprachsignalanalyse
Spektralanalyse.
Durchstimmbares Bandpassfilter und Demodulator:
Ωm variabel
x(k) x ( k ) ∗ hB ( k ) ( x ( k ) ∗ h B ( k ) ) e − jΩ mk
HB(ejΩ)
X(ejΩ) X(ejΩ)⋅HB(ejΩ) X (e j ( Ω + Ω m ) ) ⋅ H B (e j ( Ω + Ω m ) )
e − jΩ m k
Ωm fest
20
4. Sprachsignalanalyse
Spektralanalyse.
Modulator und festes Bandpassfilter: Suchtonanalyse
e− jΩmk Ωm variabel
Ωm fest
HT(ejΩ)
x(k) x(k ) ⋅ e− jΩmk ( x(k ) ⋅ e− jΩmk ) ∗ hT (k )
21
4. Sprachsignalanalyse
Spektralanalyse.
Ergebnis:
Amplitude X (e jΩ m ) bei Ω = Ωm
in beiden Fällen identisch, sofern
H T ( e jΩ ) = H B ( e j ( Ω + Ω m ) )
H T ( e j ( Ω − Ω m ) ) = H B ( e jΩ )
hT (k ) ⋅ e jΩ m k = hB (k )
22
4. Sprachsignalanalyse
Spektralanalyse.
Ergebnis:
Ausgangssignal
y (k ) = ( x ( k ) ∗ h B ( k ) ) ⋅ e − jΩ k
m
= (x(k ) ⋅ e − jΩ m k
)∗ h
T (k )
∞
= ∑ ( x
κ = −∞
(κ ) ⋅ hT ( k − κ ) ) ⋅ e − jΩ κ
m
Lösung:
Bandpassfilterbank mit vielen parallelen Filtern (2. Möglichkeit)
Typische Realisierungen:
Filter konstanter absoluter Bandbreite: ΔΩ = konstant
Filter konstanter relativer Bandbreite: ΔΩ / Ω = konstant
Nachteil: Höherer Realisierungsaufwand
24
4. Sprachsignalanalyse
Spektralanalyse.
Bandpassfilterbank:
Bei zeitlich instationären Signalen ist wiederum eine Fensterung notwendig
Multiplikation mit Fensterfunktion im Zeitbereich
→ Faltung mit der Fourier-Transformierten des Fensters im Frequenzbereich
„Fenstereffekte“
25
4. Sprachsignalanalyse
Spektralanalyse.
3. Möglichkeit:
Direkte Berechnung der Transformationen
∞
x(k ) ( ) = ∑ x(k ) ⋅ e
X e jΩ − jkΩ
= F {x(k )}
k = −∞
M −1 2π M −1
−j μk
X μ = ∑ x( k ) ⋅ e = ∑ x(k ) ⋅ wM = DFT {x(k )}
M μk
x( k )
k =0 k =0
26
4. Sprachsignalanalyse
Spektralanalyse.
Vergleich DFT - Bandpassfilterbank:
Ausgangssignal der Bandpassfilterbank
∞
y μ (k ) = ∑ (x μ (κ ) ⋅ h T (k − κ ) )
κ= −∞
27
4. Sprachsignalanalyse
Spektralanalyse.
Bandpassfilterbank:
Realisierung
x(k)
TA TA TA TA
y(k)
+
28
4. Sprachsignalanalyse
Spektralanalyse.
Spezialfall:
Betrachtung zu festen Zeitpunkten k = n ⋅ M – 1, d.h. alle M Takte
Bandpassbreite ΔΩ kleiner als 2π M
Rechteckfenster
⎧ = 1 für k ∈ {0,1,..., M − 1}
hT (k )⎨
⎩= 0 für k ∉ {0,1,..., M − 1}
Ausgangssignal
M −1
y μ (k ) = ∑ (x μ (κ ) ⋅1)
κ =0
M −1 2π
− jμ κ
= ∑
κ
x(κ ) ⋅ e
=0
M
= DFT {x(k )}
29
4. Sprachsignalanalyse
Spektralanalyse.
Ergebnis:
DFT ist eine spezielle Filterbank mit
M äquidistanten Kanälen
Unterabtastung um den Faktor M
Filter mit Rechteckfunktion als Impulsantwort
⎛M ⎞
Frequenzgang dieses Filters: M −1 sin ⎜ Ω⎟
H T (e jΩ ) = e 2 ⋅ ⎝
−j Ω 2 ⎠
⎛Ω⎞
sin ⎜ ⎟
⎝2⎠
⎛ 2π ⎞
Allgemeine Fensterfunktionen: T
h ( k ) = α + β ⋅ cos ⎜k ⎟
⎝ M ⎠
Hamming-Fenster: α = 0.54, β = -0.46
Hann-Fenster: α = 0.5, β = -0.5
Rechteck-Fenster: α = 1, β = 0
30
4. Sprachsignalanalyse
Spektralanalyse.
Fensterfunktionen:
k =0
2π
wegen wM = e gilt
−j 2μ k μk
M wM = wM
2
32
4. Sprachsignalanalyse
Spektralanalyse.
Realisierung: Fast-Fourier Transform (FFT)
mit ⎧ M ⎫
x1 (k ) = , k ∈ ⎨0,1,..., − 1⎬
x ( 2k )
⎩ 2 ⎭
⎧ M ⎫
x2 (k ) = x(2k + 1) , k ∈ ⎨0,1,..., − 1⎬
⎩ 2 ⎭
gilt:
M 2 −1 M 2 −1
Xμ = ∑
k =0
x1 (k ) ⋅ w M
μk μ
+ wM ⋅ ∑
k =0
x2 (k ) ⋅ w M
μk
2 2
→ anstelle 1 DFT mit Länge M Berechnung von 2 DFTs der Länge M/2
2
⎛M ⎞ M2
Aufwand: 2⋅⎜ ⎟ = kompl. Mult. & Add.
⎝ 2 ⎠ 2
μ
( 2) + M = 1 + 1
2⋅ M
2
33
4. Sprachsignalanalyse
Spektralanalyse.
FFT-Realisierung: Radix-2/Decimation-in-Time
Beispiele:
M = 16: Reduktion um 1/8
M = 1024: Reduktion auf etwa 0,5%
35
4. Sprachsignalanalyse
Cepstrum.
Quelle-Filter-Modell:
G ( jω ) = S ( jω ) ⋅ H ( jω )
C ( x) = F {ln G ( jω ) }
X: quefrency
= F {ln S ( jω ) + ln H ( jω ) }
C(x): Cepstrum
= C1 ( x) + C2 ( x)
36
4. Sprachsignalanalyse
Cepstrum.
Ergebnis der cepstralen Analyse:
Cepstrum erlaubt Zerlegung in Anteile von Vokaltrakt und Anregung
Trennung durch „Liftering“
Anwendung:
Formantbestimmung
Grundfrequenzbestimmung
37
4. Sprachsignalanalyse
Cepstrum.
Beispiele:
(Blauert, 1994)
39
4. Sprachsignalanalyse
Lineare Prädiktion.
Transversalfilter T(jω):
berechnet aus vergangenen Werten g(t) ein aktuelles
g(t) – A ⋅ s(t)
sagt die Differenz zwischen Sprache und Anregungssignal voraus
→ lineare Prädiktion, LPC-Analyse
Bestimmung der Parameter:
A: quadratischer Mittelwert
ai: minimaler mittlerer quadratischer Fehler zwischen S(jω) und S‘(jω)
bzw. s(t) und s‘(t)
Neuberechnung für jeden Signalabschnitt notwendig
40
4. Sprachsignalanalyse
Lineare Prädiktion.
Nach der Analyse:
„weißes“ Anregungssignal
spektrale Einhüllende – und damit Lautinformation – steckt im Prädiktorfilter
Anwendung:
effiziente Kodierung (vgl. Kapitel 6)
Formanterkennung
41
4. Sprachsignalanalyse
Lineare Prädiktion.
Formanterkennung und -tracking:
(Blauert, 1994)
42
4. Sprachsignalanalyse
Lineare Prädiktion.
Genauere Analyse:
Nach der LPC-Analyse bleibt Periodizität bei stimmhaften Anregungen
Extraktion durch weiteren „Langzeit-Prädiktor“
T0 : Grundperiode
43
Backup.