VL sk05 1

Rückblick.
3. Grundlagen der menschlichen Spracherzeugung

Menschlicher Sprechtrakt.
(aus Heute, 1990,

nach Flanagan, 1972)
1
Menschlicher Sprechapparat.
Prinzip der Spracherzeugung:
Generierung eines Luftstromes → Anregung
Energiequelle hierzu: Lunge und Atmungsmuskulatur
Pressen des Luftstromes durch Luftröhre und Kehlkopf
Entweichen in den Mund- und Rachenraum
Modulierung des Luftstromes im Rachen- und Mundraum → Lautformung
2
Anregung.
Möglichkeiten:
periodisch aperiodisch
kontinuierlich einmalig
Impulsfolge Breitband- Sprungfunktion

Rauschen
3
Lautformung.
Prinzip:
Vokaltrakt: Röhrenförmiger Raum mit veränderbarer Querschnittsfläche,
wirkt als Resonator
Verstärkt bestimmte Frequenzen
Schwächt andere Frequenzen ab
1
Darstellbar als LTI-System in Allpolstruktur H ( jω ) = n
1 − ∑ bk e − jω kτ 0
k =1
4
Anregung und Lautformung.
Einfaches Modell der menschlichen Spracherzeugung:
Stimmlippen
Impuls- Abstrahlungs-
anregung charakteristik
Rausch-
anregung
(Querschnittsverlauf)
Anregung: periodisch (Impulsfolge) oder

aperiodisch (Rauschen, Schaltvorgang)
Lautformung: Stellung von Unterkiefer, Zunge, Lippen
5
Anregung und Lautformung.
Resultierende Sprachsignale:
T0 = 1/f0 T0
Zeitbereich:
t
t
t t
H(jω)
Frequenzbereich:
f0
f f
f f
Anregung Sprachsignal
6
Sprachlaute.
Klassifikation von Vokalen:
(Blauert, 1994)
7
Sprachlaute.
Klassifikation von Konsonanten:
(Blauert, 1994)
8
Sprachlaute.
Formantkarten:
(Vary et al., 1998, 47)

9
Modelle.
Mechanisches Modell: Sprechapparat nach von Kempelen (1791)
10
Modelle.
Röhrenmodell des Vokaltraktes:
Stimmlippen Mund
Stimmlippen Mund
Querschnittsverlauf Querschnitt durch

Röhrenabschnitte
11
Modelle.
Rohr konstanten Querschnitts:
c
Resonanz: f k = ( 2 k − 1) ⋅ , k = 1, 2,...
4l
m
Bsp: l = 17 cm, c = 340 ⇒ f k = ( 2 k − 1) ⋅ 500 Hz
s
12
Modelle.
Variabler Querschnitt:
∂ p 1 dA ∂ p
2
1 ∂ p 2
Webster‘sche DGL
+ ⋅ ⋅ = 2⋅ 2 Trichtergleichung
∂x 2
A dx ∂ x c ∂ t
Randbedingungen:
Mund: p (t ) = 0 für x=l
Glottis: q (t ) = 0 für x=0
13
Modelle.
Lösung der DGL:
A1 − A2
Mit Reflexionsfaktor r12 =
A1 + A2
p2+ = (1 + r12 ) ⋅ p1+ + r12 p 2 −

p1− = r12 p1+ + (1 − r12 ) ⋅ p 2 −
(1 + r12 )
p1+ τ + τ p2+
Kelly-
r12 − r12 Lochbaum-
Struktur
p1− τ + τ p2−
(1 − r12 )
14
Modelle.
Quelle-Filter-Modell:
stimmhaft F1
Glottis- x
filter F2
Grundfrequenz +
+
F3
Rausch-
generator x
stimmlos
Fn
Anregung Vokaltrakt
Quelle: Modellierung des Anregungssignals

Filter: akustische Röhre beschrieben als lineares Filter
15
Modelle.
Realisierung des Vokaltraktfilters:
S(jω) G(jω) Schaltung für T(jω):

H(jω)
τ0 a1
2τ0 a2
G(jω)
X
+ 3τ0 a3 +
S(jω)
A
nτ0 an
T(jω)
16
Kapitel 4: Sprachsignalanalyse.
4. Sprachsignalanalyse
Themen.
3 Verfahren:
Spektralanalyse
Cepstrum
Lineare Prädiktion
18
Spektralanalyse.
Möglichkeiten:
Spektralanalyse mittels eines Bandpassfilters
Durchstimmbares Bandpassfilter und Demodulator
Modulator und festes Bandpassfilter
Spektralanalyse mittels einer Bandpassfilterbank
Spektralanalyse mittels direkter Transformationsberechnung
19
Spektralanalyse.
Durchstimmbares Bandpassfilter und Demodulator:
Ωm variabel
x(k) x ( k ) ∗ hB ( k ) ( x ( k ) ∗ h B ( k ) ) e − jΩ mk
HB(ejΩ)
X(ejΩ) X(ejΩ)⋅HB(ejΩ) X (e j ( Ω + Ω m ) ) ⋅ H B (e j ( Ω + Ω m ) )
e − jΩ m k
Ωm fest
20
Spektralanalyse.
Modulator und festes Bandpassfilter: Suchtonanalyse
e− jΩmk Ωm variabel
Ωm fest
HT(ejΩ)
x(k) x(k ) ⋅ e− jΩmk ( x(k ) ⋅ e− jΩmk ) ∗ hT (k )
X(ejΩ) X (e j (Ω+Ωm ) ) X (e j ( Ω+Ωm ) ) ⋅ H T (e jΩ )
21
Spektralanalyse.
Ergebnis:
Amplitude X (e jΩ m ) bei Ω = Ωm
in beiden Fällen identisch, sofern
H T ( e jΩ ) = H B ( e j ( Ω + Ω m ) )
H T ( e j ( Ω − Ω m ) ) = H B ( e jΩ )
→ Frequenzgänge gehen durch Verschiebung auseinander hervor
hT (k ) ⋅ e jΩ m k = hB (k )
22
Spektralanalyse.
Ergebnis:
Ausgangssignal
y (k ) = ( x ( k ) ∗ h B ( k ) ) ⋅ e − jΩ k
m
= (x(k ) ⋅ e − jΩ m k
)∗ h
T (k )
∞
= ∑ ( x
κ = −∞
(κ ) ⋅ hT ( k − κ ) ) ⋅ e − jΩ κ
m
Kurzzeitspektrum des Signals x(k)

Fourier-Transformierte des mit hT (k-κ) gewichteten Signals x(k)
an der Stelle Ω = Ωm
hT (k) nimmt mit steigendem k ab → Multiplikation blendet ein Stück
„Signalvergangenheit“ des Signals ein
bei endlich langem hT (k) : Gleitende Signal-Fensterung,
gleitende Kurzzeit-Spektralanalyse
23
Spektralanalyse.
Problem:
Zur Berechnung eines kompletten Spektrums bei allen Frequenzen ist eine
Speicherung des Signals und sequentielle Berechnung des Spektrums
notwendig
Lösung:
Bandpassfilterbank mit vielen parallelen Filtern (2. Möglichkeit)
Typische Realisierungen:
Filter konstanter absoluter Bandbreite: ΔΩ = konstant
Filter konstanter relativer Bandbreite: ΔΩ / Ω = konstant
Nachteil: Höherer Realisierungsaufwand
24
Spektralanalyse.
Bandpassfilterbank:
Bei zeitlich instationären Signalen ist wiederum eine Fensterung notwendig
Multiplikation mit Fensterfunktion im Zeitbereich
→ Faltung mit der Fourier-Transformierten des Fensters im Frequenzbereich
„Fenstereffekte“
25
Spektralanalyse.
3. Möglichkeit:
Direkte Berechnung der Transformationen
∞
x(k ) ( ) = ∑ x(k ) ⋅ e
X e jΩ − jkΩ
= F {x(k )}
k = −∞
M −1 2π M −1
−j μk
X μ = ∑ x( k ) ⋅ e = ∑ x(k ) ⋅ wM = DFT {x(k )}
M μk
x( k )
k =0 k =0
Aus Gründen der Realisierbarkeit: Nur M Frequenzkomponenten (DFT)

→ beschreiben Signale endlicher Länge oder Periodizität exakt,
sonst nur näherungsweise
26
Spektralanalyse.
Vergleich DFT - Bandpassfilterbank:
Ausgangssignal der Bandpassfilterbank
∞
y μ (k ) = ∑ (x μ (κ ) ⋅ h T (k − κ ) )
κ= −∞
mit x μ (k ) = x(k ) ⋅ e − jμΩ0k de-modulierte Signale

Spezialisierung:
⎧≠ 0 für k ∈ {0,1,..., M − 1}
hT (k )⎨ nicht-rekursives Filter vom Grad M-1
⎩= 0 für k ∉ {0,1,..., M − 1}
∑ (xμ (κ ) ⋅ h (k − κ ) ) Kurzzeitspektrum in endlich langem

k
y μ (k ) = T
κ = k − ( M −1)
Fenster
27
Spektralanalyse.
Bandpassfilterbank:
Realisierung
x(k)
TA TA TA TA
hT(0) + hT(1) + hT(2) + hT(M-1) +
y(k)
+
28
Spektralanalyse.
Spezialfall:
Betrachtung zu festen Zeitpunkten k = n ⋅ M – 1, d.h. alle M Takte
Bandpassbreite ΔΩ kleiner als 2π M
Rechteckfenster
⎧ = 1 für k ∈ {0,1,..., M − 1}
hT (k )⎨
⎩= 0 für k ∉ {0,1,..., M − 1}
Ausgangssignal
M −1
y μ (k ) = ∑ (x μ (κ ) ⋅1)
κ =0
M −1 2π
− jμ κ
= ∑
κ
x(κ ) ⋅ e
=0
M
= DFT {x(k )}
29
Spektralanalyse.
Ergebnis:
DFT ist eine spezielle Filterbank mit
M äquidistanten Kanälen
Unterabtastung um den Faktor M
Filter mit Rechteckfunktion als Impulsantwort
⎛M ⎞
Frequenzgang dieses Filters: M −1 sin ⎜ Ω⎟
H T (e jΩ ) = e 2 ⋅ ⎝
−j Ω 2 ⎠
⎛Ω⎞
sin ⎜ ⎟
⎝2⎠
⎛ 2π ⎞
Allgemeine Fensterfunktionen: T
h ( k ) = α + β ⋅ cos ⎜k ⎟
⎝ M ⎠
Hamming-Fenster: α = 0.54, β = -0.46
Hann-Fenster: α = 0.5, β = -0.5
Rechteck-Fenster: α = 1, β = 0
30
Spektralanalyse.
Fensterfunktionen:
(Vary et al., 1998, 84)

31
Spektralanalyse.
Direkte DFT-Berechnung:
M −1 2π
−j μk
x( k ) X μ = ∑ x(k ) ⋅ e M
k =0
Rechenaufwand: M 2 komplexe Multiplikationen und M 2 Additionen

Bespiel: M = 1000, fs = 8...48 kHz → 8...48⋅106 Operationen
Realisierung: Fast-Fourier Transform (FFT)

M gerade
M −1 M 2 −1 M 2 −1
X μ = ∑ x(k ) ⋅ wM ∑ ∑
μk 2μ k 2μ k μ
= x(k ) ⋅ wM + x(2k + 1) ⋅ wM wM
k =0 k =0 k =0
2π
wegen wM = e gilt
−j 2μ k μk
M wM = wM
2
32
Spektralanalyse.
mit ⎧ M ⎫
x1 (k ) = , k ∈ ⎨0,1,..., − 1⎬
x ( 2k )
⎩ 2 ⎭
⎧ M ⎫
x2 (k ) = x(2k + 1) , k ∈ ⎨0,1,..., − 1⎬
⎩ 2 ⎭
gilt:
M 2 −1 M 2 −1
Xμ = ∑
k =0
x1 (k ) ⋅ w M
μk μ
+ wM ⋅ ∑
k =0
x2 (k ) ⋅ w M
μk
2 2
→ anstelle 1 DFT mit Länge M Berechnung von 2 DFTs der Länge M/2
2
⎛M ⎞ M2
Aufwand: 2⋅⎜ ⎟ = kompl. Mult. & Add.
⎝ 2 ⎠ 2
μ
( 2) + M = 1 + 1
2⋅ M
2
M kompl. Mult. mit Faktor wM M2 2 M

M Additionen der Teilergebnisse Reduktion
33
Spektralanalyse.
FFT-Realisierung: Radix-2/Decimation-in-Time
(Vary et al., 1998, 78)

34
Spektralanalyse.
Rechenaufwand: Bei M = 2 m
M M
⋅m = ⋅ log 2 M
2 2
Beispiele:
M = 16: Reduktion um 1/8
M = 1024: Reduktion auf etwa 0,5%
35
Cepstrum.
Quelle-Filter-Modell:
G ( jω ) = S ( jω ) ⋅ H ( jω )
Sprache Anregung Vokaltrakt

ln G ( jω ) = ln S ( jω ) ⋅ H ( jω )
= ln S ( jω ) + ln H ( jω )
C ( x) = F {ln G ( jω ) }
X: quefrency
= F {ln S ( jω ) + ln H ( jω ) }
C(x): Cepstrum
= C1 ( x) + C2 ( x)
36
Cepstrum.
Ergebnis der cepstralen Analyse:
Cepstrum erlaubt Zerlegung in Anteile von Vokaltrakt und Anregung
Trennung durch „Liftering“
Anwendung:
Formantbestimmung
Grundfrequenzbestimmung
37
Cepstrum.
Beispiele:
(Flanagan, 1972, 175)

38
Lineare Prädiktion.
Idee:
Quelle-Filter-Modell → Inverse Filterung
(Blauert, 1994)
39
Transversalfilter T(jω):
berechnet aus vergangenen Werten g(t) ein aktuelles
g(t) – A ⋅ s(t)
sagt die Differenz zwischen Sprache und Anregungssignal voraus
→ lineare Prädiktion, LPC-Analyse
Bestimmung der Parameter:
A: quadratischer Mittelwert
ai: minimaler mittlerer quadratischer Fehler zwischen S(jω) und S‘(jω)
bzw. s(t) und s‘(t)
Neuberechnung für jeden Signalabschnitt notwendig
40
Nach der Analyse:
„weißes“ Anregungssignal
spektrale Einhüllende – und damit Lautinformation – steckt im Prädiktorfilter
Anwendung:
effiziente Kodierung (vgl. Kapitel 6)
Formanterkennung
41
Formanterkennung und -tracking:
(Blauert, 1994)
42
Genauere Analyse:
Nach der LPC-Analyse bleibt Periodizität bei stimmhaften Anregungen
Extraktion durch weiteren „Langzeit-Prädiktor“
s ' ' (t ) = s ' (t ) − b[s ' (t − T0 )]
T0 : Grundperiode
43
Backup.

VL sk05 1

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

VL sk05 1

Hochgeladen von

Copyright:

Verfügbare Formate

Rückblick.

3. Grundlagen der menschlichen Spracherzeugung

(aus Heute, 1990,

Impulsfolge Breitband- Sprungfunktion

Anregung: periodisch (Impulsfolge) oder

(Vary et al., 1998, 47)

Querschnittsverlauf Querschnitt durch

Mund: p (t ) = 0 für x=l

Glottis: q (t ) = 0 für x=0

p2+ = (1 + r12 ) ⋅ p1+ + r12 p 2 −

Quelle: Modellierung des Anregungssignals

S(jω) G(jω) Schaltung für T(jω):

X(ejΩ) X (e j (Ω+Ωm ) ) X (e j ( Ω+Ωm ) ) ⋅ H T (e jΩ )

→ Frequenzgänge gehen durch Verschiebung auseinander hervor

 Kurzzeitspektrum des Signals x(k)

 Aus Gründen der Realisierbarkeit: Nur M Frequenzkomponenten (DFT)

mit x μ (k ) = x(k ) ⋅ e − jμΩ0k de-modulierte Signale

∑ (xμ (κ ) ⋅ h (k − κ ) ) Kurzzeitspektrum in endlich langem

hT(0) + hT(1) + hT(2) + hT(M-1) +

(Vary et al., 1998, 84)

 Rechenaufwand: M 2 komplexe Multiplikationen und M 2 Additionen

Realisierung: Fast-Fourier Transform (FFT)

M kompl. Mult. mit Faktor wM M2 2 M

(Vary et al., 1998, 78)

Sprache Anregung Vokaltrakt

(Flanagan, 1972, 175)

s ' ' (t ) = s ' (t ) − b[s ' (t − T0 )]

Das könnte Ihnen auch gefallen

Kurzzeitspektrum des Signals x(k)

Aus Gründen der Realisierbarkeit: Nur M Frequenzkomponenten (DFT)

Rechenaufwand: M 2 komplexe Multiplikationen und M 2 Additionen