Beruflich Dokumente
Kultur Dokumente
(Sprachsignalverarbeitung und
Sprachtechnologie)
Sebastian Möller
Quality and Usability Lab
Deutsche Telekom Laboratories
TU Berlin
Sekr. TEL-18, Geb. TEL, 18. Etage
sebastian.moeller@telekom.de
IV Sprachkommunikation (Sprachsignalverarbeitung und Sprachtechnologie).
Sebastian Möller
Termin:
Vorlesung Mo 10-12, Übung Fr 10-12 (mit wenigen Ausnahmen)
Auditorium 2, TEL 20, bzw. Computerräume im TEL 2, ab 19.10.2009
Inhalt:
1) Motivation und Zielsetzung
2) Sprachsignaldarstellung und -eigenschaften
3) Grundlagen der menschlichen Spracherzeugung
4) Sprachsignalanalyse
5) Grundlagen der auditiven Wahrnehmung
6) Sprachsignalübertragung und -kodierung
7) Sprachtechnologische Systeme
7.1 Spracherkennung
7.2 Sprachsynthese
7.3 Natürlichsprachliche Dialogsysteme
8) Multimodale Systeme
Zur Vorlesung wird ein Skript herausgegeben, welches den Vorlesungs- und Prüfungsstoff komplett
abdeckt. Trotzdem ist der regelmäßige Besuch der Vorlesung sehr empfehlenswert!
1
IV Sprachkommunikation (Sprachsignalverarbeitung und Sprachtechnologie).
Sebastian Möller & Christine Kühnel & Florian Gödde
Übungen:
Praktische Übungen
Ü1 – Ü6: Angeleitete Übung mit Praat, Audacity, ev. Octave zu den
Themen der Vorlesung
Prüfung:
Die Prüfung wird als mündliche Einzelprüfung durchgeführt.
Durch die Übungen können maximal 15 Bonuspunkte erzielt
werden, die zu den in der Prüfung erzielten Punkten addiert
werden (maximal 100 Punkte).
2
Kapitel 1: Motivation und Zielsetzung.
1. Motivation und Zielsetzung
Was ist Sprache?
4
1. Motivation und Zielsetzung
Was ist Sprache?
Semiotisches Dreieck:
Triade mit drei Korrelaten:
Zeichenträger (Repräsentamen, Symbol)
Bedeutung (Interpretant, Gedanke oder Referenz)
Referenzobjekt (Objekt, Referent)
Bedeutung
3
1 2
Zeichenträger Referenzobjekt
(Darstellung nach Nöth, 2000)
5
1. Motivation und Zielsetzung
Begriffe.
6
1. Motivation und Zielsetzung
Begriffe.
7
1. Motivation und Zielsetzung
Begriffe.
Akustische Korrelate:
Dauer
Amplitude
Grundfrequenz
8
1. Motivation und Zielsetzung
Anwendungen.
PSTN / ISDN
Mobilfunknetz Akustische
Akustische Kopplung
Kopplung IP-basiertes Netz Reflexionen
Hintergrund-
geräusch Hintergrund-
Coder/Decoder
geräusch
Unkorr.
Rauschen
Verzögerung Sprecher-Echo
Sprecher-Echo Hörer-Echo
Übertragungsfehler
Rahmen- / Paketverluste
Sprach-Pausen-Detektion
(Möller, 2005)
9
1. Motivation und Zielsetzung
Anwendungen.
Störung
n
Sprache
s + Geräusch- Sprach-
A/D +
Reduktion Kodierung
-
Echo-
Echo Kompen-
sation
Signal- Sprach-
A/D
Verbesserung Dekodierung
11
1. Motivation und Zielsetzung
Anwendungen.
Sprach- Sprach-
verstehen erkennung
PSTN / ISDN
Dialog- Sprachdialog- Mobilfunknetz Akustische
management system Kopplung
IP-basiertes Netz Reflexionen
Verzögerung Sprecher-Echo
Hörer-Echo
Übertragungsfehler
Rahmen- / Paketverluste
Sprach-Pausen-Detektion
(Möller, 2005)
12
1. Motivation und Zielsetzung
Anwendungen.
Illustration: K. Bredies
13
1. Motivation und Zielsetzung
Marktentwicklung der Sprachtechnologie.
14
1. Motivation und Zielsetzung
Marktentwicklung der Sprachtechnologie.
15
1. Motivation und Zielsetzung
Marktentwicklung der Sprachtechnologie.
16
1. Motivation und Zielsetzung
Marktentwicklung der Sprachtechnologie.
17
1. Motivation und Zielsetzung
Kommunikation.
Signal Signal
Infor- Infor-
Sender Emp-
mations- Kanal mations-
fänger
quelle ziel
Störquelle
18
1. Motivation und Zielsetzung
Kommunikation.
Einstellung des
Sprechtraktes:
Räumlicher Elektr. Nerven-
Information Kode Schallwelle Signal Schallwelle pulse
3. Modu- De-
1. Modu- 2. Modu- lation:
Sprech- modu-
Gehirn lation: lation: Über- Ohr Gehirn
trakt lation:
Laut- Mikrofon tragung Laut-
formung
Sprech.
Luftströmung Störung
als Träger
19
1. Motivation und Zielsetzung
Kommunikation.
Einflussfaktoren:
(Sprech-) Verhalten des menschlichen Kommunikationspartners
(Sprech-) Verhalten des maschinellen Interaktionspartners
Eigenschaften des Übertragungskanals
Kommunikationssituation, Zweck der Kommunikation, Motivation, Erfahrung, etc.
Mögliche Störungen:
Übertragungskanal, z.B. Hintergrundgeräusche, Leitungsrauschen, Echos,
Paketverluste, Verzögerungen, etc.
Sprachproduktion
Sprachrezeption
Kein gemeinsames Zeichensystem
20
1. Motivation und Zielsetzung
Literatur.
Blauert, J. (1994). Kommunikationsakustik II: Audiokommunikation und virtuelle Realität. Skriptum
zur Vorlesung am Institut für Kommunikationsakustik, Ruhr-Universität, Bochum.
Datamonitor (2006). Profiting from Evolving Speech Applications (Review Report). Reference Code
DMTC1634, www.datamonitor.com.
Dudley, H. (1940). The Carrier Nature of Speech. Bell Systems Technical Journal 19, 494-515.
Gartner (2006). Hype Cycle for Enterprise Speech Technologies.
Heute, U. (1990). Sprachverarbeitung. Skriptum zur Vorlesung der Arbeitsgruppe Digitale
Signalverarbeitung, Ruhr-Universität, Bochum.
Lewandowski, Th. (1994). Linguistisches Wörterbuch. 6. Auflage, Quelle & Meyer, Heidelberg.
Möller, S. (2005). Quality of Telephone-Based Spoken Dialogue Systems. Springer, New York NY.
Nöth, W. (2000). Handbuch der Semiotik. 2. Auflage, Verlag J.B. Metzler, Stuttgart.
Shannon, C.E., Weaver, W. (1949). The Mathematical Theory of Communication. University of Illinois
Press, Champaign IL, 1999.
Vary, P., Heute, U., Hess, W. (1998). Digitale Sprachsignalverarbeitung. B.G. Teubner, Stuttgart.
21
Backup.