Sie sind auf Seite 1von 23

Vorlesung Sprachkommunikation

(Sprachsignalverarbeitung und
Sprachtechnologie)

Sebastian Möller
Quality and Usability Lab
Deutsche Telekom Laboratories
TU Berlin
Sekr. TEL-18, Geb. TEL, 18. Etage
sebastian.moeller@telekom.de
IV Sprachkommunikation (Sprachsignalverarbeitung und Sprachtechnologie).
Sebastian Möller

Termin:
Vorlesung Mo 10-12, Übung Fr 10-12 (mit wenigen Ausnahmen)
Auditorium 2, TEL 20, bzw. Computerräume im TEL 2, ab 19.10.2009
Inhalt:
1) Motivation und Zielsetzung
2) Sprachsignaldarstellung und -eigenschaften
3) Grundlagen der menschlichen Spracherzeugung
4) Sprachsignalanalyse
5) Grundlagen der auditiven Wahrnehmung
6) Sprachsignalübertragung und -kodierung
7) Sprachtechnologische Systeme
7.1 Spracherkennung
7.2 Sprachsynthese
7.3 Natürlichsprachliche Dialogsysteme
8) Multimodale Systeme
Zur Vorlesung wird ein Skript herausgegeben, welches den Vorlesungs- und Prüfungsstoff komplett
abdeckt. Trotzdem ist der regelmäßige Besuch der Vorlesung sehr empfehlenswert!

1
IV Sprachkommunikation (Sprachsignalverarbeitung und Sprachtechnologie).
Sebastian Möller & Christine Kühnel & Florian Gödde

Übungen:
Praktische Übungen
Ü1 – Ü6: Angeleitete Übung mit Praat, Audacity, ev. Octave zu den
Themen der Vorlesung

Gruppenarbeit - Entwicklung eines Sprachdialogsystems


Ü7 – Ü13: Einführung in voiceXML, Entwicklung eines Dialogsystems
mit dem CSLU toolkit, JVoiceXML oder Voxeo Prophecy.
Ü 14: Vorstellung und Wahl des besten Dialogsystems

Prüfung:
Die Prüfung wird als mündliche Einzelprüfung durchgeführt.
Durch die Übungen können maximal 15 Bonuspunkte erzielt
werden, die zu den in der Prüfung erzielten Punkten addiert
werden (maximal 100 Punkte).

2
Kapitel 1: Motivation und Zielsetzung.
1. Motivation und Zielsetzung
Was ist Sprache?

Definition Linguistisches Wörterbuch (Lewandowski, 1994, p.994):

„Die natürliche Sprache ist eine typisch menschliche und zugleich


gesellschaftliche Erscheinung; sie ist das primäre System von Zeichen,
ein Werkzeug des Denkens und Handelns und das wichtigste
Kommunikationsmittel.“

System von Zeichen → Semiotik

4
1. Motivation und Zielsetzung
Was ist Sprache?

Semiotisches Dreieck:
Triade mit drei Korrelaten:
ƒ Zeichenträger (Repräsentamen, Symbol)
ƒ Bedeutung (Interpretant, Gedanke oder Referenz)
ƒ Referenzobjekt (Objekt, Referent)
Bedeutung
3

1 2
Zeichenträger Referenzobjekt
(Darstellung nach Nöth, 2000)
5
1. Motivation und Zielsetzung
Begriffe.

Information vs. Bedeutung:


ƒ Information: Konventionalisierter bzw. institutionalisierter Kode
ƒ Bedeutung: Hervorgerufene Begriffe oder Vorstellungen
System vs. Realisierung:
ƒ Sprache als System (langue)
ƒ Realisierung als Sprechakte (parole)
Erscheinungsformen:
ƒ gesprochene Sprache (speech)
ƒ geschriebene Sprache (language)

6
1. Motivation und Zielsetzung
Begriffe.

Sprachsignale vs. Sprachlaute:


ƒ Sprachsignale: Verlauf der elektrischen oder akustischen Größen über der
Zeit
ƒ Sprachlaute: Sprach-Hörereignisse
Einheiten:
ƒ Laut: Segment, in das sich eine sprachliche Äußerung auditiv zerlegen lässt,
oder eine Klasse miteinander ähnlicher Segmente (Lewandowski, 1994)
ƒ Phonem: Kleinste bedeutungsunterscheidende, aber nicht selbst
bedeutungstragende Einheit
ƒ Morphem: Kleinste selbst bedeutungstragende Einheit

7
1. Motivation und Zielsetzung
Begriffe.

Beziehungen zwischen den Elementen:


ƒ Syntax: Beziehung der Zeichen untereinander
ƒ Semantik: Beziehung zwischen den Zeichen und dem, was sie bezeichnen
ƒ Pragmatik: Beziehung zwischen den Zeichen und ihrem Benutzer
Prosodie:
ƒ Aspekte:
ƒ Quantität
ƒ Intensität oder Akzentuierung
ƒ Intonation

ƒ Akustische Korrelate:
ƒ Dauer
ƒ Amplitude
ƒ Grundfrequenz

8
1. Motivation und Zielsetzung
Anwendungen.

Zwischenmenschliche Kommunikation über einen Telefonkanal:

Abschwächung / lineare Verzerrung

PSTN / ISDN
Mobilfunknetz Akustische
Akustische Kopplung
Kopplung IP-basiertes Netz Reflexionen
Hintergrund-
geräusch Hintergrund-
Coder/Decoder
geräusch
Unkorr.
Rauschen

Verzögerung Sprecher-Echo
Sprecher-Echo Hörer-Echo
Übertragungsfehler
Rahmen- / Paketverluste
Sprach-Pausen-Detektion
(Möller, 2005)
9
1. Motivation und Zielsetzung
Anwendungen.

Sprachsignalverarbeitung in einem Telekommunikations-Endgerät:

Störung
n
Sprache
s + Geräusch- Sprach-
A/D +
Reduktion Kodierung
-

Echo-
Echo Kompen-
sation
Signal- Sprach-
A/D
Verbesserung Dekodierung

(vgl. Vary et al., 1998)


10
1. Motivation und Zielsetzung
Sprache als Kommunikationsmedium mit Maschinen.

ƒ Sprache ist das Kommunikationsmedium des Menschen


ƒ intuitiv und natürlich
ƒ erfordert keine speziellen Kenntnisse bzw. Erlernen
ƒ geeignet in Hands-busy-eyes-busy-Situationen
ƒ speziell geeignet für sehbehinderte / nicht mobile Benutzer
ƒ von praktisch jedem Ort aus anwendbar (Telefon)

11
1. Motivation und Zielsetzung
Anwendungen.

Mensch-Maschine-Interaktion über einen Telefonkanal:

Abschwächung / lineare Verzerrung

Sprach- Sprach-
verstehen erkennung
PSTN / ISDN
Dialog- Sprachdialog- Mobilfunknetz Akustische
management system Kopplung
IP-basiertes Netz Reflexionen

Antwort- Sprach- Hintergrund-


generierung synthese Coder/Decoder
geräusch
Unkorr.
Rauschen

Verzögerung Sprecher-Echo
Hörer-Echo
Übertragungsfehler
Rahmen- / Paketverluste
Sprach-Pausen-Detektion

(Möller, 2005)
12
1. Motivation und Zielsetzung
Anwendungen.

Illustration: K. Bredies
13
1. Motivation und Zielsetzung
Marktentwicklung der Sprachtechnologie.

14
1. Motivation und Zielsetzung
Marktentwicklung der Sprachtechnologie.

15
1. Motivation und Zielsetzung
Marktentwicklung der Sprachtechnologie.

16
1. Motivation und Zielsetzung
Marktentwicklung der Sprachtechnologie.

17
1. Motivation und Zielsetzung
Kommunikation.

Modell nach Shannon und Weaver (1949):

Signal Signal
Infor- Infor-
Sender Emp-
mations- Kanal mations-
fänger
quelle ziel

Störquelle

18
1. Motivation und Zielsetzung
Kommunikation.

Erweitertes Modell (Heute, 1990):

Einstellung des
Sprechtraktes:
Räumlicher Elektr. Nerven-
Information Kode Schallwelle Signal Schallwelle pulse

3. Modu- De-
1. Modu- 2. Modu- lation:
Sprech- modu-
Gehirn lation: lation: Über- Ohr Gehirn
trakt lation:
Laut- Mikrofon tragung Laut-
formung
Sprech.

Luftströmung Störung
als Träger

19
1. Motivation und Zielsetzung
Kommunikation.

Einflussfaktoren:
ƒ (Sprech-) Verhalten des menschlichen Kommunikationspartners
ƒ (Sprech-) Verhalten des maschinellen Interaktionspartners
ƒ Eigenschaften des Übertragungskanals
ƒ Kommunikationssituation, Zweck der Kommunikation, Motivation, Erfahrung, etc.

Mögliche Störungen:
ƒ Übertragungskanal, z.B. Hintergrundgeräusche, Leitungsrauschen, Echos,
Paketverluste, Verzögerungen, etc.
ƒ Sprachproduktion
ƒ Sprachrezeption
ƒ Kein gemeinsames Zeichensystem

20
1. Motivation und Zielsetzung
Literatur.
Blauert, J. (1994). Kommunikationsakustik II: Audiokommunikation und virtuelle Realität. Skriptum
zur Vorlesung am Institut für Kommunikationsakustik, Ruhr-Universität, Bochum.
Datamonitor (2006). Profiting from Evolving Speech Applications (Review Report). Reference Code
DMTC1634, www.datamonitor.com.
Dudley, H. (1940). The Carrier Nature of Speech. Bell Systems Technical Journal 19, 494-515.
Gartner (2006). Hype Cycle for Enterprise Speech Technologies.
Heute, U. (1990). Sprachverarbeitung. Skriptum zur Vorlesung der Arbeitsgruppe Digitale
Signalverarbeitung, Ruhr-Universität, Bochum.
Lewandowski, Th. (1994). Linguistisches Wörterbuch. 6. Auflage, Quelle & Meyer, Heidelberg.
Möller, S. (2005). Quality of Telephone-Based Spoken Dialogue Systems. Springer, New York NY.
Nöth, W. (2000). Handbuch der Semiotik. 2. Auflage, Verlag J.B. Metzler, Stuttgart.
Shannon, C.E., Weaver, W. (1949). The Mathematical Theory of Communication. University of Illinois
Press, Champaign IL, 1999.
Vary, P., Heute, U., Hess, W. (1998). Digitale Sprachsignalverarbeitung. B.G. Teubner, Stuttgart.

21
Backup.

Das könnte Ihnen auch gefallen