Sie sind auf Seite 1von 20

Christoph Draxler

Korpusbasierte Sprachverarbeitung
Eine Einfhrung

narr studienbcher

narr studienbcher

Fr Gabi, Fiona und Felix

Christoph Draxler

Korpusbasierte Sprachverarbeitung
Eine Einfhrung

Gunter Narr Verlag Tbingen

Dr. phil. habil. Christoph Draxler lehrt am Institut fr Phonetik und Sprachverarbeitung der LMU Mnchen und leitet gemeinsam mit Florian Schiel das BAS, Bayerisches Archiv fr Sprachsignale.

Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet ber <http://dnb.d-nb.de> abrufbar.

2008 Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 D-72070 Tbingen Das Werk einschlielich aller seiner Teile ist urheberrechtlich geschtzt. Jede Verwertung auerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulssig und strafbar. Das gilt insbesondere fr Vervielfltigungen, bersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf chlorfrei gebleichtem und surefreiem Werkdruckpapier. Internet: http://www.narr-studienbuecher.de E-Mail: info@narr.de Druck: Gulde, Tbingen Bindung: Ndele, Nehren Printed in Germany ISSN 0941-8105 ISBN 978-3-8233-6394-1

Inhalt
Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 3 2 1 2 3 4 5 6 3 1 2 3 4 5 4 1 2 3 4 5 1 2 3 4 5 6 1 2 3 4 5 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sprachdatenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufbau des Buches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fr wen ist dieses Buch? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schwingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spektrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Digitalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gesprochene Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlagen gesprochener Sprache . . . . . . . . . . . . . . . . . . . . . . . . . Sprachlaute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sprachlaut und Signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sprachsignale am Computer . . . . . . . . . . . . . . . . . . . . . . . . . Oszillogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sonagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Signalarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 10 12 22 24 25 26 29 34 37 40 41 42 44 47 55 60 63 64 64 64 69 80

Signaldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Dateiformate fr Signaldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 u Datenkompression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Digitales Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Digitales Video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Symbolische Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Implizite und explizite Strukturierung . . . . . . . . . . . . . . . . . . . . . 110 Exkurs: Datenkonversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Datenbanksysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 Weitere Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

6 6 7 1 2 3 4 5 6 7 8 9 8 1 2 3 4 5 6 9 1 2 3 4 5 6 7 8 9 10 11 10 1 2 3 4 5

Inhalt Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Aufnahmetechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 Mikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 Aufnahmegerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 a Exkurs: Aufnahmekoer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Rume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 a Aufnahmen im Feld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 Aufnahmeverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 Einwilligung zu Aufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 Exkurs: Sprecherdatenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Annotation von Sprachsignalen . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Klassen von Annotationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Annotationen in Sprachdatenbanken . . . . . . . . . . . . . . . . . . . . . . 178 Exkurs: Wie kriege ich die /bld@n/ Zeichen in meinen Text? . 185 Annotationsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 Erstellung von Sprachdatenbanken . . . . . . . . . . . . . . . . . . . 192 Ein Beispiel vorab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Phasenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 Spezikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Vorbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 Datensammlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 Dokumentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 Validierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Die Sprachdatenbank Ph@ttSessionz . . . . . . . . . . . . . . . . . 222 Ausgangslage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 Die Vorluferprojekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 a Ph@ttSessionz Aufnahmespezikation . . . . . . . . . . . . . . . . . . . . . 226 Verarbeitung der Signaldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 Ph@ttSessionz v.1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237

11 Wichtige Links . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

Inhalt

12 Checkliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 13 IPA Alphabet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 14 Kombi-Formular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 15 Glossar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 16 Abkurzungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 17 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277

Vorwort

Das Mnchner Institut fr Phonetik und Sprachverarbeitung IPS ist u u in einer beneidenswerten Lage: institutionell eingebettet in die Geisteswissenschaften der LMU Mnchen, in regem akademischen Austausch u mit der Computerlinguistik, Physik, Informatik, Elektrotechnik und der Neurolinguistik, und aktiv in der Kooperation mit der Industrie. Wie nur an wenigen Orten sonst in Deutschland kommen hier geistesund naturwissenschaftliche Grundlagenforschung mit Technologieentwicklung zusammen, und das sorgt fr ein exzellentes Forschungs- und u Arbeitsklima. Das Bayerische Archiv fr Sprachsignale BAS ist eine Einrichtung u des IPS. Gegrndet wurde es 1995 mit dem Ziel, in Deutschland eiu ne zentrale Anlaufstelle fr Korpora gesprochener Sprache zu schaen. u Der Katalog des BAS umfasst mittlerweile uber 25 Sprachdatenbanken, das Aussprachelexikon Phonolex, frei erhltliche Software zur automaa tischen Segmentation, zur skriptgesteuerten web-basierten Sprachaufnahme, zur Visualisierung und Analyse von phonetischen Annotationen sowie zur automatischen Graphem-Phonem Konvertierung und der Katalog wird laufend erweitert. Das vorliegende Buch ist die erste deutschsprachige Einfhrung in u die Erstellung und Nutzung von Sprachdatenbanken. Es fasst die in vielen Jahren gewonnenen Erfahrungen in kompakter Form zusammen und soll Studierende, Forscher und Entwickler in die Lage versetzen, die optimale technische Ausrstung auszuwhlen, selbst Sprachdatenu a banken zu erstellen sowie vorhandene Datenbanken zu nutzen und sie zu erweitern. Ich bedanke mich bei meinen Kollegen und Kolleginnen am IPS fr u die anregenden Diskussionen und wertvollen Beitrge zu diesem Buch, a bei den Studierenden fr die kritischen Fragen und die Ermunterung, u Dinge immer wieder mit neuen Augen zu sehen.

Vorwort

Mein herzlicher Dank gilt auch den Korrekturleserinnen und -lesern Gabi Draxler, Stephan Euler, Katalin Mdy, Uwe Reichel, Florian a Schiel, Hans Tillmann und dem Lektor des Verlags, Jrgen Freudl, fr u u seine Bereitschaft, sich in ein ganz neues Themengebiet einzuarbeiten. Lothar Lemnitzer danke ich fr die Untersttzung bei der Formatierung u u mit LaTeX. Ganz besonderer Dank geht an Klaus Jnsch fr seine exzellente a u Programmierarbeit, ohne die web-basierte Sprachaufnahmen und damit die Sprachdatenbank Ph@ttSessionz nie mglich gewesen wren. o a Mnchen, im August 2008 u

Einleitung

Es passiert nicht hug, dass eine Wissenschaft mit einer uber Jahra hunderte whrenden Tradition fast uber Nacht in ihren Grundfesten a erschttert wird. In der Phonetik ist dies 1930 mit der entlichen u o Prsentation der ersten Rntgenlme von sprechenden Personen gea o schehen. Zum ersten Mal waren hier bislang unsichtbare Vorgnge im a Krper detailgetreu und in Bewegung abgebildet. o Der Linguist E. W. Scripture ist angesichts eines solchen Films uberwltigt: a The impression of such a lm is overwhelming. The organs of speech do not remain still for an instant, every speech act is the combination of the movements of all organs of the mouth, the throat, the larynx etc., and this combination is deployed over time. und er kommt zu einer beunruhigenden Schlussfolgerung: Sound positions simply do not exist. One understands at once that the sound physiology up to now has been based on an illusion and one awaits new explanations. ([Scr32], S. 173, zitiert nach [Ash94] S. 3092) Paradoxerweise erfolgte diese Erschtterung ausgerechnet durch u eben jene Mittel, von denen man sich eigentlich erhot hatte, dass sie die bestehende Theorie sttzen und festigen wrden: u u The paradoxical situation was that instruments had been introduced to replace subjective hearing by objective measurements, but the resulting picture did not show what was originally looked for: visible speech sounds. These had disappeared and had to be reinvented by the new phonologists. [Til94] Aus wissenschaftshistorischer Sicht markiert die Entwicklung eines bildgebenden Verfahrens zur maschinellen Aufzeichnung von Sprech bewegungen im Krper den Ubergang von der Forschung durch Ino trospektion und direkte Beobachtung zur empirischen Forschung mit objektiven Messdaten frwahr ein radikaler Umbruch. u

Einleitung

11

Doch damit nicht genug: zwei weitere technische Entwicklungen haben die Mglichkeiten und Anwendungsgebiete der Linguistik und Phoo netik auf dem Gebiet der Verarbeitung gesprochener Sprache revolutionr verndert: die Digitalisierung und das Internet. a a Der Ubergang von analoger auf digitale Technik hat dazu gefhrt, u dass die Rohdaten nun beliebig hug und ohne Verlust kopiert, und a dass unterschiedliche Datenarten zu komplexen Multimedia-Dokumenten kombiniert werden knnen. Damit knnen Forscher und Entwickler o o zum einen in verschiedenen Einrichtungen mit den gleichen Daten arbeiten und zum anderen durch die nun mgliche einfache Verknpfung o u von Daten neue Erkenntnisse gewinnen. Das Internet, insbesondere das World Wide Web, ermglicht nicht o nur den unmittelbaren Zugri auf weltweit verteilte Datenressourcen, sondern darber hinaus die gemeinsame sukzessive Erweiterung und u Verbesserung bestehender Ressourcen neue Rohdaten, Annotationen und Ergebnisse werden in vorhandene Datenbestnde integriert und a stehen allen Nutzern dann unmittelbar zur Verfgung. u u Der Rntgenlm1 in Abb. 1 ist ein anschauliches Beispiel dafr: die o Rntgenaufnahmen wurden 1974 von C. Rochette in der Radiologie o der Klinik Htel-Dieu de Qubec in Kanada auf 35 mm Kinolm aufo e gezeichnet. In den frhen 90er Jahren wurden sie dann von K. Munhall, u E. Vatikiotis-Bateson und Y. Tohkura in den Advanced Telecommunications Research Labors in Kyoto auf analoge Videodisk kopiert und im Jahr 2000 von Ph. Hoole am Institut fr Phonetik der LMU Mnchen u u digitalisiert. Letzterer hat diese digitalen Videos um ein Sonagramm, eine Text- und eine Phonemspur erweitert diese Spuren sind animiert und zeigen synchron mit dem ablaufenden Film das entsprechende Wort und Phonem sowie die aktuelle Abspielposition im Sonagramm. Das digitale Video erlaubt nun nicht nur ein einfaches Abspielen, sondern auch ein bildweises Vor- und Zurckblttern im Film, oder das wiederholte u a Abspielen einzelner Ausschnitte. Die zustzlichen Spuren ermglichen a o einen direkten Zugri auf einzelne Filmausschnitte uber linguistische Kategorien: Spiele das Wort outside ab, oder wiederhole den Diphthong /aI/ zehn Mal. Vom ursprnglichen Rntgenlm gab es nur ein Originalexemplar. u o Durch das Umkopieren auf Videodisk war eine Vervielfltigung zwar a mglich, wegen der prohibitiv hohen Kosten und der geringen Vero breitung von Abspielgerten jedoch wurden nur wenige Exemplare gea presst. Als digitales Video war dieser Film mit den zustzlichen Spuren a
1

Die Abbildung wurde freundlicherweise von Ph. Hoole vom Institut fr Phonetik u der LMU Mnchen zur Verfgung gestellt. u u

12

Einleitung

Abbildung 1. Rntgenbild des Mundraums bei der Artikulation des Diphthongs o /aI/ und Sonagramm der Auerung Its ten below outside.

zunchst nur auf CD, aber bereits in Tausenden von Exemplaren und a gratis, erhltlich. Mittlerweile kann man uber das WWW auf diesen a Film und viele weitere, in gleicher Weise aufbereitete Filme zugreifen und ihn zu Forschungs-, Ausbildungs- und Entwicklungszwecken nutzen.

1 Sprachdatenbanken
Der Aufbau und die Nutzung von Sprachkorpora sind zentrales Thema dieses Arbeitsbuchs. Der Terminus Sprachkorpus wird in der Literatur

Einleitung

13

aufgrund der Mehrdeutigkeit des Wortes Sprache im Deutschen sowohl fr Korpora gesprochener Sprache als auch fr Textkorpora, z. B. u u in der Korpuslinguistik verwendet. In diesem Arbeitsbuch wird daher der Begri Sprachdatenbank zur Bezeichnung eines strukturierten Datenbestandes mit gesprochener Sprache vorgeschlagen. Eine Sprachdatenbank ist ein auf Dauer angelegtes System zur Speicherung und Verwaltung unterschiedlicher sprachbezogener Daten. Sie hat den folgenden dreischichtigen Aufbau: Primrdaten: Signaldaten von gesprochenen Auerungen a Sekundrdaten: Reprsentation des Inhalts der Sprachsignaldaten a a in einem formalen kategorialen System Tertirdaten: Metadaten, Protokoll- und administrative Daten, Doa kumentation sowie Angaben zu Urheber- und Nutzungsrechten (siehe u.a. [Esl90, GMW97, Dra99b, IPA99, Oos00, LZ06]). Smta liche Daten sind in maschinenlesbarer, d. h. digitaler Form gespeichert. Am konkreten Beispiel des Rntgenlms lassen sich die drei Dateno ebenen erlutern. Der digitalisierte Rntgenlm sowie der per Mia o krofon aufgezeichnete Sprachschall, dargestellt in Form eines Sona gramms, sind die Primrdaten. Der Wortlaut der Auerung in enga lischer Standardorthographie und eine phonemische Transkription sind Sekundrdaten. Weitere Spuren, z. B. eine enge phonetische Transkripa tion oder eine morphologische Annotation knnen hinzugefgt und mit o u den vorhandenen Spuren verknpft werden. Die Tertirdaten beschreiu a ben die Daten- und Annotationsebenen mit ihren Abhngigkeiten, z. B. a Verwendung des englischen SAMPA Phonem-Inventars fr die Tranu skription, den Sprecher, z. B. Alter, Geschlecht und regionale Herkunft, sowie technische Parameter des Films, z. B. Videoformat und Dateigre. o Die Primrdaten sind prinzipiell unvernderlich, die Sekundrdaten a a a dagegen vernderlich: Annotationen werden korrigiert, hinzugefgt oder a u gelscht, neue Annotationsebenen kommen hinzu usw. Diese Anderuno gen mssen in den Tertirdaten natrlich protokolliert werden, so dass u a u auch diese vernderlich sind. a Die Denition von Sprachdatenbanken klammert quantitative Aspekte ebenso wie die Festlegung auf bestimmte Speicher- und Kommunikationsmedien bewusst aus.

14

Einleitung

1.1 Sprachdatenbanken in Forschung und Entwicklung


Sprachdatenbanken sind die zentrale Ressource in allen sprachverarbeitenden Disziplinen. Je nach Aufgabenstellung sind sie unterschiedlich aufgebaut: Zur Untersuchung theoretischer Fragestellungen sind hug Spracha datenbanken mit nur wenigen Sprechern und Sprachmaterial in geringem Umfang, dafr aber in einer Vielzahl unterschiedlicher Siu gnalarten notwendig, z. B. akustisches Signal, Sensordaten, biometrische Daten. Fr die Entwicklung sprachtechnologischer Anwendungen dagegen, u z. B. Spracherkennung, Sprachsynthese oder Dialogsysteme, mssen u Sprachdatenbanken mglichst alle im spteren praktischen Einsatz o a vorkommenden sprachlichen Phnomene abdecken. Deswegen bestea hen TechnologieSprachdatenbanken ublicherweise aus nach demo graphischen Kriterien ausgewhlten groen Sprecherpopulationen, a anwendungsspezischem Vokabular und realittsnahen Signaldaten. a Die Erstellung von Sprachdatenbanken ist zeitaufwendig und teuer. Eine ganz grobe Abschtzung erlaubt der sog. Echtzeitfaktor, der a angibt, wie lang die reine Nachbearbeitung eines Sprachsignals im Verhltnis zur Dauer der Auerung ist. Dieser ist fr eine einfache a u ok/nicht ok-Beurteilung > 1, denn die Auerung muss geladen, angehrt und dann beurteilt werden. Fr eine Niederschrift des Wortlauts o u liegt er bei uber 10, fr eine breite phonemische Transkription uber 100 u und fr eine enge phonetische Transkription bei > 500. Eine Minute u Sprache kann also uber 500 Minuten Nachbearbeitung bentigen! Und o der Aufwand fr die Planung der Aufnahmen, ihre Durchfhrung, den u u Datentransfer sowie die Dokumentation und Distribution der Daten ist hier noch gar nicht eingerechnet. Es ist daher notwendig, von Anfang an darauf zu achten, dass Sprachdatenbanken fr mglichst viele Anwendungszwecke geeignet u o sind, und dass sie sowohl quantitativ, durch Hinzufgen weiterer Daten, u als auch qualitativ, durch zustzliche Datenarten wie neue Annotatioa nen oder Metadaten, erweitert werden knnen. o Im Vorwort zu seinem Handbuch zu einer X-Ray Microbeam Speech Production Database vergleichen Westbury et al. das Erstellen einer Sprachdatenbank mit dem eines Thesaurus ([WTD94] S. ii): It has taken much more work from members of our group than I rst imagined, in no small part because our intent, like Rogets, has been to produce a public resource that might benet many, for years to come. ... The resulting resource was intended to be

Einleitung suciently accurate and deep to withstand statistical scrutiny of variance, within and across speakers, and perhaps most importantly, to be an open resource, available for unlimited inspection and use by other speech scientists.

15

Drei zentrale Aspekte von Sprachdatenbanken werden hier bereits angefhrt: 1) die Anwendungsunabhngigkeit und der uneingeu a schrnkte Zugri: public resource und unlimited inspection, 2) die a Nutzung durch einen groen Anwenderkreis: benet many, und 3) die langfristige Verfgbarkeit: years to come. u Die meisten Sprachdatenbanken werden zielgerichtet fr einen speu ziellen Zweck erstellt, z. B. das Trainieren von Spracherkennungssystemen. Im Laufe der Zeit kommen dann weil die Sprachdatenbanken nun bereits vorhanden sind weitere Anwendungen hinzu, die zum Zeitpunkt der Erstellung noch gar nicht vorhersehbar waren. Diese neuen Anwendungen fhren zu Erweiterungen der Sprachdatenbank, u da sie zustzliche Annotationsebenen hinzufgen, die dann wiederum a u den Nutzen der Sprachdatenbank fr weitere Anwendungen erhhen: u o [LC98, GB00]: Once a [representative, extensive, and uniform] database is established, numerous commensurate studies on the same data can be made. ([Mad84], S. 3) oder It is increasingly common for layers of annotation to be added over time to existing databases ... these annotations have introduced new structure, which was then used by others. ([LC98], S. 163) und Both the potential and the motivation for re-use increase with the size of the corpus: larger corpora provide a better representation of linguistic diversity and variability, and so are richer objects of study for any research goal; also, the expense and eort that go into the creation of a large corpus, typically on behalf of a particular research program, can provide powerful leverage for researchers involved in other projects or areas of study. ([GB00], S. 427) So wurde beispielsweise die Sprachdatenbank TIMIT 1986 zur Entwicklung von Spracherkennungssystemen erstellt. Ursprnglich enthielt u sie nur die Sprachsignale, den Wortlaut des gelesenen Satzes und eine

16

Einleitung

phonemische Segmentation in einem eigenen phonemischen Alphabet [GLF+ 86]. Sukzessive sind dann phonetische Segmentationen, prosodische Annotationen sowie weitere Annotationsebenen hinzugefgt worden, und u gleichzeitig wurde sowohl die ursprngliche Sprachdatenbank um neue u Signaldaten wie Festnetz- und Mobiltelefon oder Elektromagnetische Artikulographie erweitert als auch das Design der Datensammlung auf andere Sprachen ubertragen, so dass es nun z. B. franzsische, deutsche, o japanische und andere TIMIT-artige Sprachdatenbanken gibt. Auerdem wurde die Sprachdatenbank immer wieder zur Entwicklung neuer Anwendungen herangezogen, z. B. zur Extraktion von Sprechermerkmalen fr die Sprecherverikation [FG96] oder eine automau tische Alinierung von phonetischen Segmenten [Sj01]. Sogar fr sozioo u linguistische Untersuchungen wurde TIMIT herangezogen [Str]. Uber 20 Jahre nach der ersten Verentlichung ist TIMIT also imo mer noch eine viel genutzte und aktuelle Sprachdatenbank!

1.2 Bedarf an Sprachdatenbanken


In der Linguistik und Phonetik hat die empirische Arbeit mit Textund Sprachkorpora eine lange Tradition, und es wurden einige Sprachdatenbanken erstellt. Die rasante Entwicklung der Sprachtechnologie, insbesondere der Spracherkennung und Sprachsynthese, aber auch anderen Anwendungen, hat den Bedarf an Sprachdatenbanken geradezu explosionsartig anwachsen lassen. Spracherkennungssysteme werden in einem statistischen Verfahren trainiert: eine sprachgesteuerte Gertebedienung erfordert Sprachaufa nahmen von hunderten von Sprechern, die alle mglichen Kommandos o zur Bedienung des Gerts sprechen, ein Diktiersystem tausende von a Stunden von Sprachbeispielen.2 Eine konkatenative Sprachsynthese (vgl. Abschnitt 1.6) setzt ih re generierten Auerungen aus Fragmenten von zuvor aufgenommener menschlicher Sprache zusammen. Sie klingt umso natrlicher, je besu ser die einzelnen Fragmente zueinander passen und nur eine groe Sprachdatenbank bietet diese Auswahl. Viele der Anstze, die in der Sprachtechnologie entwickelt wurden, a haben nun auch Eingang in die Phonetik und Linguistik gefunden: so
2

Dieses Training erfolgt bei der Entwicklung der Diktiersystemsoftware. Das kurze Sprechen von Teststzen durch den Anwender der Software bei der erstmaligen a Verwendung des Diktiersystems ist nur zur Anpassung der Software an die Stimme und Sprechweise des Anwenders notwendig, und es dauert meist nur Minuten.

Einleitung

17

sind z. B. probabilistische Verfahren nicht mehr nur auf die Spracherkennung beschrnkt, sondern erweisen sich auch als erfolgreich in der a Syntaxanalyse, der Informationsextraktion, Textzusammenfassung und der maschinellen Ubersetzung, was den Bedarf an geeigneten Korpora erhht. o Zudem hat sich herausgestellt, dass jede neue technische Anwendung zunchst einmal eine Sprachdatenbank zu ihrer Entwicklung bentigt a o und dass sich andererseits jeder Fortschritt in der Sprachtechnologie sofort auf die Erstellung von Sprachdatenbanken auswirkt. So war z. B. die PhonDat Sprachdatenbank notwendig, um das automatische Segmentationsverfahren MAUS (Munich Automatic Segmentation) zu entwickeln [Sch97, KWS97, Kip99, Sch99, Sch04a]. Dieses Verfahren wird seitdem in vielen weiteren Datensammlungen zur phonetischen Segmentation eingesetzt und vereinfacht und beschleunigt auf diese Weise die Erstellung neuer Sprachdatenbanken. In den folgenden Abschnitten wird, stellvertretend fr weitere Anu wendungsgebiete, die Verwendung von Sprachdatenbanken fr die emu pirische Grundlagenforschung und die Technologieentwicklung beschrieben.

1.3 Dialektologie
Die Dialektologie interessiert sich fr regionale Varietten von Sprau a chen. Diese Varietten manifestieren sich vor allem in gesprochener a Sprache, und dort auf verschiedenen linguistischen und phonetischen Ebenen wie Syntax, Lexik, Prosodie und Phonetik.3 Zur Dokumentation und Erforschung von regionalen Varietten wera den in der Regel Sprachaufnahmen durchgefhrt. Die Sprecher hug u a auch Gewhrsleute oder Informanten genannt sind nach regionalen a Merkmalen ausgewhlt, z. B. Muttersprache, Dialekt, Sprache in der a Familie, Ausbildung, Beruf usw. Ebenfalls interessant sind die bisherigen Wohnorte und der aktuelle Wohnort. Das Sprachmaterial besteht sowohl aus fr die konkrete Fragestellung konstruiertem Material (z. B. u Wortlisten, regionaltypische Redewendungen, phonetisch reiche Stze) a als auch aus Aufnahmen spontan gesprochener Sprache (z. B. Bildbeschreibungen, freie Interviews usw.), sowohl in mono- als auch dia logischer Sprechsituation. Uber die Sprachaufnahmen wird Protokoll gefhrt: Aufnahmeort, -datum und -zeit, beteiligte Sprecher, techniu sche Ausrstung usw. u
3

Eine schne Einfhrung in die Dialektologie gibt [Lf03]. Soziolinguistische o u o Aspekte stehen bei [BS98a] im Vordergrund.

18

Einleitung

Nach der eigentlichen Aufnahme werden die Sprachsignale auf ihre technische Qualitt geprft, inventarisiert und mindestens phonemisch a u oder phonetisch transkribiert. Hug kommt sogar noch eine Segmena tation hinzu, d. h. die Transkriptionen werden mit Zeitangaben, die auf Abschnitte im Sprachsignal verweisen, versehen. Anschlieend werden alle in den Transkriptionen vorkommenden Wortformen in einer Wortliste gesammelt, aus der dann ein Lexikon erstellt wird. Eine Sprachdatenbank fr regionale Varietten enthlt als Primru a a a daten die Audio- und evtl. Videosignale der Sprachaufnahmen in digitaler Form. Die Sekundrdaten bestehen aus den Text- und Bildvora gaben und Anleitungen fr die Sprecher, den whrend oder nach den u a Aufnahmen erstellten Transkriptionen sowie der Wortliste und dem Lexikon. Die Primr- und Sekundrdaten sind miteinander verknpft, a a u so dass z. B. eine Suche nach der Wortkombination haben wir auf der Ebene der Sprechervorgaben die Transkriptionen der tatschlichen a Realisierungen wie hammwa, mir hennt oder ahnliche ndet und die entsprechenden Audiosignale zum Anhren bereitstellt. Protokolo le, Angaben zum Sprecher und zur Aufnahmetechnik sowie zustzliche a Dokumentation wie Fotos usw. sind Teil der Tertirdaten. a

1.4 Artikulatorische Phonetik


Die artikulatorische Phonetik untersucht die Bewegungen des Sprechapparats beim Sprechen. Diese Bewegungen werden mit Sensoren erfasst und zur weiteren Analyse oder zur Prsentation aufbereitet. Diea se Aufnahmen werden einerseits fr die Grundlagenforschung bentigt, u o andererseits knnen sie auch zur Diagnose von motorischen Spracho strungen durchgefhrt werden. o u Der apparative Aufwand fr diese Aufnahmen ist hoch, in der Regel u ist Spezialausrstung notwendig, z. B. Laryngoskope, Artikulographen, u Magnetresonanz-Tomographen (MRT) oder Rntgengerte. Einige dieo a ser Aufnahmetechniken sind fr die Sprecher sehr belastend: im MRT u liegen die Sprecher bewegungslos in einer engen Rhre, beim Rntgen o o sind sie einer hohen Strahlenbelastung ausgesetzt. Diese Aufnahmen knnen daher nur selten durchgefhrt werden umso wichtiger ist es, o u sie dauerhaft verfgbar zu halten. Aufgenommen werden meist nur weu nige Sprecher, diese unter Umstnden aber mehrfach, z. B. zur Beura teilung des Erfolgs einer Operation oder Therapie. Das zu sprechende Material besteht aus unter phonetischen oder linguistischen Gesichtspunkten konstruierten sinnlosen Wort- und Lautfolgen oder Stzen. a Sprachdatenbanken fr die artikulatorische Phonetik enthalten als u Primrdaten die synchronisierten Audio-, Video- und Sensordaten der a

Einleitung

19

Aufnahmen. Sekundrdaten sind die Vorgaben an die Sprecher, zeita alinierte Transkriptionen sowie Wortlisten und ein Lexikon. Die Tertirdaten umfassen Aufnahmeprotokolle, Angaben zum Sprecher sowie, a besonders im medizinischen Umfeld, Arztberichte und Patientenakten.

1.5 Spracherkennung
Bei der Spracherkennung geht es darum, dass der Computer den In halt einer gesprochenen Auerung extrahiert, z. B. den Wortlaut einer Informationsabfrage wie Wann geht der nchste Zug nach Franka furt?, Kommandowort und Parameter eines gesprochenen Befehls, z. B. Computer: Browser starten!, oder diktierten Text, z. B. Neuer Absatz bei der Spracherkennung geht es darum Komma dass der Computer....4 Die derzeit erfolgreichsten Verfahren zur Spracherkennung basie ren auf einem probabilistischen Ansatz: eine Auerung wird in eine Folge von Merkmalsvektoren zerlegt. Diese Folge wird mit gespeicherten Modellen der zu erkennenden Einheiten verglichen. Der Vergleich der Merkmalsvektoren mit den Modellen liefert einen Wahrscheinlichkeitswert; wenn dieser uber einer vorgegebenen Schwelle liegt, gilt die Einheit als erkannt. Die zu erkennenden Einheiten sind z. B. Phone me, Silben oder Wrter aus diesen muss die gesamte Auerung in o einem zweiten Schritt zusammengesetzt werden. Hierbei kann zur Verbesserung des Ergebnisses der pragmatische Kontext oder linguistisches Wissen einbezogen werden, wobei auch hier verstrkt probabilistische a Verfahren zum Einsatz kommen. Die Modelle eines Spracherkennungssystems erhlt man durch einen a Trainingsvorgang mit einer Sprachdatenbank. Ein mit zuflligen Wera ten initialisiertes System berechnet in mehreren Iterationen die empirische Beziehung zwischen Audiosignal und den zu erkennenden Einheiten. Nach jeder Iteration wird getestet, ob sich die Erkennungsleistung verbessert hat wenn nicht, dann ist das Training beendet. Sprachdatenbanken dienen zum einen dem Trainieren von Spracherkennungssystemen, zum anderen dem Testen. Als Primrdaten enta halten sie Audioaufnahmen mit einer Sprecherpopulation, einer technischen Signalqualitt und einem Vokabular, die dem spteren Anwena a dungsgebiet des Erkennungssystems mglichst gut entsprechen. Die o Sekundrdaten sind der Wortlaut der Auerungen, eine Transkriptia on auf der Ebene der zu erkennenden Einheiten inklusive Marker fr u
4

Eine gute Ubersicht gibt das Kapitel Spracherkennung von [Hai05] in [CEE+ 04], eine vertiefte Einfhrung mit vielen praktischen Beispielen [Eul06]. u