Sie sind auf Seite 1von 2

Melanie Siemund

Humboldt-Universitt zu Berlin
55. StuTS in Greifswald
Abstract fr 20-Minuten Vortrag
du bist am Start das ist gut PoS-Tagging in gesprochener Sprache am Beispiel BeMaTaC
Die Bestimmung von Wortarten spielt eine sehr wichtige Rolle in der Korpuserstellung. Hierbei
wird mit Hilfe eines Taggers jedem Wort ein Wortarten-Tag zugeteilt. Dies geschieht automatisch
auf Grund verschiedener Lexika und von Wahrscheinlichkeitsbumen und wird Part-of-SpeechTagging (PoS-Tagging) genannt. Fr geschriebene Standardsprache wird eine sehr hohe
Genauigkeit von 95-98 Prozent erreicht. Anders sieht es jedoch aus, wenn Nichtstandardvarietten
getaggt werden sollen. Sie zeigen eine starke Abweichung von grammatischen und
orthographischen Regeln und bereiten damit eine Herausforderung fr die automatische
Verarbeitung. Hierunter zhlt beispielsweise gesprochene Sprache. Aktuell werden transkribierte
Daten nach schriftlichem Standard normalisiert und das PoS-Tagging auf die Normalisierung
ausgefhrt. Dadurch ergibt sich das Problem, dass spezifische Phnomene gesprochener Sprache
verloren gehen und sich nicht mehr untersuchen lassen. Daher sollte auf nicht normalisierten Daten
getaggt werden. Gerade im theoretischen Bereich (mehr als im technischen) liegen hier jedoch
groe Schwierigkeiten, treten in gesprochener Sprache Wortarten auf, die so nicht in geschriebenem
Standard vorkommt.
Im Vortrag soll betrachtet werden, wie eine Wortartenklassifikation fr gesprochene Sprache
angepasst werden muss, was es fr Probleme beim PoS-Tagging gesprochener Sprache gibt und ob
eine Normalisierung fr ein solches PoS-Tagging notwendig ist. Fr die Studie wird das Berlin Map
Task Corpus (Sauer & Rasskazova 2014) verwendet, welches ein frei verfgbares multimodales
Korpus gesprochener Sprache ist, welches an der Humboldt-Universitt zu Berlin entwickelt wird.
Gearbeitet wird mit einem Subkorpus von deutschen Muttersprachlern. Die aufgenommenen
Dialoge basieren auf einer Map-Task-Aufgabenstellung (Anderson et al. 1991), bei der eine Person
einer anderen einen Weg auf einer Karte mit Landmarken (Brinckmann et al. 2008) erklrt. Getaggt
wird mit dem TreeTagger (Schmid 1994) sowie dem Stuttgart-Tbingen-Tagset (Schiller 1999).
Literatur, Korpus und Tools
Anderson, A., Bader, M., Bard, G., Boyle, E., Doherty, G., Garrod, S., Isard, S., Kowtko, J.,
McAllister, J., Miller, J., Sotillo, C., Thompson, H., Weinert, R. (1991): The HCRC Map Task
Corpus. In: Language and Speech 34, 351366. [online]

Booij G. E., Lehman, C., Mugdan, J. (Hg.) (2000): Morphologie / Morphology. Ein internationales
Handbuch zur Flexion und Wortbildung / An International Handbook on Inflection and WordFormation. Berlin/Boston (de Gruyter).
Brinckmann, C., Kleiner, S., Knbl, R., Berend, N. (2008): German Today: an areally extensive
corpus of spoken Standard German. In: Proceedings 6th International Conference on Language
Resources and Evaluation. LREC 2008 [online]
Kaltz, B. (2000): Wortartensysteme in der Linguistik. In: Booij G. E. et al. (Hg.) (2000), 693707.
Knobloch, C. (2000): Kriterien fr die Definition von Wortarten. In: Booij G. E. et al. (Hg.) (2000),
674692.
Sauer, S., Rasskazova, O. (2014): BeMaTaC eine digitale multimodale Ressource fr Sprach- und
Dialogforschung. Workshop Grenzen berschreiten Digitale Geisteswissenschaft heute und
morgen, Digital Humanities Berlin 2014. [online] , http://u.hu-berlin.de/bematac
Schiller, A., Teufel, S., Thielen, C. (1999): Guidelines fr das Tagging deutscher Textkorpora mit
STTS, (Kleines und groes Tagset). Universitt Stuttgart, Universitt Tbingen. [online]
Schmid, H. (1994): Probabilistic part-of-speech tagging using decision trees. In: Proceedings of the
International Conference on New Methods in Language Processing, Manchester, UK. [online]
Schmidt, T., Wrner, K. (2009): EXMARaLDA Creating, analysing and sharing spoken language
corpora for pragmatic research. In: Pragmatics (19:4), 565582.
Steiner, P. (2004): Wortarten und Korpus. Automatische Wortartenklassifikation durch
distributionelle und quantitative Verfahren. Aachen (Shaker Verlag).
Zinsmeister, H., Heid, U., Beck, K. (Eds.) (2013): Das Stuttgart-Tbingen Wortarten- Tagset
Stand und Perspektiven. Journal for Language Technology and Computational Linguistics 28/1.
[online]