Sie sind auf Seite 1von 32

Theorie

Praxis
Literatur

du bist am Start das ist gut


PoS-Tagging in gesprochener Sprache - am Beispiel BeMaTaC

Melanie Siemund, Humboldt-Universitat zu Berlin


in Zusammenarbeit mit M. D. M
aske, O. Rasskazova und J. Sell

29.5.2014

1/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

du bist am Start

2/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Inhaltsverzeichnis

3/31

Theorie
Annotation von Wortarten
Ziel

Praxis
Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Literatur

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Annotation von Wortarten


Ziel

Annotation von Wortarten

PoS-Tagging: Jedem Token wird automatisch durch einen


Tagger eine Wortart zugewiesen.
Diese Wortarten sind in einem Tagset hinterlegt.
Tagging von Standardsprache hat eine Genauigkeit von 95%
(Schmidt (1994)).
Was passiert, wenn wir ein Korpus gesprochener Sprache
haben?

4/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Annotation von Wortarten


Ziel

Annotation von Wortarten in gesprochener Sprache

Gesprochene Sprache zeigt h


ohere Variation in grammatischen
Regeln, Aussprache und Lexikonauswahl:
Jo gehste grad nach links oder wat?

Dialogsituation erzeugt viele sprachliche Phanomene, die in


geschriebener Sprache nicht vorkommen:
ahm, aha, mhm, hmm usw.

Wie geht man damit um?

5/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Annotation von Wortarten


Ziel

Annotation von Wortarten in gesprochener Sprache

Bisher werden nicht standardisierte Texte normalisiert:


Ja, gehst du gerade nach links oder was?

Automatisches PoS-Tagging wird auf diese normalisierten


Ebene ausgef
uhrt.
Dabei entsteht die Frage: Was untersuchen wir dann?
Bisher existiert kein PoS-Tagger, der auf gesprochene Daten
trainiert wurde und deren Varietaten umfasst.

6/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Annotation von Wortarten


Ziel

Ziel

Es soll ein Part-of-Speech-Tagger f


ur gesprochene Sprache
entworfen werden. Das heit, es soll ein Tagger bzw. Tagset so
erweitert werden, dass der Tagger mit realen Sprachdaten arbeiten
kann.

7/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Vorgehen

Um den Tagger auf Sprachdaten anwenden zu konnen, haben


wir
u
uft, wie der PoS-Tagger auf diesen Daten arbeitet,
berpr
auftretende Fehler klassifiziert,
anhand der Fehler einen Entwurf f
ur ein neues PoS-Tagset
aufgestellt,
daf
ur bereits vorhandene Ansatze betrachtet (Rehbein &
Schalowski (2013), ...)

8/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Was wird genutzt?

Korpus gesprochener Sprache: BeMaTaC (Berlin Map Task


Corpus)
Annotationstools: Praat und EXMARaLDA
PoS-Tagset: STTS (Stuttgart/T
ubingen Tag Set),
Erweiterung des STTS von KiDKo (KiezDeutsch-Korpus)
PoS-Tagger: TreeTagger
optimiert f
ur Deutsch
optimiert f
ur kleine Korpora
Vergleichbarkeit (BeMaTaC wird auch bisher mit dem
TreeTagger getaggt)

9/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

BeMaTaC
Berlin Map Task Corpus
ein multimodales Korpus
gesprochener Sprache
besteht aus Audio- und
Videoaufnahmen von Dialogen,
die auf einer Map Task basieren
Anzahl der Tokens:
L1-Subkorpus 17.047 Tokens

10/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

KiDKo

KiezDeutsch-Korpus
ist ein Korpus gesprochener Sprache, das aus
Selbstaufnahmen von Jugendlichen aus Berlin-Kreuzberg und
-Hellersdorf besteht.
enthalt mehrere Annotationsebenen, darunter:
Transkriptionsebene - wie gesprochen mit GAT
(Gesprachsanalytisches Transkriptionssystem)
orthographische Normalisierung (mit Interpunktion)
PoS

Auerungsannotation

11/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

KiDKo

Relevanz:
Erweiterung STTS f
ur gesprochene Sprache: Einf
uhrung neuer
Tags
TreeTagger-Training mit erweitertem Tagset und kleiner
Tokenanzahl (20.000)

Leider: Korpus ist noch nicht frei verf


ugbar

12/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

TreeTagger

probabilistischer PoS-Tagger, welcher mittels Hidden Markov


Models (HMM) arbeitet
auf ein Trainingskorpus trainiert, daraus werden gebildet:
Entscheidungsbaum: Wie wahrscheinlich ist ein Wortartentag
basierend auf den vorherigen Tags?
verschiedene Lexika:
Full-Form-Lexikon: relative Wahrscheinlichkeit eines Tags,
berechnet aus der Frequenz im Trainingskorpus
Pr
afix/Suffix-Lexikon: Wahrscheinlichkeit eines Tokens,
bestimmt durch das jeweilige Pr
afix und Suffix

13/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Aufgetretene Probleme

Was ist ein Fehler?


z.B. ja als PTKANT oder ADV
okay als ADV oder ???

Um Fehler zu taggen und sie zu korrigieren, wurden mehrere


neue Arbeitsebenen eingef
uhrt:

14/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Arbeitsebenen

15/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Ergebnisse

1.0

0.973

0.8

0.895

0.875

0.739

0.6

0.704

0.206

0.0

0.2

Genauigkeit norm-Ebene:
89.5%
Genauigkeit dipl-Ebene:
70.4%

Varianz der Accurancy

0.4

Es wurden 6509 Tokens


bearbeitet (6 Gesprache, je 4
Ebenen).
Statistik:

norm

16/31

M. Siemund

du bist am Start das ist gut

dipl

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Datenanalyse

Fehlerklassifikation:
WSF: Wortstellungsfehler dann legen wir mal los mit der als ADJA statt PTKVZ
FT: fehlendes Tag ahm, okay
FTK: fehlendes Tag bei Klitika gehste, son
OF: Orthographiefehler ich geh hier lang
IPF: Interpunktionsfehler - Fehler w
urde mit Interpunktion
vermutlich nicht auftauchen.
AF: Ambige Falle nee warte mal VVFIN oder VVIMP
SF: sonstige Fehler

17/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Fehlerverteilung

0.4

Fehlerverteilung norm-Ebene

0.39

0.2

0.3

0.32

0.14

0.1

0.09
0.06

0.0

18/31

0.01

0
WSF

FT

FTK

M. Siemund

IPF

OF

AF

SF

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Fehlerverteilung
Fehlerverteilung dipl-Ebene

0.4

0.4

0.2

0.3

0.37

0.1

0.09
0.07

0.0

0.05

WSF

19/31

FT

FTK

M. Siemund

IPF

OF

AF

SF

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Fehler im BeMaTaC

skip

20/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Fehlendes Tag - 38.3%

Sowohl nicht trainierte W


orter mit vorhandenem Tag als auch
neue Tags
Was fehlt? okay, ahm, ah, Abbr
uche, unverstandliches
Material
Losung: neues Tagset definieren und darauf trainieren
Schwierigkeit: Definition der Wortarten
aus KiDKo u
bernommen:
XYB - Abbr
uche (Wohn/)
XYU - unverstandliches Material (?)

21/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Fehlendes Tag - 38.3%

Sowohl nicht trainierte W


orter mit vorhandenem Tag als auch
neue Tags
Was fehlt? okay, ahm, ah, Abbr
uche, unverstandliches
Material
Losung: neues Tagset definieren und darauf trainieren
Schwierigkeit: Definition der Wortarten
aus KiDKo u
bernommen:
XYB - Abbr
uche (Wohn/)
XYU - unverstandliches Material (?)

21/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Fehlendes Tag Klitikum - 8.3%

Losung:
neues Tagset definieren und darauf trainieren
Tags f
ur Klitika
gehste - VVFINPPER (Klitikum aus finitem Vollverb und
Personalpronomen)
son - ADVART (Klitikum aus Adverb und Artikel)

erfordert weitere Untersuchung dieser Falle

22/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Orthographiefehler - 37.0%

Losung: Endung orthographisch kennzeichnen (Apostroph?)


unklar:
Kann der TreeTagger orthographische Kennzeichnung
bearbeiten?
gerade: Standardaussprache weicht von Schreibweise per se ab,
wie transkribiert man?
Wie geht man mit h
oherer Variation um? nein, nee, ne,
no usw. - Normalisierung?

23/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Interpunktionsfehler - 6.6%

Wenn Fehler auf Transkriptions- und normalisierter Ebene


auftauchen
Losung: Interpunktion annotieren und damit trainieren (vgl.
KiDKo)
unklar:
eigentlich bereits Normalisierung
Werden damit alle Fehler vermieden?

24/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Diskussion der statistischen Ergebnisse

Transkriptionsrichtlinien verbessern: Unterscheidung von


phonetischen und konzeptionellen Besonderheiten
Tagerweiterung: nicht trainierte W
orter und neue Tags
konsistentes Tagset

25/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vorgehen
Was wird genutzt?
Probleme
Ergebnisse
Zusammenfassung

Zusammenfassung

Wortartenbestimmung bedarf weiterer Recherche.


Einzelfalle bed
urfen genauer Untersuchung.
Losungsmoglichkeiten m
ussen erst verifiziert werden.
Vorgehensweise verbessern: Inter-Annotator-Agreement und
manuelle Annotation ohne den Tagger zuvor ausgef
uhrt zu
haben.

26/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Literatur I
Anderson, A., Bader, M., Bard, G., Boyle, E., Doherty, G.,
Garrod, S., Isard, S., Kowtko, J., McAllister, J., Miller, J.,
Sotillo, C., Thompson, H., Weinert, R. (1991): The HCRC
Map Task Corpus. In: Language and Speech 34, 351-366.
Booij G. E., Lehman, C., Mugdan, J. (Hg.) (2000):
Morphologie / Morphology. Ein internationales Handbuch zur
Flexion und Wortbildung / An International Handbook on
Inflection and Word- Formation. Berlin/Boston (de Gruyter).
Brinckmann, C., Kleiner, S., Kn
obl, R., Berend, N. (2008):
German Today: an areally extensive corpus of spoken Standard
German. In: Proceedings 6th International Conference on
Language Resources and Evaluation. LREC 2008
27/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Literatur II
Kaltz, B. (2000): Wortartensysteme in der Linguistik. In: Booij
G. E. et al. (Hg.) (2000), 693-707.
Knobloch, C. (2000): Kriterien f
ur die Definition von
Wortarten. In: Booij G. E. et al. (Hg.) (2000), 674-692.
Rehbein, I., Schalowski, S. (2013): STTS goes Kiez 2013
Experiments on Annotating and Tagging Urban Youth
Language. In: Zinsmeister, H. et al. (Eds.) (2013), 199-227.
Sauer, S., Rasskazova, O. (2014): BeMaTaC 2013 eine digitale
multimodale Ressource f
ur Sprach- und Dialogforschung.
Workshop Grenzen u
berschreiten 2013 Digitale
Geisteswissenschaft heute und morgen, Digital Humanities
Berlin 2014.
28/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Literatur III
Schiller, A., Teufel, S., Thielen, C. (1999): Guidelines f
ur das
Tagging deutscher Textkorpora mit STTS, (Kleines und groes
Tagset). Universitat Stuttgart, Universitat T
ubingen.
Schmid, H. (1994): Probabilistic part-of-speech tagging using
decision trees. In: Proceedings of the International Conference
on New Methods in Language Processing, Manchester, UK.
Schmidt, T., Worner, K. (2009): EXMARaLDA 2013 Creating,
analysing and sharing spoken language corpora for pragmatic
research. In: Pragmatics (19:4), 565-582.
Steiner, P. (2004): Wortarten und Korpus. Automatische
Wortartenklassifikation durch distributionelle und quantitative
Verfahren. Aachen (Shaker Verlag).
29/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Literatur IV

Zinsmeister, H., Heid, U., Beck, K. (Eds.) (2013): Das


Stuttgart-T
ubingen Wortarten- Tagset 2013 Stand und
Perspektiven. Journal for Language Technology and
Computational Linguistics 28/1.

30/31

M. Siemund

du bist am Start das ist gut

Theorie
Praxis
Literatur

Vielen Dank f
ur Eure Aufmerksamkeit!
Besonderer Dank geht an:
Dr. Felix Golcher
Mark Daniel Maske
Oxana Rasskazova
Prof. Helmut Schmid
Simon Sauer
Johann Sell
Florian Zipser

31/31

M. Siemund

du bist am Start das ist gut