Sie sind auf Seite 1von 12

Fakultät

für Geisteswissenschaften

Grammatik und Grammatikwandel erforschen

Grammatische Annotationen
Grammatische Annotationen

05.11.2018 Sitzung 4: Grammatische Annotationen 2


Morphosyntaktische Annotationen
(Lemnitzer/Zinsmeister 2015: 13, 63–67)

POS-Annotation
• Zuweisung von Wortarten zu einzelnen Token (POS = Part of Speech)
Tagset
• Liste aller verwendeten Tags
• Bsp.: STTS (Stuttgart-Tübingen-Tagset), bestehend aus kleinem Tagset (nur
POS) und großem Tagset (POS + Flexionsmorphologie)
• POS-Tags des STTS sind hierarchisch aufgebaut, z.B. PPOSS = Pronomen,
possessiv, substituierend (z.B. das ist meins)

05.11.2018 Sitzung 4: Grammatische Annotationen 3


Morphosyntaktische Annotationen
(Lemnitzer/Zinsmeister 2015: 13, 63–68)

Tagset des STTS


PoS-Tagset
• POS-Tagset des STTS enthält nicht nur Informationen zur Wortklasse, sondern
auch zu:
• Distribution (z.B. APPR vs. APPO)
 inAPPR der Uni vs. des schlechten Wetters wegenAPPO
• syntaktischer Funktion (z.B. ADJA vs. ADJD)
 eine schöneADJA Stimme vs. deine Stimme ist schönADJD du singst schönADJD
• Morphologie (z.B. VVFIN vs. VVINF)
 ich geheVVFIN jetzt vs. ich will jetzt gehenVVINF
• Semantik (z.B. NN vs. NE)
 in der UniversitätNN vs. in der HCUNE

05.11.2018 Sitzung 4: Grammatische Annotationen 4


Morphosyntaktische Annotationen
(Lemnitzer/Zinsmeister 2015: 13, 63–68)

Tagset des STTS


Flexionsmorphologisches Tagset
• umfasst je nach Wortart verschiedene Kategorien, z.B.
• Genus, Kasus, Numerus, Flexion (bei deklinierbaren Wortarten wie Substantiven),
• Person, Numerus, Tempus und Modus (bei den konjugierten Verben),
• Grad und Flexionsart (bei Adjektiven)
• Mehrdeutigkeit durch Asterisk * gekennzeichnet. z.B. für Korpus (Masc oder
Neut) *.Nom.Sg
• fehlende morphologische Kategorie durch Unterstrich gekennzeichnet, z.B. für
es 3.Sg.Neut.Nom, aber für wir 1.Pl._.Nom

05.11.2018 Sitzung 4: Grammatische Annotationen 5


Annotation mit dem STTS
Übung

Annotieren Sie im folgenden Satz die Wortarten (PoS) nach dem STTS:

Die Wortform einen z.B. hat mindestens drei Lesarten, die auf drei
verschiedene Wortarten zurückgeführt werden können.

05.11.2018 Sitzung 4: Grammatische Annotationen 6


Annotation mit dem STTS
Übung

Die Wortform einen z.B. hat mindestens drei Lesarten ,


ART NN ? ADV VAFIN ADV CARD NN $,

die auf drei verschiedene Wortarten zurückgeführt werden können .


PRELS APPR CARD ADJA NN VVPP VAINF VMFIN $.

05.11.2018 Sitzung 4: Grammatische Annotationen 7


Auf dem STTS basierende historische Tagsets:
HiTS und HiNTS

Vergleichen Sie das Historische Tagset (HiTS) und das Historisches-


Niederdeutsch-Tagset (HiNTS) mit dem STTS sowie das HiTS und das
HiNTS untereinander. Wo liegen entscheidende Unterschiede?

05.11.2018 Sitzung 4: Grammatische Annotationen 8


STTS, HiTS und HiNTS

Vergleich mit STTS


• ebenfalls hierarchischer Aufbau, z.B. VMFIN = Verb, modal, finit
• Grundwortartentags größtenteils gleich, aber in einzelnen Gruppen stärkere
Differenzierung (nach Distribution -> syntaktisch), z.B. nicht nur ADJA und
ADJD, sondern ADJA, ADJD, ADJN, ADJS
• größte Abweichung in Gruppe der Determinierer und Pronomen

Unterschiede zwischen HiTS und HiNTS


PoS-Tags
• HiTS-Tags für ‚generalisierend‘ (AVG, PAVG ...) gibt es in HiNTS nicht
• Bsp.: HiTS swa als AVG
HiNTS swar getrennt in s als PTKG und war als AV...

05.11.2018 Sitzung 4: Grammatische Annotationen 9


HiTS und HiNTS

Unterschiede zwischen HiTS und HiNTS


PoS-Tags
• Gruppe der Determinierer/Pronomen:
• in HiTS lexembasierte Differenzierung zwischen D... (attributiv oder
substituierend) und P... (immer substituierend)
Bsp.: man immer als PI
• in HiNTS kontextbasierte Annotation als D... (attributiv) oder DP...
(substituierend)
Bsp.: dyt als DDA in dyt ghut kanstu allene nyth ghe wynnen vs.
als DPDS in dyt is dat erste bok

05.11.2018 Sitzung 4: Grammatische Annotationen 10


HiTS und HiNTS

Unterschiede zwischen HiTS und HiNTS


Morphologie-Tags
• 0 (HiTS) für Nullendung
• wk (HiTS) = Sw (HiNTS)
• Mehrdeutigkeit
• in HiTS mittels Asterisk *, z.B. für Gen oder Dat
• in HiTS mittels Portmanteau-Tags mit Bindestrich, z.B. für Gen oder Dat das
Tag Gen-Dat -> Bsp.: derDDARTA.Fem.Gen-Dat.Sg stadtNA.Fem.Gen-Dat.Sg
-> * nur bei Ambiguität zwischen allen möglichen Merkmalen, z.B. für Masc
oder Neut oder Fem -> Bsp.: eynDIARTA.*.Nom.Sg mynscheNA.*.Nom.Sg

05.11.2018 Sitzung 4: Grammatische Annotationen 11


Aufgaben zur Sitzung am 12.11.

• Dipper 2015: Kap. 3 (S. 521–526) lesen


• Internetseiten der Referenzkorpora ansehen, Überblick v.a. zum Aufbau
der Korpora und zur Annotation verschaffen:
• ReA: http://www.deutschdiachrondigital.de/home/
• ReM: https://www.linguistics.rub.de/rem/
• ReF: https://www.ruhr-uni-bochum.de/wegera/ref/
• ReN: https://www.slm.uni-hamburg.de/ren.html
• Laptop mitbingen

05.11.2018 Sitzung 4: Grammatische Annotationen 12