Sie sind auf Seite 1von 20

Fakultät

für Geisteswissenschaften

Grammatik und Grammatikwandel erforschen

Grammatische Annotation in Korpora


VORTEILE UND
HERAUSFORDERUNGEN
QUANTITATIVEN ARBEITENS
29.10.2018 Sitzung 3: Grammatische Annotationen 2
Quantitative Daten
(Fleischer 2011: 69–71)

Was sind quantitative Auswertungen?


• Ermittlung der Häufigkeiten von Phänomenen
• Angabe nicht nur der absoluten Häufigkeiten, sondern in einer bestimmten Relation, z.B.
zur konkurrierenden Variante -> z.B. Prozentwerte, relative Häufigkeiten mit
Dezimalzahlen

Welche Möglichkeiten bieten quantitative Auswertungen?


• möglicherweise Neubewertung / Korrektur bestehender Annahmen zur
Grammatik (Bsp. doppelte Negation im Mhd.)
• Angaben zur tatsächlichen Verbreitung, zum Gebrauch von Phänomenen in
bestimmten Bereichen (Bsp. weil-V2-Sätze -> nur in gesprochener oder auch in
geschriebener Sprache?)

29.10.2018 Sitzung 3: Grammatische Annotationen 3


Datenmenge
(Fleischer 2011: 71–73)

Was ist in Bezug auf die Datenmenge zu beachten?


• Datenmenge abhängig vom Phänomen
• für Phänomen mit hoher Varianz größere Datenmenge
• bei hochfrequentem Phänomen geringere Datenmenge -> vgl. z.B.
Graphematik vs. Syntax
• Erfahrung: für Flexionsmorphologie z.B. ca. 12.000 Wortformen

29.10.2018 Sitzung 3: Grammatische Annotationen 4


Sprache beeinflussende Faktoren
(Fleischer 2011: 76–80)

Welche Faktoren können Sprache beeinflussen?


• externe Faktoren:
• außerhalb des Sprachsystems
• z.B. Raum, Zeit, Textsorte, Alter, Geschlecht, soziale Schicht
• interne Faktoren:
• in der Sprache selbst begründet
• z.B. morphologische Kategorie (Sg. vs. Pl. beim prädikativen Adjektiv), Art der
Konstruktion (werden-Passiv vs. sein-Perfekt), Semantik (Art des Substantivs
als Genitivattribut)

29.10.2018 Sitzung 3: Grammatische Annotationen 5


AUFBAU / AUSWAHL VON
KORPORA

29.10.2018 Sitzung 3: Grammatische Annotationen 6


Korpusbildung
(Fleischer 2011: 73–76)

• Bedeutung externer Faktoren


• Phänomene können je nach Zeit, Textsorte und Sprachraum unterschiedlich
auftreten
• Faktoren müssen bei Zusammenstellung des Korpus berücksichtigt werden

Beispiel (abstrakt) für ein strukturiertes Korpus:


Region 1 Region 2 Region 3
Textsorte 1 Textsorte 2 Textsorte 1 Textsorte 2 Textsorte 1 Textsorte 2
Periode 1
Periode 2
Periode 3
Periode 4

29.10.2018 Sitzung 3: Grammatische Annotationen 7


Korpusbildung
(Fleischer 2011: 73–76)

Beispiel (konkret): Referenzkorpus Mittelniederdeutsch / Niederrheinisch


(ReN)
nordniedersächsisch ostelbisch …
Recht Literatur … Recht Literatur
13. Jh.
1301-1350
1351 - 1400
1401-1450
1451-1500

1601-1650

https://www.slm.uni-hamburg.de/ren/korpus/texte.html
29.10.2018 Sitzung 3: Grammatische Annotationen 8
Probleme der Korpusbildung

• aufgrund der Überlieferungslage v.a. für frühere Sprachstufen des


Deutschen strukturiertes Korpus große Herausforderung -> für Ahd. z.B.
gar nicht möglich
• je spezifischer eine Kategorie ist, desto schwieriger ist die Füllung der
Korpusfelder, vgl. z.B. Textsorte mit „Feld der Schriftlichkeit“ im ReN
bzw. „Textbereiche“ im ReM
• Bsp. Rasterfüllung ReM: https://www.ruhr-uni-
bochum.de/wegera/ref/korp_design.htm
• Warum sollten alle Rasterfelder gefüllt sein?
• Einfluss der Parameter untersuchen: Soll z.B. Phänomen im Lauf der Zeit
untersucht werden (z.B. doppelte Negation), muss möglicher Einfluss der
anderen Parameter ausgeschlossen werden -> Suche in Texten derselben
Textsorte, desselben Sprachraums, aber unterschiedlicher Zeiten

29.10.2018 Sitzung 3: Grammatische Annotationen 9


Grammatische
Annotationen in Korpora

29.10.2018 Sitzung 3: Grammatische Annotationen 10


Linguistische Annotationen
(Lemnitzer/Zinsmeister 2015:, 59–60)

Was sind linguistische Annotationen und welchen Zweck / welche Vorteile haben
sie?
• markieren und klassifizieren bestimmte Einheiten, z.B. Wörter mit Wortarten oder
Satzglieder mit syntaktischen Funktionen
• Interpretation in einem bestimmten Kontext -> dadurch Auflösung grundsätzlicher
Mehrdeutigkeiten (s. die verschiedenen möglichen Wortarten von „einen“)
• erleichtern die gezielte Suche nach bestimmten Phänomenen; Tags als
Generalisierung -> linguistische Muster können leichter gefunden werden
• sind kontextualisierte Analysen -> Untersuchungsergebnisse für andere nachprüfbar
• Wiederverwendbarkeit:
• Analyse eines Textes durch Annotationen festgehalten -> für andere (nach)nutzbar
• automatische Tagger lernen durch bereits annotierte Einheiten / Kontexte
• Multifunktionalität: ein Korpus für verschiedene Annotationen

29.10.2018 Sitzung 3: Grammatische Annotationen 11


Linguistische Annotationen
(Lemnitzer/Zinsmeister 2015: 60–61)

Welches Vorgehen ist beim Erstellen von Annotationen üblich?


• zweistufiges Vorgehen:
1. automatische Annotation mithilfe eines computerlinguistischen Werkzeugs (Tools)-
> Tagging
2. manuelle Ergänzung/Korrektur der automatischen Annotationen durch
menschliche Annotator*innen

Wie kann die Qualität und Nachvollziehbarkeit von Annotationen gewährleistet


werden?
• Erstellen von Annotationsrichtlinien mit Definitionen und Beispielen für die
Annotationskategorien (Tags) sowie Entscheidungshilfen für Zweifelsfälle

29.10.2018 Sitzung 3: Grammatische Annotationen 12


Linguistische Annotationen
(Lemnitzer/Zinsmeister 2015: 13, 61–63)

Was meint ‚Tokenisierung‘ und worauf ist dabei zu achten?


• Segmentierung eines Textes in Token, d.h. Worteinheiten und andere durch Spatium
(Leerstelle) abgegrenzte Einheiten wie Satzzeichen
• Bestimmung von Worteinheiten als Herausforderung bei
• zusammengeschriebenen Elementen, die mehreren Worteinheiten entsprechen, z.B. bei
Klitisierungen wie am (= ‚an dem‘)
• getrennt geschriebenen Elementen, die zusammen eine Worteinheit bilden, z.B. im
historischen Deutsch Trennung des Präfixes ge- wie in mnd. ge settet (= nhd. ‚gesetzt‘)

29.10.2018 Sitzung 3: Grammatische Annotationen 13


Unterschiedliche Annotationen in Korpora
Referenzkorpus Altdeutsch

29.10.2018 Sitzung 3: Grammatische Annotationen 14


Unterschiedliche Annotationen in Korpora
Tübinger Baumbank des Deutschen / Zeitungskorpus (TüBa-D/Z)

aus: http://www.sfs.uni-tuebingen.de/fileadmin/static/ascl/resources/tuebadz-stylebook-
1707.pdf; S. 28

29.10.2018 Sitzung 3: Grammatische Annotationen 15


Unterschiedliche Annotationen in Korpora
Corpus of Historical Low German (CHLG)

Annotationstool

29.10.2018 Sitzung 3: Grammatische Annotationen 16


Unterschiedliche Annotationen in Korpora
Corpus of Historical Low German (CHLG)

Visualisierung

29.10.2018 Sitzung 3: Grammatische Annotationen 17


Unterschiedliche Annotationen in Korpora
Interaktive Grammatikanalyse historischer Texte (InterGramm)

Anno-
tations-
tool

29.10.2018 Sitzung 3: Grammatische Annotationen 18


Unterschiedliche Annotationen in Korpora
Niederdeutsch in Hamburg (NiH)

Anno-
tations-
tool

29.10.2018 Sitzung 3: Grammatische Annotationen 19


Aufgaben zur Sitzung am 05.11.

Lesen:
• Lemnitzer/Zinsmeister 2015: 90–97

29.10.2018 Sitzung 3: Grammatische Annotationen 20