Sie sind auf Seite 1von 12

Resolution of Anaphoric Reference

Some facts about the NeGra Corpus


Vasek Nemc

ik
(vicky@coli.uni-sb.de)
May 14, 2003
Stuttgart-T ubingen-Tagset (STTS)
In NeGra Corpus used for part-of-speech and morphological tagging. For more detailed
information see http://www.sfs.nphil.uni-tuebingen.de/Elwis/stts/stts.html.
ADJA attributives Adjektiv [das] grosse [Haus]
ADJD adverbiales oder [er fahrt] schnell
pradikatives Adjektiv [er ist] schnell
ADV Adverb schon, bald, doch
APPR Praposition; Zirkumposition links in [der Stadt], ohne [mich]
APPRART Praposition mit Artikel im [Haus], zur [Sache]
APPO Postposition [ihm] zufolge, [der Sache] wegen
APZR Zirkumposition rechts [von jetzt] an
ART bestimmter oder der, die, das,
unbestimmter Artikel ein, eine, ...
CARD Kardinalzahl zwei [Manner], [im Jahre] 1994
FM Fremdsprachliches Material [Er hat das mit ]
A big sh [ ubersetzt]
ITJ Interjektion mhm, ach, tja
ORD Ordinalzahl [der] neunte [August]
KOUI unterordnende Konjunktion um [zu leben],
mit zu und Innitiv anstatt [zu fragen]
KOUS unterordnende Konjunktion weil, dass, damit,
mit Satz wenn, ob
KON nebenordnende Konjunktion und, oder, aber
KOKOM Vergleichskonjunktion als, wie
NN normales Nomen Tisch, Herr, [das] Reisen
NE Eigennamen Hans, Hamburg, HSV
PDS substituierendes Demonstrativpronomen dieser, jener
PDAT attribuierendes Demonstrativpronomen jener [Mensch]
PIS substituierendes Indenitpronomen keiner, viele, man, niemand
PIAT attribuierendes Indenit- kein [Mensch],
pronomen ohne Determiner irgendein [Glas]
PIDAT attribuierendes Indenit- [ein] wenig [Wasser],
pronomen mit Determiner [die] beiden [Br uder]
1
PPER irreexives Personalpronomen ich, er, ihm, mich, dir
PPOSS substituierendes Possessivpronomen meins, deiner
PPOSAT attribuierendes Possessivpronomen mein [Buch], deine [Mutter]
PRELS substituierendes Relativpronomen [der Hund ,] der
PRELAT attribuierendes Relativpronomen [der Mann ,] dessen [Hund]
PRF reexives Personalpronomen sich, einander, dich, mir
PWS substituierendes Interrogativpronomen wer, was
PWAT attribuierendes welche [Farbe],
Interrogativpronomen wessen [Hut]
PWAV adverbiales Interrogativ- warum, wo, wann,
oder Relativpronomen wor uber, wobei
PAV Pronominaladverb daf ur, dabei, deswegen, trotzdem
PTKZU zu vor Innitiv zu [gehen]
PTKNEG Negationspartikel nicht
PTKVZ abgetrennter Verbzusatz [er kommt] an, [er fahrt] rad
PTKANT Antwortpartikel ja, nein, danke, bitte
PTKA Partikel bei Adjektiv am [schonsten],
oder Adverb zu [schnell ]
SGML SGML Markup
SPELL Buchstabierfolge S-C-H-W-E-I-K-L
TRUNC Kompositions-Erstglied An- [und Abreise]
VVFIN nites Verb, voll [du] gehst, [wir] kommen [an]
VVIMP Imperativ, voll komm [! ]
VVINF Innitiv, voll gehen, ankommen
VVIZU Innitiv mit zu, voll anzukommen, loszulassen
VVPP Partizip Perfekt, voll gegangen, angekommen
VAFIN nites Verb, aux [du] bist, [wir] werden
VAIMP Imperativ, aux sei [ruhig ! ]
VAINF Innitiv, aux werden, sein
VAPP Partizip Perfekt, aux gewesen
VMFIN nites Verb, modal d urfen
VMINF Innitiv, modal wollen
VMPP Partizip Perfekt, modal gekonnt, [er hat gehen] konnen
XY Nichtwort, Sonderzeichen 3:7, H2O,
enthaltend D2XW3
\$, Komma ,
\$. Satzbeendende Interpunktion . ? ! ; :
\$( sonstige Satzzeichen; satzintern - [ , ]
2
Tagging of grammatical functions (tree edges)
For further explanation and usage notes, see
http://www.coli.uni-sb.de/sfb378/negra-corpus/kanten.html/
AC adpositional case marker MW way (directional modier)
ADC adjective component NG negation
AMS measure argument of adj NK noun kernel modier
APP apposition NMC numerical component
AVC adverbial phrase component OA accusative object
CC comparative complement OA2 second accusative object
CD coordinating conjunction OC clausal object
CJ conjunct OG genitive object
CM comparative concjunction PD predicate
CP complementizer PG pseudo-genitive
DA dative PH placeholder
DH discourse-level head PM morphological particle
DM discourse marker PNC proper noun component
GL prenominal genitive RC relative clause
GR postnominal genitive RE repeated element
HD head RS reported speech
JU junctor SB subject
MC comitative SBP passivised subject (PP)
MI instrumental SP subject or predicate
ML locative SVP separable verb prex
MNR postnominal modier UC (idiosyncratic) unit component
MO modier VO vocative
MR rhetorical modier
Tagging of phrasal categories (tree nodes)
For further explanation and usage notes, see
http://www.coli.uni-sb.de/sfb378/negra-corpus/knoten.html/
AA superlative phrase with am CVZ coordinated zu-marked innitive
AP adjektive phrase DL discourse level constituent
AVP adverbial phrase ISU idiosyncratis unit
CAC coordinated adposition MPN multi-word proper noun
CAP coordinated adjektive phrase MTA multi-token adjective
CAVP coordinated adverbial phrase NM multi-token number
CCP coordinated complementiser NP noun phrase
CH chunk PP adpositional phrase
CNP coordinated noun phrase QL quasi-language
CO coordination S sentence
CPP coordinated adpositional phrase VP verb phrase (non-nite)
CS coordinated sentence VZ zu-marked innitive
CVP coordinated verb phrase (non-nite)
3
S
i
e
P
P
E
R
3
.
P
l
.
*
.
N
o
m
g
e
h
e
n
V
V
F
I
N
3
.
P
l
.
P
r
e
s
.
I
n
d
g
e
w
a
g
t
e
A
D
J
A
P
o
s
.
*
.
A
k
k
.
P
l
.
S
t
V
e
r
b
i
n
d
u
n
g
e
n
N
N
F
e
m
.
A
k
k
.
P
l
.
*
u
n
d
K
O
N

R
i
s
i
k
e
n
N
N
N
e
u
t
.
A
k
k
.
P
l
.
*
e
i
n
P
T
K
V
Z

,
$
,

v
e
r
s
u
c
h
e
n
V
V
F
I
N
3
.
P
l
.
P
r
e
s
.
I
n
d
i
h
r
e
P
P
O
S
A
T
*
.
A
k
k
.
P
l
M

g
l
i
c
h
k
e
i
t
e
n
N
N
F
e
m
.
A
k
k
.
P
l
.
*
a
u
s
z
u
r
e
i
z
e
n
V
V
I
Z
U

.
$
.

N
K
N
K
N
K
N
K
N
P
C
J
C
D
C
J
N
P
O
A
H
D
S
B
H
D
C
N
P
O
A
S
V
P
H
D
V
P
O
C
S
C
J
S
C
J
0
1
2
3
4
5
6
7
8
9
1
0
1
1
1
2
5
0
0
5
0
1
5
0
2
5
0
3
5
0
4
5
0
5
5
0
6
C
S
4
Two example sentences in NeGra export format
#FORMAT 3
#BOT ORIGIN
0 -- %%
4228 -- fr951119 %% Frankfurter Runschau
4229 -- fr951119 %% Frankfurter Runschau
#EOT ORIGIN
#BOT WORDTAG
-1 UNKNOWN N Unbekanntes Tag aus Einlesen aus Korpusdatei
0 -- N <Nicht zugeordnet>
1 ADJA Y Attributives Adjektiv
2 ADJD Y Adverbiales oder pradikatives Adjektiv
3 ADV Y Adverb
4 APPR Y Praposition; Zirkumposition links
5 APPRART Y Praposition mit Artikel
6 APPO Y Postposition
7 APZR Y Zirkumposition rechts
8 ART Y Bestimmter oder unbestimmter Artikel
9 CARD Y Kardinalzahl
10 FM Y Fremdsprachliches Material
11 ITJ Y Interjektion
12 KOUI Y Unterordnende Konjunktion mit zu und Infinitiv
13 KOUS Y Unterordnende Konjunktion mit Satz
14 KON Y Nebenordnende Konjunktion
15 KOKOM Y Vergleichspartikel, ohne Satz
16 NN Y Normales Nomen
17 NE Y Eigennamen
18 PDS Y Substituierendes Demonstrativpronomen
19 PDAT Y Attribuierendes Demonstrativpronomen
20 PIS Y Substituierendes Indefinitpronomen
21 PIAT Y Attribuierendes Indefinitpronomen
22 -- N --
23 PPER Y Ersetzbares Personalpronomen
24 PPOSS Y Substituierendes Possessivpronomen
25 PPOSAT Y Attribuierendes Possessivpronomen
26 PRELS Y Substituierendes Relativpronomen
27 PRELAT Y Attribuierendes Relativpronomen
28 PRF Y Reflexives Personalpronomen
29 PWS Y Substituierendes Interrogativpronomen
30 PWAT Y Attribuierendes Interrogativpronomen
31 PWAV Y Adverbiales Interrogativ- oder Relativpronomen
32 PROAV Y Pronominaladverb
33 PTKZU Y zu vor Infinitiv
34 PTKNEG Y Negationspartikel
35 PTKVZ Y Abgetrennter Verbzusatz
36 PTKANT Y Antwortpartikel
5
37 PTKA Y Partikel bei Adjektiv oder Adverb
38 TRUNC Y Kompositions-Erstglied
39 VVFIN Y Finites Verb, voll
40 VVIMP Y Imperativ, voll
41 VVINF Y Infinitiv, voll
42 VVIZU Y Infinitiv mit zu, voll
43 VVPP Y Partizip Perfekt, voll
44 VAFIN Y Finites Verb, aux
45 VAIMP Y Imperativ, aux
46 VAINF Y Infinitiv, aux
47 VAPP Y Partizip Perfekt, aux
48 VMFIN Y Finites Verb, modal
49 VMINF Y Infinitiv, modal
50 VMPP Y Partizip Perfekt, modal
51 XY Y Nichtwort, Sonderzeichen
52 $, N Komma
53 $. N Satzbeendende Interpunktion
54 $( N Sonstige Satzzeichen; satzintern
55 NNE Y Kombination aus Nomen und Eigenname
#EOT WORDTAG
#BOT MORPHTAG
-1 UNKNOWN unknown tag
0 -- not bound
#EOT MORPHTAG
#BOT NODETAG
0 -- <not bound>
1 NP noun phrase
2 AP adjektive phrase
3 PP adpositional phrase
4 S sentence
5 VP verb phrase (non-finite)
6 VZ zu-marked infinitive
7 CO coordination
8 AVP adverbial phrase
9 AA superlative phrase with "am"
10 CNP coordinated noun phrase
11 CAP coordinated adjektive phrase
12 CPP coordinated adpositional phrase
13 CS coordinated sentence
14 CVP coordinated verb phrase (non-finite)
15 CVZ coordinated zu-marked infinitive
16 CAVP coordinated adverbial phrase
17 PN proper noun
18 NM multi-token number
19 CAC coordinated adposition
20 CH chunk
21 MTA multi-token adjective
22 CCP coordinated complementiser
6
23 DL discourse level constituent
24 ISU idiosyncratis unit
25 QL quasi-languag
#EOT NODETAG
#BOT EDGETAG
0 -- <not bound>
1 HD head
2 CJ conjunct
3 NK noun kernel modifier
4 MNR postnominal modifier
5 GL prenominal genitive
6 GR postnominal genitive
7 CM comparative concjunction
8 PG pseudo-genitive
9 RC relative clause
10 AG genitive attribute
11 VO vocative
12 AMS measure argument of adj
13 CC comparative complement
14 MR rhetorical modifier
15 SB subject
16 PD predicate
17 SP subject or predicate
18 OC clausal object
19 OA accusative object
20 OA2 second accusative object
21 DA dative
22 OG genitive object
23 UC unit component
24 APP apposition
25 PM morphological particle
26 CP complementizer
27 NMC numerical component
28 DM discourse marker
29 ML locative
30 MI instrumental
31 MC comitative
32 MO modifier
33 AC adpositional case marker
34 CD coordinating conjunction
35 SVP separable verb prefix
36 NG negation
37 RE repeated element
38 SBP passivised subject (PP)
39 PH placeholder
40 PNC proper noun component
41 AVC adverbial phrase component
42 ADC adjective component
7
43 MW way (directional modifier)
44 DH discourse-level head
45 RS reported speech
46 EP expletive es
47 -- --
48 JU junctor
49 PAR parenthesis
50 OP prepositional object
51 CVC collocational verb construction (Funktionsverbgefuge)
#EOT EDGETAG
#BOT SECEDGETAG
0 -- <not bound>
1 HD head
2 CJ conjunct
3 NK noun kernel modifier
4 MNR postnominal modifier
5 GL prenominal genitive
6 GR postnominal genitive
7 CM comparative concjunction
8 PG pseudo-genitive
9 RC relative clause
10 -- not bound
11 VO vocative
12 AMS measure argument of adj
13 CC comparative complement
14 MR rhetorical modifier
15 SB subject
16 PD predicate
17 SP subject or predicate
18 OC clausal object
19 OA accusative object
20 OA2 second accusative object
21 DA dative
22 OG genitive object
23 UC (idiosyncratic) unit component
24 APP apposition
25 PM morphological particle
26 CP complementizer
27 NMC numerical component
28 DM discourse marker
29 ML locative
30 MI instrumental
31 MC comitative
32 MO modifier
33 AC adpositional case marker
34 CD coordinating conjunction
35 SVP separable verb prefix
36 NG negation
8
37 RE repeated element
38 SBP passivised subject (PP)
39 PH placeholder
40 PNC proper noun component
41 AVC adverbial phrase component
42 ADC adjective component
43 MW way (directional modifier)
44 DH discourse-level head
45 RS reported speech
46 -- --
47 -- --
48 JU junctor
49 OP prepositional object
50 CVC collocational verb construction (Funktionsverbgefuge)
51 EP expletive es
#EOT SECEDGETAG
#BOS 4228 101 991063314 18 %% @ST2AV@(source: t v janbettina 64)
In APPR -- AC 500
Japan NE -- NK 500
wird VAFIN -- HD 507
offenbar ADJD -- MO 504
die ART -- NK 506
Fusion NN -- NK 506
der ART -- NK 503
Geldkonzerne NN -- NK 503
Daiwa NE -- CJ 501
und KON -- CD 501
Sumitomo NE -- CJ 501
zur APPRART -- AC 505
grossten ADJA -- NK 505
Bank NN -- NK 505
der ART -- NK 502
Welt NN -- NK 502
vorbereitet VVPP -- HD 504
. $. -- -- 0
#500 PP -- MO 504
#501 CNP -- NK 503
#502 NP -- AG 505
#503 NP -- AG 506
#504 VP -- OC 507
#505 PP -- MNR 506
#506 NP -- SB 507
#507 S -- -- 0
#EOS 4228
#BOS 4229 101 996660687 18 %% @ST2AV@(source: t v janbettina 1128)
Hintergrund NN -- SB 509
sind VAFIN -- HD 509
die ART -- NK 508
9
geschaftlichen ADJA -- NK 500
Einschrankungen NN -- NK 500
und KON -- CD 503
Imageschaden NN -- CJ 503
, $, -- -- 0
die PRELS -- SB 507
Daiwa NE -- DA 507
nach APPR -- AC 506
mutmasslich ADJD -- MO 501
illegalen ADJA -- HD 501
und KON -- CD 505
zudem PROAV -- MO 504
lange ADV -- MO 504
vor APPR -- AC 502
den ART -- NK 502
Behorden NN -- NK 502
vertuschten ADJA -- HD 504
US-Transaktionen NN -- NK 506
international ADJD -- MO 507
drohen VVFIN -- HD 507
. $. -- -- 0
#500 NP -- CJ 503
#501 AP -- CJ 505
#502 PP -- MO 504
#503 CNP -- NK 508
#504 AP -- CJ 505
#505 CAP -- NK 506
#506 PP -- MO 507
#507 S -- RC 508
#508 NP -- PD 509
#509 S -- -- 0
#EOS 4229
10
Example sentence in TIGER-XML format
<?xml version="1.0" encoding="ISO-8859-1" standalone="no"?>
<corpus id="TESTCORPUS"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation=
"http://www.ims.uni-stuttgart.de/projekte/TIGER/public/TigerXML.xsd">
<head>
<meta>
<name>Text corpus</name>
<author>Wolfgang Lezius</author>
<date>November 2001</date>
<description>Illustrates the TIGER-XML format</description>
<format>NeGra format, version 3</format>
<history>first version</history>
</meta>
<annotation>
<feature name="word" domain="T"/>
<feature name="pos" domain="T">
<value name="ART">determiner</value>
<value name="ADV">adverb</value>
<value name="KOKOM">conjunction</value>
<value name="NN">noun</value>
<value name="PIAT">indefinite attributive</value>
<value name="VVFIN">determiner</value>
</feature>
<feature name="morph" domain="T">
<value name="Def.Fem.Nom.Sg"/>
<value name="Fem..Nom.Sg.*"/>
<value name="Masc.Akk.Pl.*"/>
<value name="3.Sg.Pres.Ind"/>
<value name="--">not bound</value>
</feature>
<feature name="cat" domain="NT">
<value name="AP">adjective phrase</value>
<value name="AVP">adverbial phrase</value>
<value name="NP">noun phrase</value>
<value name="S">sentence</value>
</feature>
<edgelabel>
<value name="CC">comparative complement</value>
<value name="CM">comparative conjunction</value>
<value name="HD">head</value>
<value name="MO">modifier</value>
<value name="NK">noun kernel modifier</value>
<value name="OA">accusative object</value>
<value name="SB">subject</value>
</edgelabel>
11
</annotation>
</head>
<body>
<s id="s5">
<graph root="s5 504">
<terminals>
<t id="s5 1" word="Die" pos="ART" morph="Def.Fem.Nom.Sg" />
<t id="s5 2" word="Tagung" pos="NN" morph="Fem.Nom.Sg.*" />
<t id="s5 3" word="hat" pos="VVFIN" morph="3.Sg.Pres.Ind" />
<t id="s5 4" word="mehr" pos="PIAT" morph="--" />
<t id="s5 5" word="Teilnehmer" pos="NN" morph="Masc.Akk.Pl.*" />
<t id="s5 6" word="als" pos="KOKOM" morph="--" />
<t id="s5 7" word="je" pos="ADV" morph="--" />
<t id="s5 8" word="zuvor" pos="ADV" morph="--" />
</terminals>
<nonterminals>
<nt id="s5 500" cat="NP">
<edge label="NK" idref="s5 1" />
<edge label="NK" idref="s5 2" />
</nt>
<nt id="s5 501" cat="AVP">
<edge label="CM" idref="s5 6" />
<edge label="MO" idref="s5 7" />
<edge label="HD" idref="s5 8" />
</nt>
<nt id="s5 502" cat="AP">
<edge label="HD" idref="s5 4" />
<edge label="CC" idref="s5 501" />
</nt>
<nt id="s5 503" cat="NP">
<edge label="NK" idref="s5 502" />
<edge label="NK" idref="s5 5" />
</nt>
<nt id="s5 504" cat="NP">
<edge label="SB" idref="s5 500" />
<edge label="HD" idref="s5 3" />
<edge label="OA" idref="s5 503" />
</nt>
</nonterminals>
</graph>
</s>
</body>
</corpus>
12