Sie sind auf Seite 1von 7

KORPUSLINGUISTIK – DAS UNBEKANNTE WESEN

oder
Mythen über Korpora und Korpuslinguistik

von Rainer Perkuhn und Cyril Belica

Sind Korpora nur Belegsammlungen oder Zettelkäs- schung in diesem Paradigma organisatorisch in ei-
ten in elektronischer Form? Mitnichten! In entspre- nem neu eingerichteten Programmbereich „Korpus-
chender Größe (vgl. Church / Mercer 1993) und mit linguistik“ verankert.
den entsprechenden Analysemethoden eröffnen sie
eine eigene Perspektive in der linguistischen For- Eine angemessene, sachgemäße Diskussion über
schung – die korpuslinguistische Perspektive. Stärken und Schwächen, Möglichkeiten und Gren-
zen der Korpuslinguistik ist überschattet von vielen
„In a corpus-driven approach the commitment of the Mythen, die sich mittlerweile eingebürgert haben
linguist is to the integrity of the data as a whole, and und die in vielen Diskussionen – gerade unter Lin-
descriptions aim to be comprehensive with respect to guisten – immer wieder aufkommen. An dieser Stelle
corpus evidence. The corpus, therefore, is seen as more möchten wir einige der verbreitetsten Mythen
than a repository of examples to back pre-existing
zusammenstellen und die Hintergründe aus dieser
theories or a probabilistic extension to an already well
defined system. The theoretical statements are fully
korpuslinguistischen Perspektive erörtern (vgl.
consistent with, and reflect directly, the evidence Perkuhn et al. 2006).
provided by the corpus. Indeed, many of the statements
are of a kind that are not usually accessible by any other IMPRESSUM
means than the inspection of corpus evidence. Examples Herausgeber: Institut für Deutsche Sprache, Postfach 101621,
are normally taken verbatim, in other words they are not 68016 Mannheim.
Internet: http://www.ids-mannheim.de
adjusted in any way to fit the predefined categories of the Mitglied der
analyst; recurrent patterns and frequency distributions
are expected to form the basic evidence for linguistic Redaktion: Annette Trabold (Leitung), Karl-Heinz Bausch,
categories; the absence of a pattern is considered Heidrun Kämper, Horst Schwinn, Eva Teubert
Redaktionsassistenz: Jens Gerdes, Anne Steinz
potentially meaningful.“ E-Mail: sprachreport@ids-mannheim.de
(Tognini-Bonelli 2001, S. 84)
Satz & Layout: Claus Hoffmann (IDS)
Belichtung: Afosatz Frey, 68199 Mannheim
Aus dieser Perspektive spielen einzelne Belege nur Druck: Morawek, 68199 Mannheim
insofern eine Rolle, als dass sie ihren – normaler- gedruckt auf 100% chlorfrei gebleichtem Papier
weise winzigen und fast vernachlässigbaren – Bei- ISSN 0178-644X
trag zu einem Gesamtbild leisten. Die korpus- Auflage: 2500, Erscheinungsweise: vierteljährlich
linguistische Herausforderung besteht darin, Lingu- Jahresabonnement: 10,– EUR Einzelheft: 3,– EUR
isten Möglichkeiten an die Hand zu geben, dieses Bezugsadresse: Institut für Deutsche Sprache,
Postfach 10 16 21, 68016 Mannheim
Gesamtbild zu „erkennen“, wobei einerseits die Tel. 0621/1581-0
Körnung des Bildes nicht zu grob sein darf,
andererseits die Konturen auf dem Bild deutlich
In eigener Sache – an die Autoren:
genug sein müssen, um es interpretieren zu können. Wir bitten Sie, Ihre Beiträge als WINWORD oder RTF-Datei im
Beide Punkte setzen Sprachdatenmassen in ausrei- Anhang per E-Mail zu schicken an:
chendem Umfang und geeignete Analysemethoden sprachreport@ids-mannheim.de oder auf Diskette.
voraus. Das Anliegen der Korpuslinguistik ist – Bitte wählen Sie dazu folgendes Disketten-Format:
3.5 Zoll, WINDOWS-formatiert.
wohlgemerkt – die Analyse und Beschreibung des
NICHT bearbeiten können wir:
Sprachgebrauchs, normative Aussagen sollten stets – 5.25 Zoll-Disketten,
losgelöst davon formuliert und gedeutet werden. – MAC-formatierte Disketten.
Das IDS, dessen Ziel satzungsgemäß die „Erfor- Die Texte sollten nicht mit komplizierten Layouts und ohne
Formatvorlage erstellt sein, die Formatvorlagen erstellen wir.
schung und Dokumentation der deutschen Sprache
Der SPRACHREPORT wird mit PageMaker 6.5 erstellt.
in ihrem gegenwärtigen Gebrauch“ ist, hat die For-

2
Mythos 1: nen nicht an Wert. Bei „berechenbaren“ Annotatio-
nen können Anfragen/Analysen evtl. schneller bear-
Korpuslinguistische Methoden erfordern sprach- beitet werden. Nutzt man bei Anfragen hingegen „in-
liches / linguistisches (Hintergrund-)Wissen. terpretierte“ Annotationen, liefern die Ergebnisse
lediglich ein Abbild der Qualität der Annotationen,
Dies stimmt nicht. Korpuslinguistische Methoden ba-
nicht der empirischen Daten („Man kann nur die
sieren auf denselben Prinzipien wie etwa die Waren-
Ostereier finden, die man selber versteckt hat.“ – Er-
korbanalyse oder andere Data Mining-Verfahren1.
ben 2003).
Wenn die Warenkorbanalyse einen Hinweis auf ei-
nen Zusammenhang zwischen Nudeln, Ketchup und
Es soll nicht in Abrede gestellt werden, dass es Sze-
Hackfleisch liefert, muss das Verfahren nicht wissen,
narien für sinnvolle Anwendungen von annotierten
was Spaghetti Bolognese ist. Entsprechend liefern
Korpora gibt. Bibliografische Textannotationen zu
korpuslinguistische Methoden einen Hinweis auf
Autor, zeitlicher und regionaler Herkunft oder the-
Zusammenhänge zwischen Wörtern (und/oder Text-
matischer Beschaffenheit erlauben etwa die
merkmalen) ohne sprachliches (Hintergrund-)Wis-
Inbezugsetzung der Sprachdaten zu diesen Informa-
sen (etwa über Syntax oder Valenzen). Dass man aus
tionen. Für die meisten Annotationen anderer Art gilt
den Zutaten Spaghetti Bolognese zubereiten kann, ist
allerdings – solange sie nicht ohne Vorannahmen
ein Vorgang einer anderen Qualität, der losgelöst
aus den Daten selbst hervorgetreten sind –, dass das
vom Einkaufen verstanden werden kann und der
Korpus lediglich zu einer Testfallsammlung der Vor-
auch eine andere Kompetenz (nämlich die des
annahmen degeneriert.
Kochens) erfordert. Analog schließt sich an die
korpuslinguistische Analyse eine sprachliche und/
oder linguistische Interpretation an, die ebenfalls
eine andere Kompetenz voraussetzt. Mythos 3:
Eine besondere Herausforderung besteht bei diesen Die Existenz eines schlechten Belegs beweist, dass
(Data Mining- und korpuslinguistischen) Verfahren es nicht sinnvoll ist, Belege anzugeben.
darin, Muster von Zusammenhängen auf abstrakte-
Grundsätzliches zu diesem Mythos: Die Korpus-
ren Ebenen zu erfassen. Analog zu dem o.g. Beispiel
linguistik interessiert sich nicht für Einzelbelege. Ein
liefern die Analysen auch Zusammenhänge zwi-
Einzelbeleg, d.h. eine einzelne Textstelle, ist lediglich
schen den Zutaten zu anderen Rezepten, aber auch
ein Mosaikstein in einem Bild, das erst in seiner Gesamt-
Gruppen wie z.B. „Pampers, Babynahrung, Ohr-
heit erkennbar ist. Gelingt es, eine beliebige korpus-
stöpsel“ oder „Sekt, Chips, Pappbecher, Kopf-
linguistische Aussage durch das Weglassen eines Belegs
schmerztabletten“, deren Zusammensetzung sicher
zu erschüttern, so handelt es sich definitionsgemäß
ganz anders motiviert ist, sei es durch Nachwuchs
ohnehin um keine valide korpuslinguistische Aussage.
oder das Organisieren einer Party. Auch bei der
Daraus folgt unmittelbar, dass Aussagen, die sich jeweils
Analyse der Sprache werden Zusammenhänge auf-
nur auf ganz geringe Belegzahlen stützen, in ihrer Ge-
gedeckt, für die Teildisziplinen der Linguistik Erklä-
samtheit keine korpuslinguistischen Aussagen sind.
rungen anbieten können, die auch ein Korpus-
linguist kennen und nicht außer Acht lassen sollte – für
Vor dem Hintergrund einer lexikographischen Anwen-
die meisten Zusammenhänge lassen sich aber
dung verfolgt man mit der Angabe von Belegen ver-
(zumindest auch) andere Motivationen finden. Und
schiedene Ziele. Hierbei gilt insbesondere, dass die
besonders spannend wird es dann, wenn aus neuen
Qualität eines Belegs nur vor dem Hintergrund eines
Erkenntnissen über sprachliche Phänomene neue
Angabezwecks zu bewerten ist. Ein Beleg kann u.a.
Ansätze hervorgehen, die bereits Bekanntes mit ein-
• ein Einzelvorkommen dokumentieren
facheren Konzepten oder sogar bis dato unbekann-
… das kann er immer, die Qualität ist per se o.k.;
te Phänomene erklären können.
• eine prototypische Verwendungsweise illustrie-
ren;
… dann ist die Qualität vom Auswahlproblem
Mythos 2: determiniert;
• definitorische Funktion suggerieren
Korpora gewinnen an Wert, wenn sie annotiert wer- … inwieweit dies sinnvoll ist, hängt davon ab, ob
den. man einem einmaligen Gebrauch eine definitori-
Die Korpora selber – als Abbild eines Ausschnitts der sche Wirkung zuerkennen möchte; ist die „Bedeu-
sprachlichen Realität – gewinnen durch die Annotatio- tung“ von A gleichzusetzen mit der von B, nur

1/2006 3
weil bei einer Gelegenheit geäußert wurde „A „Wortkombinationen“: Verdis Roman Guernica.
sei B“? Auch wenn diese Kombinationen nicht in den Kor-
1. Am besten sollte man solche Belege ver- pora belegt sind und auch vielleicht tatsächlich noch
werfen; nie geäußert wurden, heißt das doch noch lange
2. sie sind evtl. sinnvoll, wenn es sich um nicht, dass sie nicht verwendet werden können.
„Neologismen“ handelt, zur Dokumentati-
on ihrer Entstehung;
3. man sollte unterscheiden zwischen Mythos 5:
„m e n t i o n e d , not u s e d “; „mentioned“
ist normalerweise ungeeignet als Beleg, es Internetsuchanfragen liefern bessere Ergebnisse
sei denn, das ist der typische Gebrauch als Korpusanalysen.
… grundsätzlich ist dieser Anspruch für einen Beleg Wenn die Internetsuchmaschine „Google“ viele
zu hinterfragen: Ein Beleg zeigt eine Treffer für Suchobjekte vermeldet, müssten diese
Verwendungsweise; daraus lässt sich weder Suchobjekte auch bei Korpusanalysen hervortre-
schließen, dass das Wort nur so gebraucht werden ten.
kann, noch wie andere Verwendungsweisen zu
Dieser Vergleich hinkt aufgrund der unterschiedli-
handhaben sind („ein Schwein ferkelt“ lässt sich
chen (Qualität der) Datenbasis und des Verfahrens.
durchaus dahingehend verstehen, dass ein
Internetsuchanfragen haben sicher auch für linguis-
Schwein Ferkel bekommt; dass dieser Vorgang
tische Untersuchungen einen großen Wert. Das
weiblichen Tieren vorbehalten ist, lässt sich über
Internet stellt ein riesiges Reservoir an Information
das Weltwissen erschließen; der Beleg legt aber
zur Verfügung. Es ist u.E. aber vollkommen unklar,
in keiner Weise nahe zu vermuten, dass man auch
welcher Typ / welcher Ausschnitt der Sprache sich im
„das Wildschwein ferkelt“ oder „der Eber ferkelt“
Internet manifestiert. Selbst wenn Korpora
sagen kann).
zeitungslastig sind, sollte man im Hinterkopf haben,
dass das Internet „elektronische Medien“-lastig ist.
Statt auf Belege zu verzichten, wäre sicher die bes-
Beide Ausschnitte müssen kritisch hinterfragt werden,
sere Lösung, bei Bedarf intelligent Belegmengen dy-
wenn sie dazu genutzt werden, Schlüsse über den all-
namisch zusammenzustellen.
gemeinen Sprachgebrauch zu ziehen.

Grundsätzlich haben Internetsuchanfragen eine ganz


Mythos 4: spezielle Funktion. Mit Hilfe der Angabe von Schlüs-
selwörtern sollen Dokumente im Internet aufgespürt
Man kann / darf / soll negative Aussagen aufgrund werden. Gibt man mehrere Suchwörter ein, werden
von Korpusbefunden formulieren. alle Dokumente als Treffer betrachtet, in denen die-
Korpusbefunde können nur positiv interpretiert werden. se Suchwörter an irgendeiner Stelle vorkommen. Ein
Wenn ein Phänomen in einem Korpus belegt ist, dann Zusammenhang zwischen diesen Suchwörtern als
existiert es auch. Wenn ein Phänomen in einem Korpus Begriffen ist eventuell durch das in dem Dokument
nicht belegt ist, kann man keine Aussage folgern. Man beschriebene Thema begründet, vielleicht aber auch
kann z.B. nicht sagen: „Eine Form bzw. Formulierung ganz zufällig. Alternative Phrasensuchen erlauben
ist nicht belegt, deshalb ist sie nicht akzeptabel“. In die zusätzliche Forderung, dass die Suchwörter un-
diesem Fall kann es immer zwei Erklärungen geben: mittelbar aufeinander folgen müssen. Dies mag der
Entweder existiert das Phänomen tatsächlich nicht, damit verbundenen Intention näher kommen, leidet
oder das Korpus ist in der Hinsicht unvollständig. aber genauso darunter, dass es eben eine Suchan-
Man kann in einer Annäherung höchstens pseudo- frage ist und Verhältnismäßigkeiten zwischen den
quantitative Aussagen wagen: In den Korpora Häu- Vorkommen der beteiligten Suchobjekte außer Acht
figes ist auch in der Realität häufig, Seltenes ist sel- lässt. Wenn z.B. die Phrasen Reise unternehmen und
ten, Nicht-Beobachtetes existiert nicht oder ist sehr Reise machen oft im Internet dokumentiert sind, sagt
wahrscheinlich selten – in Abhängigkeit von der dies noch nicht viel über den inneren Zusammen-
Extrapolierbarkeit der Aussage über den zugrunde hang. Eine Suchanfrage an ein Korpus könnte auch
gelegten Sprachausschnitt. Je größer Korpora wer- viele Treffer belegen (sogar mit vorgegebenen maxi-
den, desto mehr seltene Phänomene werden abge- malen Wort- oder Satzabständen). Im Gegensatz zu
deckt. Daraus, dass eine bestimmte Form nicht belegt einer Suche ist der Zweck einer Korpusanalyse zu
ist, z.B. Hühnerkäfigs, darf nicht abgleitet werden, hinterfragen: Ist das häufige gemeinsame Vorkom-
dass diese nie gebraucht wird oder nie gebraucht men rein zufälliger Natur oder durch eines der betei-
werden kann. Noch deutlicher sieht man das an ligten Wörter bedingt? Dass z.B. in der Nähe des

4
Wortes ist das Wort der häufig vorkommt (eine An- und putzen tatsächlich jedem in den Sinn käme. Die
frage an „Google“ liefert viele Treffer), ist nicht ver- Analyse bringt diese Verbindung hervor, ohne dass
wunderlich, weil das Wort der sehr häufig in der der Linguist sie erahnen müsste.
deutschen Sprache ist (das Wort ist ist natürlich auch
sehr häufig). Beliebige Kombinationen von einem
beliebigen Wort und dem Wort der werden oft vor- Mythos 6:
kommen, allein deshalb, weil das Wort der oft vor-
kommt. Die Kombination der Wörter Zähne und Kleine Korpora sind besser als große.
machen ist sicher sowohl im Internet als auch in den
Für spezielle Anwendungen, insbesondere solcher Art,
Korpora sehr häufig, die Kombination der Wörter
die auf die Auswahl weniger Belege zielen, mag dies
Zähne und putzen sehr viel seltener belegt. Da aber
stimmen. Kleine Korpora sind in vielerlei Hinsicht
die beteiligten Wörter im Vergleich zu machen noch
leichter zu handhaben als große, insbesondere, wenn
sehr viel seltener sind, ist die letztere Kombination
sie für spezifische Problemstellungen aufgebaut und
viel auffälliger. Das obige Beispiel Reise machen ist
gepflegt werden. Sie bergen aber natürlich das Risi-
deshalb weniger auffällig, da machen viel häufiger
ko, dass allgemeinere, über die der Korpus-
ist und in der Nähe von vielen anderen Wörtern auch
komposition zugrunde liegende Problemstellung
häufig vorkommt. Rechtfertigt dies, dass auch sämt-
hinaus gehende Suchanfragen häufig zu Fehlanzei-
liche anderen Kombinationen mit machen berück-
gen bzw. Analysen zu minderwertigen Ergebnissen
sichtigt werden? Reise ist 84.143 mal im Deutschen
führen. Große Korpora verbessern die Chancen,
Referenzkorpus des IDS (DEREKO 2005) belegt,
„gute“ Belege zu finden.2 Dies ist allerdings nicht
machen 633.293 mal; diese riesige Anzahl führt aber
Gegenstand der korpuslinguistischen Methoden. Je
nur zu 1.248 Belegen für Reise und machen inner-
größer die Datensammlungen sind, desto mehr sel-
halb eines Satzes. Das Wort unternehmen ist (im Ver-
tene Phänomene decken sie mit ausreichender Aus-
gleich zu machen) nur 20.477 mal belegt, die Kom-
sagekraft ab. Für speziellere Fragestellungen lassen
bination Reise und unternehmen innerhalb eines Sat-
sich aus den grundsätzlich zur Verfügung stehenden
zes jedoch 404 mal. Dieser Wert ist im Verhältnis zu
Daten (Archiven) kleine „virtuelle“ Korpora definie-
dem, den man erwarten dürfte, sehr viel höher als der
ren. Aber erst ab einer gewissen Größenordnung ent-
Wert bei Reise machen. Deshalb ist es legitim, wenn
halten Korpora mehr Wissen als die Summe ihrer Be-
die Analyse Reise unternehmen als signifikante Ver-
lege. Auf dieses latente Wissen zielen die korpus-
bindung hervorbringt, Reise machen aber nicht. Um
analytischen Methoden, für deren Anwendbarkeit
die „Auffälligkeit“ beurteilen zu können, muss man
eine kritische Datenmasse mindestens zur Verfügung
die Gesamthäufigkeiten kennen (und nicht nur erah-
stehen muss.
nen!). Das ist im Internet – anders als im Korpus –
nicht (leicht oder zuverlässig) möglich. Die Ergeb-
nisse von Internetsuchanfragen werden noch lange
unter der mangelnden Genauigkeit leiden, mit der Mythos 7:
die Treffermenge das mit der Suchanfrage intendierte
Phänomen trifft („precision“). Anders verhält es sich, Korpora enthalten manchmal „Quatsch“.
wenn Daten aus dem Internet als Korpora aufberei- Eine technisch einwandfreie und authentische Abbildung
tet werden. Damit kann man z.T. zumindest die Brei- vorausgesetzt, enthalten Korpora nur Fakten über den
te der Daten aus dem Internet einfangen, erlaubt aber Sprachgebrauch. Sie erfassen grammatisch korrekten
auch gleichzeitig die Anfrage- und Analyse- und falschen Umgang mit der Sprache, so wie ihn die
möglichkeiten, wie man sie z.B. von COSMAS abgebildete Sprachgemeinschaft praktiziert. Darüber
(COSMAS II 2005) gewohnt ist. Erst dadurch wer- hinaus findet sich sicher auch kreativer Umgang mit der
den zwei Typen von Suchanfragen möglich: 1) „Gibt Sprache, der von Grammatikschreibern nicht antizipiert
es ...?“ oder „Zeig‘ mir ...!“ als Beleg für die Existenz werden kann. Eventuell wird – vielleicht sogar be-
eines Phänomens, wie es über Suchmaschinen abge- wusst – in Kauf genommen, dass Formulierungen
fragt werden kann, aber auch 2) „Wie typisch ...“ grammatisch nicht zulässig sind, wie z.B. „Ick liebe
oder „Was sollte ich über ... sagen?“ als Evidenz für dir“. Es steht den korpusdateninterpretierenden Lin-
Typisches und Auffälliges. guisten natürlich frei, die Daten entsprechend zu ka-
tegorisieren. Als „Quatsch“ können die Daten nur in
Der fundamentale Unterschied zwischen einer Suche Hinsicht auf eine bestimmte Anwendung und somit
und einer Analyse besteht aber darin, dass man bei als Folge einer Interpretation gewertet werden. Für
der Suche vorher wissen muss, wonach man suchen jedes Datum, das aus einer Sicht als „Quatsch“ ein-
möchte. Die Frage ist, ob eine Suche nach Zähne geordnet wurde, findet sich stets eine andere Sicht,

1/2006 5
für die das Datum sinnvoll interpretiert werden kann. schen Theorie ausgewertet werden.
Ein Japaner z.B., der Deutsch als Fremdsprache gut Dies ist im Prinzip das Kondensat aller bisher disku-
beherrscht, sogar die korrekte grammatische Form tierten Mythen. Wie wir bereits in der Erläuterung zu
kennt, möchte vielleicht trotzdem wissen, dass in ei- Mythos 1 angedeutet haben, verzichten korpus-
nem bestimmten Kontext „Ick liebe dir“ verwendet linguistische Verfahren auf Annahmen bezüglich lin-
wird, um auf Berliner Dialekt anzuspielen. guistischer Modelle oder Theorien – und liefern
trotzdem z.T. verblüffende Erkenntnisse. Damit
wollen wir nicht sagen, dass wir sämtliche Modelle
Mythos 8: und Theorien über Bord werfen sollen. So ganz
verkehrt kann nicht sein, was so viele Forscher in so
Korpora sagen einem, wie gesprochen wird bzw. langer Tradition erarbeitet haben. Nur war diesen
gesprochen werden soll. Forschern der Blick auf so viel Sprache auf einmal
Grundsätzlich können Korpusdaten nur die Sprache nicht möglich, wie es korpuslinguistische Verfahren
der Vergangenheit (bis an die Gegenwart3 heran) erlauben. Ein Verzicht auf traditionelle Herangehens-
erfassen. Aus diesen Daten lassen sich quantitative weisen eröffnet die Möglichkeit, zunächst die Spra-
Aussagen ableiten, aber nur schwerlich qualitative che für sich selbst sprechen zu lassen – und dann zu
über Akzeptabilität oder Wohlgeformtheit. Ein for- schauen, inwieweit die hervorgetretenen Phänome-
mal grammatisches Urteil kann lediglich über eine ne sich mit dem klassischen linguistischen Denk-
Interpretation zu den Daten hinzugefügt werden. apparat erklären lassen.
Eine „pragmatisch-evolutionäre“ Grammatikalitäts-
beurteilung findet sich aber schon in einer gewissen Kategorien können hilfreich sein, um die Erkenntnisse
Weise in den Daten versteckt: In der Evolution der zum Ausdruck zu bringen; ihre Existenz vorauszu-
Sprache werden Formulierungen, die eine Mehrheit setzen kann aber auch manchmal den Blick für das
nicht akzeptabel findet, „besseren“ Formulierungen Wesentliche verschließen. Anders verhält es sich,
unterlegen sein und sich somit nicht als normale oder wenn sich eine Systematik von „Zusammengehöri-
typische Formulierung (für eine bestimmte Zeit oder gem“ aus der Analyse und Interpretation der Daten
für einen bestimmten Raum) durchsetzen. Diese ergibt:
Typikalität ist wiederum etwas, was sich quantitativ
ermitteln lässt und eines der – wenn nicht sogar das „Eine fundamentale Aufgabe jeder Wissenschaft
– Hauptanliegen korpuslinguistischer Methoden. ist die Schaffung einer Ordnung, das Finden von
Mustern in der Menge mannigfaltiger, un-
übersichtlicher Daten. Klassifikations-, Korrela-
tions-, Mustererkennungs- und andere induktiv-
Mythos 9:
heuristische Verfahren dienen hauptsächlich
dem Zweck, neue, zuvor nicht bekannte Phäno-
Ein Korpus ist schlecht, wenn ein Forscher im
mene und Zusammenhänge zu entdecken,
Korpus nicht das findet, wonach er sucht.
zumal wenn, wie in der Korpuslinguistik, die
Wenn ein Forscher bereits so gezielt suchen kann, Daten wegen ihrer schieren Masse mit dem Intel-
dass er auch entscheiden kann, ob er etwas Passen- lekt nicht einmal gesichtet werden könnten. Tat-
des findet oder nicht, dann braucht er kein Korpus sächlich beruhen viele Erkenntnisse auf empiri-
mehr – die von ihm gestellte Frage hat er bereits be- schen Generalisierungen, die nachträglich de-
antwortet, korpuslinguistische Verfahren helfen ihm duktiv verankert [...] wurden.“ (Köhler 2005, S.
in diesem Fall nicht weiter. Für die Bestätigung sei- 4f)
ner „Antwort“ sind Korpora genauso gut oder sogar
eher schlechter geeignet, als andere empirische
Quellen wie z.B. die bereits diskutierte Internetanfrage
oder gezielte Feldstudien. Versuch, eine korpuslinguistische Leitlinie
zu skizzieren
In der obigen Diskussion verschiedener Mythen
Mythos 10: haben wir vor allem dargestellt, wie wir Korpus-
linguistik nicht verstanden wissen möchten, aber nur
Zu einem Erkenntnisgewinn können einem For- versteckt angedeutet, wie diese positiv über Eigen-
scher Korpora nur dann verhelfen, wenn sie vor schaften beschrieben werden kann. Dies wollen wir
dem Hintergrund eines bereits bekannten linguis- nun ansatzweise mit einer Leitlinie andeuten, mit
tischen Modells oder einer bekannten linguisti- deren Hilfe wir hinterfragen wollen, inwieweit

6
korpusbasierte Ansätze diese Maxime tatsächlich zur terstützung, um den Zeitfaktor auszugleichen. Sie
Grundlage ihres Arbeitens und Denkens machen brauchen zusammengefasst und komprimiert die
(wie z.B. in Belica / Steyer 2006). Sammlung von Sprachdaten, denen Muttersprachler
über einen langen Zeitraum ausgesetzt sind. An die-
Die Doktrin (streng) korpuslinguistischen Denkens ser Stelle setzen korpuslinguistische Methoden an
ergibt sich schrittweise aus einer täglich bei jedem und versuchen, Strukturen im massenhaften Ge-
Kleinkind beobachtbaren Feststellung: brauch von Sprache aufzudecken bzw. für eine
• Alles, was man wissen muss, um eine Sprache zu weitere Interpretation vorzubereiten (vgl. u.a. Steyer
erwerben, steckt in der Sprache selbst.4 2004).
• Alles, was man wissen muss, um eine Sprache zu
erlernen, steckt in der Sprache selbst. „Corpora provide no direct evidence for
• Alles, was man wissen muss, um eine Sprache zu meanings. Meanings are inferred from contexts in
verstehen, steckt in der Sprache selbst. reading texts in a corpus, in much the same way that
meanings are inferred in reading any other kind of
• Alles, was man wissen muss, um eine Sprache text, but with this difference: by seeing many uses
zu vermitteln, steckt in der Sprache selbst. of the target word in close proximity, the analyst can
• Alles, was man wissen muss, um Erkenntnisse identify groups of normal uses of the target word
über eine Sprache zu gewinnen, steckt in der Spra- according to their common syntagmatic features. A
che selbst. large corpus provides evidence of the patterns of
• Alles, was man wissen muss, um Erkenntnisse usage with which meanings are associated. The
über eine Sprache zu gewinnen und zu vermitteln, larger the corpus, the more strikingly the patterns
steckt in der Sprache selbst. stand out.“ (Hanks 2004, S. 246)
• Alles, was man wissen muss, um Erkenntnisse
über Sprache zu gewinnen, steckt in den Spra- Die Korpuslinguistik aus unserer Perspektive möchte
chen selbst. zeigen, dass alle Ableitungsschritte bis zu der Doktrin
„Alles, was man wissen muss, um Erkenntnisse über
• Alles, was man wissen muss, um Erkenntnisse
Sprache zu gewinnen und zu vermitteln, steckt in den
über Sprache zu gewinnen und zu vermitteln,
Sprachen selbst“ ihre Berechtigung haben und dass
steckt in den Sprachen selbst.
ihre Verinnerlichung auch für andere linguistische
Disziplinen einen Gewinn darstellt.
Die ersten vier Schritte sind in der Fremdsprachen-
didaktik und dem Forschungsansatz des „data driven „Analysis of extended naturally occurring texts,
learning“ bereits auf fruchtbaren Boden gefallen. spoken and written, and, in particular, computer
processing of texts have revealed quite
„Es ist in der Fremdsprachendidaktik unumstrit- unsuspected patterns of language [...] The big
ten, dass das Sprachenlernen soweit wie möglich difference has been the availability of data [...]
induktiv gestaltet werden sollte. Daher gilt es
[The] major novelty was the recording of
beispielsweise, in der Wortschatzvermittlung
completely new evidence about how language is
Schülerinnen und Schülern Strategien zu vermit-
used [...]
teln, wie sie in authentischen Texten zunehmend
selbstständig die Bedeutung unbekannter Wör- [The] contrast exposed between the impressions of
ter aus dem Kontext erschließen können, ohne language detail denoted by people, and the evidence
ständig auf deduktiv vorgegebene Wörterbuch- compiled objectively from texts is huge and
definitionen zurückgreifen zu müssen [...].“ systematic [...]
(Mukherjee 2002, S. 67) The language looks different when you look at a lot
of it at once [...]“
Das „Alles, was man wissen muss“ entnimmt man (Sinclair 1991, S. xvii, 1, 2, 4, 100)
nicht einzelnen Beispielen oder Fällen, sondern der
Spracherwerbende / -lerner / Linguist entnimmt diese
als Regelmäßigkeiten, Gesetzmäßigkeiten über Solange dieses Bestreben, sich nur am puren Sprach-
Muster aus einem massenhaften Gebrauch von Spra- gebrauch zu orientieren (d.h. ohne Vorannahmen)
che. Da außer dem Muttersprachler den anderen Inter- und davon „vieles auf einmal betrachten zu wollen“,
essierten aber die Zeit fehlt, um zu warten, bis sich ih- nicht erkennbar ist, kann man u.E. nicht von einem
nen die Muster von selber „auftun“, brauchen sie Un- korpuslinguistischen Vorgehen i.e.S. sprechen.

1/2006 7
Literatur Steyer, Kathrin (Hrsg.): Wortverbindungen – mehr oder
weniger fest. Berlin/New York: de Gruyter (= Jahrbücher des
Belica, Cyril / Steyer, Kathrin (2006): Korpusanalytische Zu- Instituts für Deutsche Sprache 2003), S. 87-116.
gänge zu sprachlichem Usus. In: AUC (Acta Universitatis Tognini-Bonelli, Elena (2001): Corpus Linguistics at Work.
Carolinae), GERMANISTICA PRAGENSIA XX. Praha: Amsterdam: Benjamins. (=Studies in Corpus linguistics 6)
Karolinum, erscheint 2006 (Vorabdruck als pdf unter Wittgenstein, Ludwig (1984): Philosophische Untersuchun-
www.ids-mannheim.de/lexik/UsuelleWortverbindungen/ gen. Frankfurt / M.: Suhrkamp (erstmals veröffentlicht
CBKSpraha.ver20050426. mit.summ.pdf). 1953).
Church, Kenneth W. / Mercer, Robert L. (1993): Introduction
Wittgenstein, Ludwig (1994): Tractatus Logico-
to the Special Issue on Computational Linguistics Using
Philosophicus. Frankfurt / M.: Suhrkamp (erstmals veröf-
Large Corpora. Computational Linguistics 19:1, S. 1-24.
fentlicht 1922).
COSMAS II (2005): Corpus Search, Management and Ana-
lysis System unter www.ids-mannheim.de/cosmas2/,
Stand: 17.11.2005.
DEREKO (2005): Deutsches Referenzkorpus unter Anmerkungen
www.ids-mannheim.de/projekte/korpora/, Stand:
17.11.2005. 1
Unter Data Mining versteht man das systematische (in der
Erben, Johannes (2003): mündlicher Beitrag auf der Tagung Regel automatisierte oder halbautomatische) Entdecken
‚Korpuslinguistik deutsch: synchron – diachron – kontras- und Extrahieren unbekannter Informationen aus großen
tiv‘; 20.-23.3.2003, Universität Würzburg. Mengen von Daten: „The nontrivial extraction of implicit,
Frawley, William J. / Piatetsky-Shapiro, Gregory /Matheus, previously unknown, and potentially useful information
Christopher J. (1992): Knowledge Discovery in Databases: from data“ (Frawley et al. 1992). Die so genannte Waren-
An Overview. In: AI Magazine, 13, S. 57-70. korbanalyse ist der wohl klassischste Vertreter der
Hanks, Patrick (2004): The Syntagmatics of Metaphor and Abhängigkeitsanalyse, bei der Informationen über das
Idiom. In: International Journal of Lexicography, 17, S. gleichzeitige Interesse für mehrere Leistungen oder
245-274. Leistungsgruppen analysiert und in wirtschaftliches Ver-
halten umgesetzt werden.
Köhler, Reinhard (2005): Korpuslinguistik – zu 2
wissenschaftstheoretischen Grundlagen und methodolo- Jeder Beleg spiegelt ein singuläres Ereignis wider. Insofern
gischen Perspektiven. In: LDV Forum, Band 20, Heft 2, S. ist fraglich, was ein „guter“ Beleg ist. Vgl. auch Mythos 3.
3
1-16. Abgesehen von dem Verzug durch die technische Aufbe-
Mukherjee, Joybrato (2002): Korpuslinguistik und reitung ist die deskriptive Auslegung der Präsens-
Englischunterricht: Eine Einführung. Frankfurt / M.: Lang. formulierung des Mythos legitim. In diesem Abschnitt
wird der präskriptiv gemeinte bzw. auf die Zukunft bezo-
Perkuhn, Rainer / Belica, Cyril / al-Wadi, Doris / Lauer, gene Gebrauch diskutiert.
Meike / Steyer, Kathrin / Weiß, Christian (2006): Korpus- 4
technologie am Institut für Deutsche Sprache. In: Im Sinne der Gebrauchstheorie Wittgensteins (Wittgen-
Schwitalla, Johannes / Wegstein, Werner (Hrsg.): Korpus- stein 1984), für den Teil des Sprachvermögens, der über die
linguistik deutsch: synchron – diachron – kontrastiv. elementaren Möglichkeiten einer Abbildtheorie
Würzburger Kolloquium 2003, 20. – 23.3. 2003, Univer- (Wittgenstein 1994) hinausgeht: „Es ist eine Hauptquelle
sität Würzburg. Tübingen: Niemeyer, erscheint 2006. unseres Unverständnisses, daß wir den Gebrauch unserer
Wörter nicht übersehen“ (Wittgenstein 1984, §122).
Sinclair, John (1991): Corpus, Concordance, Collocation.
Oxford: Oxford University Press.
Steyer, Kathrin (2004): Kookkurrenz. Korpusmethodik, lin- Die Autoren sind wissenschaftliche Mitarbeiter am Institut
guistisches Modell, lexikografische Perspektiven. In: für Deutsche Sprache in Mannheim.