1 Verbzweitstellung bedeutet, dass das finite Verb als zweites Satzglied im Satz auftritt: da
(Lokaladverbiale) sitzen drin (Prdikat) viel zu viel Leute (Subjekt). Konjunktionen wie weil werden nicht
als Satzglieder angesehen.
2 Bei Verbendstellung wrde der Satz lauten: weil da viel zu viele Leute drin sitzen.
2 Kapitel 4
trivial, sondern stellen sich als grundstzliche Forschungsprobleme auch bei alternativen
Herangehensweisen, die als empirische Methoden der introspektiven Sprachbetrachtung
gegenbergestellt werden knnen.
Empirie (von griech. empeiria) bedeutet Erfahrung. Bei einem empirischen sprach-
wissenschaftlichen Vorgehen nhert man sich dem Untersuchungsgegenstand ausgehend
von Daten, die systematisch durch verschiedene Verfahren erhoben werden knnen.
Grundstzlich unterscheiden lassen sich hier als Herangehensweisen die Informanten-
befragung, das Experiment, die Beobachtung und die Aufzeichnung und Auswertung
authentischer Daten. Natrlich spielt Introspektion auch bei diesen Verfahren eine Rolle:
In vielen Zusammenhngen ist es hilfreich, wenn Linguisten auf eigene Sprachkenntnisse
zurckgreifen oder Sprecher einer Sprache zur Einschtzung von Formen oder
uerungen befragt werden knnen.
Die wissenschaftliche Untersuchung entscheidet sich oft fr eine der methodischen
Herangehensweisen. Manchmal werden aber auch mehrere methodische Verfahren auf
einen Gegenstand angewendet und die Ergebnisse der verschiedenen Heran-
gehensweisen zueinander in Beziehung gesetzt. Ein solches Vorgehen bezeichnet man als
Triangulation. So kann z.B. einer (mndlichen oder schriftlichen) Spracherhebung in
einer alltglichen Umgebung eine Informantenbefragung vorausgehen. Ein gezieltes
Interview mit den Sprechenden oder Schreibern kann folgen; auch knnen
Untersuchungsergebnisse gegebenenfalls mit diesen besprochen und diese Gesprche als
weitere Datenquelle genutzt werden. Da das Ergebnis einer solchen Forschung durch
mehrere Verfahren abgesichert ist, gelten triangulatorische Verfahren als besonders
wertvoll, sind aber entsprechend aufwendig in ihrer Durchfhrung.
Mchte man, wie in Forschungen zum Spracherwerb, Aussagen ber zeitliche
Verlufe machen, bieten sich zwei Forschungsdesigns an. Zum einen kann die Methode
der Lngsschnittstudie (Langzeitstudie) gewhlt werden. Bei einer solchen Heran-
gehensweise begleitet man die Probanden, also die Versuchspersonen oder untersuchten
Personen, ber einen lngeren Zeitraum, oft mehrere Jahre oder gar Jahrzehnte hinweg,
wobei in bestimmten Abstnden Daten erhoben werden. Eine andere Mglichkeit ist die
Querschnittstudie. Dabei erhebt man zu einem bestimmten Zeitpunkt Sprachdaten in
verschiedenen Altersgruppen und schliet dann auf einen zeitlichen Verlauf. Zwei groe
Studien zum Erwerb des Deutschen durch auslndische Arbeiter, das Heidelberger
Forschungsprojekt Pidgin-Deutsch und das Projekt ZISA (Zweitspracherwerb
italienischer und spanischer Arbeiter) (vgl. Kap. 19.1), waren beispielsweise als
Querschnittstudien angelegt.
An wissenschaftliche Forschung besteht der Anspruch, auch von anderen nachprfbar
zu sein. Dazu muss nachvollziehbar sein, wie die Ergebnisse gewonnen wurden. Auch
das zugrundeliegende Datenmaterial selbst sollte daher umfassend oder zumindest in
Ausschnitten3 fr eine berprfung und gegebenenfalls erneute Analyse zugnglich
sein. So ist es wissenschaftlicher Standard, Ausschnitte aus den Daten (z.B. Fragebgen,
Beispieltexte, Transkripte) zu verffentlichen, die das Vorgehen belegen und die
Argumentation nachvollziehbar werden lassen.
3 Nicht immer werden die in Projekten erhobenen Sprachdaten vollstndig verffentlicht. Oft erlaubt allein
der Umfang der Materialien keine umfassende Publikation, schon wegen der Druckkosten und des
Aufwands fr die Aufbereitung des Daten.
Kapitel 4 3
4 Manchmal handelte es sich dabei allerdings nur um ein oder zwei Personen, die ber keine linguistischen
Kenntnisse verfgten. Entsprechend haben sich einige der Sprachbeschreibungen im Nachhinein z.T. als
unzutreffend erwiesen, so etwa die der sprachlichen Relativittstheorie zugrundeliegenden
Beschreibungen des Hopi als zeitloser Sprache durch Whorf (vgl. Kap. 3.4.2).
5 Die verschiedenen Stze und Beispiele fr beantwortete Fragebgen sind ber das REDE-Portal
zugnglich (s. Internet-Einstiege); das Vorgngerprojekt Digitaler Wenker-Atlas wurde in die Plattform
integriert.
6 Die Tonbeispiele der verschiedenen Wenker-Stze in ihrer jeweils dialektalen Umsetzung wurden
mittlerweile digitalisiert und knnen ber das REDE-Portal heutzutage geographisch punktgenau von
Karten abgerufen werden (https://regionalsprache.de/SprachGis/Map.aspx).
4 Kapitel 4
Waren Sie schon einmal in Todesgefahr? und forderte so zu Erzhlungen auf, die er
anschlieend strukturell untersuchte. Ein Interview, das spezifisch darauf abzielt, die zu
untersuchenden Personen zu lngeren Ausfhrungen und Erzhlungen zu bewegen,
wird als narratives Interview bezeichnet. Die Interviewenden gehen dabei auf die
uerungen ihrer Gesprchspartner flexibel ein. Nachfragen sind mglich, thematische
Abschweifungen erlaubt, das Gesprch soll so natrlich7 wie mglich verlaufen. Ist fr
das Interview hingegen die Abarbeitung einer Liste zu stellender Fragen vorgesehen,
spricht man von einem strukturierten Interview. Hufig findet sich als Mischform auch
das halbstrukturierte Interview, das eine situationssensitive Gesprchsfhrung bei
gleichzeitiger Ausrichtung an einem Fragenkatalog zulsst, wobei die Fragen nicht
notwendigerweise in einer bestimmten Reihenfolge angesprochen werden mssen.
Das Hervorrufen sprachlicher Daten durch Aufforderungen oder Fragen der
untersuchenden Linguisten bezeichnet man als Elizitierung. Die Elizitierung
sprachlicher Daten ist nicht immer leicht. Auch unterliegen elizitierte Daten einer
gewissen Einschrnkung: Sie werden von den Untersuchten zwar spontan geuert, es
bleibt aber offen, ob das betreffende Phnomen auch ohne Elizitierung im normalen
Alltag so produziert werden wrde. Gerade im Zusammenhang der Untersuchung von
Dialekten oder anderen Varietten stellt sich als weiteres Problem der Einfluss, den die
sprachwissenschaftlichen Interviewer durch ihre eigene Sprechweise unwillentlich auf
die Informanten ausben: Ein nicht dialektkundiger Linguist wird in Interviews nur
schwerlich basisdialektale Sprechweisen erheben knnen.
Auch das sprachwissenschaftliche Experiment ist als Verfahren durch die Elizitierung
von Daten gekennzeichnet. Im Experiment werden Versuchspersonen mit Aufgaben oder
Situationen konfrontiert, die sie bewltigen mssen. Zum Teil werden dabei ihre
sprachlichen uerungen aufgezeichnet, zum Teil geht es aber auch um Reaktionszeiten,
Augenbewegungen (z.B. beim Lesen) oder neuronale Vorgnge, die apparativ erfasst und
gemessen werden (s. Kap. 3.4.3). Fr bestimmte linguistische Fragestellungen ist ein
experimentelles Vorgehen unumgnglich. Ein groer Vorteil des Experiments ist die
Vergleichbarkeit des so gewonnenen Materials. Indem man z.B. untersucht, wie
verschiedene Probanden unterschiedlicher Herkunftssprachen die Aufgabe lsen, eine
Bildgeschichte oder ein Video nachzuerzhlen, lassen sich sprachkontrastiv Einblicke in
die Sprachproduktion oder erwerbsbezogene Phnomene gewinnen.8 Entsprechende
Aufgabenstellungen knnen auf die Erhebung mndlicher oder schriftlicher Sprachdaten
abzielen.
sein, wie sie z.B. in Zeitungen oder Bchern aufzufinden sind (s. Kap. 4.3.1), es kann sich
um mediale Kommunikationsformen wie Werbefilme handeln oder aber um Gesprche
im familiren oder beruflichen Umfeld, die mitgeschnitten werden. Authentische
Gesprche sind fr die Linguistik besonders interessant, gleichzeitig aber am
schwierigsten zu erheben.
Sind die Forschenden selbst in den Situationen anwesend, die von ihnen durch eine
Ton- oder Videoaufzeichnung erfasst werden, bezeichnet man das als teilnehmende
Beobachtung.
Viele der gegenwrtigen linguistischen Forschungen, u.a. die Untersuchung von
Unterrichtskommunikation, sind durch teilnehmende Beobachtung gekennzeichnet.
Umfangreichere Formen der teilnehmenden Beobachtung liegen vor, wenn die
Forschenden lngere Zeit in der zu untersuchenden Sprachgemeinschaft verbringen oder
zeitweilig mit den untersuchten Personen zusammenleben. Man bezeichnet diese Art von
Forschung als Feldforschung. Besonders hufig wird dieses Verfahren in linguistisch-
ethnologischen Forschungszusammenhngen verwendet, so bereits bei BOAS (vgl. Kap.
3). Die Kontaktaufnahme mit den zu untersuchenden Personen, d.h. der Feldzugang,
gestaltet sich je nach Untersuchungsbereich als mehr oder weniger schwer, da der
Einblick in sprachliche Gewohnheiten oft Vertrautheit voraussetzt.
Bereits zu Zeiten der Junggrammatiker war Feldforschung in der Dialektologie blich.
Zum Teil mieteten sich die Forschenden z.B. lngere Zeit in einem Ort ein, um die
lokalen Ortsgrammatiken aufzuzeichnen. Die entsprechende Technologie fr Ton- oder
gar Filmaufnahmen stand dabei jedoch noch nicht zur Verfgung. Man war daher auf die
direkte oder nachtrgliche Mitschrift angewiesen.
Die nachtrgliche Aufzeichnung eines Sprachereignisses bezeichnet man als
Erinnerungszitat. Viele frhe Sprachforschungen, insbesondere auch zum
Spracherwerb, sind auf Erinnerungszitate gesttzt. Da keine Nachprfbarkeit besteht,
gelten Erinnerungszitate heutzutage nicht mehr als verlssliche Quellen; sie hngen von
richtiger Wahrnehmung und vom Gedchtnis des einzelnen ab. Gleichwohl greift man
auch heute manchmal noch auf Erinnerungszitate zurck, da die Aufnahmetechnik nicht
in allen Momenten bereitsteht, in denen man sich eine Aufzeichnung wnscht. Man
spricht dann von quasi-authentischen Belegen. Diese knnen einen Ausgangspunkt fr
weitere Untersuchungen bilden, die dem betreffenden Phnomen empirisch nachgehen.
Die Erfassung authentischer mndlicher Sprachdaten ist fr viele sprach-
wissenschaftliche Fragen, etwa die, wie der Sprecherwechsel in Gesprchen verluft,
welche Funktionen sprachliche Variation erfllt u.a., unumgnglich. Sie ist allerdings
zeitaufwendig, da der Erhebung weitere Aufbereitungen folgen (s. Kap. 4.2). Dadurch ist
die Anzahl der Personen, die erfasst werden, meist geringer als z.B. bei einer Fragebogen-
untersuchung. In der Forschung wird hier von qualitativen Untersuchungsverfahren
gesprochen, die auf eine hohe Probandenzahl zugunsten einer inhaltlich vertieften
Gegenstandsanalyse verzichten.
Den qualitativen Verfahren werden manchmal die quantitativen Verfahren
gegenbergestellt.10 Dies ist insofern nicht richtig, als auch qualitative Studien
quantitative Auswertungen, z.B. von Worthufigkeiten, Lautabweichungen etc. umfassen
10 S. dazu auch Ehlich (1982) Quantitativ oder qualitativ? Bemerkungen zur Methodologiediskussion in
der Diskursanalyse. In: Khle, Karl/ Raspe, Hans-Heinrich (Hgg.) Das Gesprch whrend der rztlichen
Visite. Mnchen: Urban & Schwarzenberg, S. 298-312.
6 Kapitel 4
knnen. Die Frage der Reprsentativitt der Daten, d.h. ihrer Verallgemeinerbarkeit und
Aussagekraft, ist im Rahmen jeder sprachwissenschaftlichen Untersuchung zu stellen
und in der Darstellung der Ergebnisse zu reflektieren (s. Kap. 4.3).
4.2.1 Aufzeichnung
Bei der Erhebung mndlicher Sprachdaten stellt sich ein besonderes Problem, das unter
dem Stichwort Natrlichkeit von Sprachdaten diskutiert und in der Linguistik seit
WILLIAM LABOV als Beobachterparadox bezeichnet wird. LABOV selbst beschreibt das
Paradox folgendermaen:
Ziel der sprachwissenschaftlichen Erforschung der Gemeinschaft muss sein, herauszufin-
den, wie Menschen sprechen, wenn sie nicht systematisch beobachtet werden; wir knnen
die notwendigen Daten jedoch nur durch systematische Beobachtung erhalten. (1972, S. 147)
Fr die Untersuchung sprachlichen Handelns spielt es also eine zentrale Rolle, ob und
inwieweit die Beobachtung die zu beobachtende Kommunikation mitbestimmt, d.h. ob
sich die Beteiligten anders als sonst verhalten. Die teilnehmende Beobachtung hat den
Vorteil, dass der anwesende Forscher sich im Nachhinein an bestimmte Ereignisse
whrend der Aufnahme erinnern und uerungen, die in Gesprchen fallen, oft besser
deuten kann als jemand, der nicht anwesend war (z.B. uerungen wie Stellst des mal
hin?). Da seine eigene Sprechweise aber die Sprachwahl der Aufnahmesituation
beeinflussen kann, arbeitet man in der Dialektologie und Regionalsprachenforschung z.T.
auch mit Gesprchsaufnahmen, die ohne Anwesenheit der Forschenden durchgefhrt
wurden (vgl. SCHMIDT/HERRGEN 2014:379f.). Das Bewusstsein, beobachtet zu werden,
kann im Verlauf eines Gesprchs in den Hintergrund treten. Das Problem ist aber
grundstzlich vorhanden; manchmal wird auf die Ausnahmesituation auch durch
entsprechende Bemerkungen der Beteiligten Bezug genommen.
Das Beobachterparadox tritt insbesondere bei einer offenen Aufnahme deutlich
hervor, bei der die Beteiligten um den Mitschnitt wissen. Eine verdeckte Aufnahme
(Aufnahme ohne Wissen der Betroffenen) kann das Problem verringern, ist jedoch
ethisch und rechtlich problematisch. So ist es notwendig, bei Sprachaufnahmen im Vor-
oder Nachhinein die Zustimmung der Beteiligten einzuholen und die Daten andernfalls
zu lschen.11 Zudem werden die Gesprchsdaten aus Datenschutzgrnden blicherweise
anonymisiert (so auch bei uns): Namen von Personen, Orten etc. werden in Transkripten
durch hnlich klingende Namen mit gleicher Silbenzahl (z.B. Meier durch Mller) oder
durch Platzhalter (z.B. STRASSE, STADT) ersetzt. In Tonaufnahmen werden persnliche
Angaben ggf. durch einen Ton berblendet.
Eine im Blick auf die Datenaufzeichnung wichtige Frage betrifft die Aufnahmetechnik.
In sprachwissenschaftlichen Untersuchungen werden soweit mglich12 Gerte und
Mikrophone genutzt, die eine hohe Qualitt der Klangaufzeichnung ermglichen.
Sprachaufnahmen in der freien Wildbahn sind aufgrund der blichen Nebengerusche
in der Lebensumwelt aber zumeist von wesentlich schlechterer Tonqualitt als Radio-
oder Fernsehaufzeichnungen. Eine entscheidende Rolle spielen in diesem Zusammen-
hang auch die Raum- und Gruppengre. Bei der Untersuchung von Sprache in greren
Gruppen, z.B. einem Klassenzimmer, mssen u.U. mehrere Gerte verwendet werden.13
Die Qualittsanforderungen sind zudem abhngig von den jeweiligen Untersuchungs-
zielen. Besondere Erhebungsprobleme stellen sich, wenn auch gestisch-mimische Anteile
einer Interaktion erfasst werden sollen. Hier stellen sich u.a. die Fragen, mit wie vielen
Kameras zu arbeiten ist und welche Personen jeweils aus welcher Entfernung und
welchem Blickwinkel im Bild erfasst werden.
Die im Rahmen von Mitschnitten erhobenen Sprachdaten werden meist nicht gnzlich
ausgewertet, da der Arbeitsaufwand einer detaillierten linguistischen Verschriftlichung
erheblich ist (s. Kap. 4.2.2). Als zweiter Schritt erfolgt daher zunchst die Erstellung einer
berblicksartigen Verlaufsbersicht ber den Inhalt der Aufnahmen und die
exemplarische Auswahl von Gesprchen oder Teilausschnitten, die einer Transkription
und anschlieenden Auswertung unterzogen werden.
12 Hier spielt natrlich die finanzielle Frage der Forschungsfrderung eine groe Rolle.
13 S. z.B. REDDER (1982) zum Projekt Kommunikation in der Schule (KidS).
14 Alphabet- und Silbenschriften sind Transkriptionsverfahren, die gesamtgesellschaftlich verbreitet sind.
8 Kapitel 4
C [ Aber ich hab ja jetzt/ im letzten Semester hab ich
1
C [ diesen ersten Spanischkurs fr Nicht-Hispanisten
2
> \/
A hmhm (Der) ist lustig. ((lacht))
C /_1gemacht. 1_/ Und das war der vllige Absturz.
/_1lachend
D %
% = zieht lachend Luft ein
3
16 Einfhrend s. Ehlich / Rehbein (1976), ausfhrlicher Ehlich (1993), Ehlich / Rehbein (1979a).
10 Kapitel 4
Das Grundprinzip der Notation in HIAT ist die Partiturschreibung, die Notationsweisen
der Musik aufgreift: In der Transkription erhlt jeder Sprecher eine oder mehrere Zeilen,
in denen notiert wird, was er sagt bzw. tut. Die Gleichzeitigkeit von Phnomenen wird
innerhalb der Partiturklammer graphisch abgebildet. Wie in Musikpartituren werden
aus Platzgrnden Zeilen fr Sprecher weggelassen, wenn sie in dieser Zeit keinen
Einsatz haben.
Pro Sprecher werden u.U. mehrere Transkriptionszeilen genutzt. Das eigentlich Ge-
sprochene wird fr jeden Sprecher in der so genannten Verbalzeile notiert. Starke
Betonung eines Wortes wird durch Unterstreichung erfasst. In einer so genannten Into-
nationszeile (im obigen Transkript durch > gekennzeichnet) werden Angaben zu pro-
sodischen Phnomenen notiert. Hrvermutungen werden in einfache Klammern gesetzt,
z.B. (Der) ist lustig. Fr Nicht Verstandenes wird ein der uerungslnge entsprechender
Leerraum eingeklammert. Gerusche werden in Doppelklammern notiert, z.B. ((lacht)).
Phnomene, die sich ber einen lngeren Zeitraum erstrecken, werden in der Verbalzeile
durch Klammerung mittels /_ _/ angezeigt und in einer Kommentarzeile oder am
Transkriptrand erklrt. Die Klammern werden bei Bedarf nummeriert. Das Zeichen %
wird benutzt, um ein sehr kurzes, punktuelles Phnomen zu notieren, das auerhalb der
Verbalzeile erlutert wird.
Verzgerungen, Abbrche und Pausen kommen in gesprochener Sprache sehr hufig
vor (s. Kap. 16). Um das Langziehen eines Lautes zu kennzeichnen, verwendet man in
HIAT entweder Mehrfachschreibung (z.B. sooo) oder man setzt Doppelpunkte hinter dem
betreffenden Laut (z.B. so::).17 Abbrche und Brche in der uerungskonstruktion
werden durch das Zeichen / erfasst (z.B. Aber ich hab ja jetzt / im letzten Semester hab ich
diesen ersten Spanischkurs fr Nicht-Hispanisten gemacht). Pausen innerhalb von oder
zwischen uerungen werden durch Punkte verschriftlicht. Ein Punkt entspricht einer
kurzen Pause (einem beat), mehrere Punkte zeigen eine lngere Pause an.18 Lngere
Pausen werden in Sekunden angegeben (z.B. ((6s))).
Die Genauigkeit von Transkripten wird fr diskursorientierte Transkriptionen oft als
Relation angegeben (Transkriptionsrelation). Man findet hier Angaben wie 1:30, 1:60
oder 1:600. Die Angaben bedeuten, dass pro Minute gesprochener Sprache 30, 60 oder
(z.B. bei der Erfassung gestischer und prosodischer Daten) sogar 600 Minuten
Transkriptionszeit aufgewendet wurden. Je nach Umfang der Transkription
unterscheidet man zwischen einfachen und erweiterten Transkriptionen.
Erweiterte Transkriptionen sind umfangreicher und erfassen z.B. auch die phonetische
Umsetzung oder das gestische Handeln im Detail.
17 Diese Notation entspricht der Notation von Lnge im Internationalen Phonetischen Alphabet (IPA).
18 In neueren Transkriptionen wird das Zeichen fetter Punkt verwendet, um Pausen zu notieren.
Kapitel 4 11
Deutsch (HPD), zeigt zugleich, dass neben IPA in der Linguistik z.T. auch andere
Verfahren der phonetischen Verschriftlichung Einsatz finden.
B1 Literarische Transkription von Lernersprache
Heute viel . Kollega . kurzarbeiten, nich arbeiten, spazieren, Arbeitsamt bezahle,
Arbeitsamt, achtnzwansi Mark und vierzig Pfenni. Du guck amol, eine . eine .
Kollega . vielleicht zwei Kinder Deutschland, . o(der) . nich Kinda, achtnzwanzig
Mark bezahle eine Tag. Miete bezahle, Strom bezahle, Wasser bezahle, Vespa
bezahle, wo Geld? Egal, . Kollega, egal.
B2 Phonetische Transkription von Lernersprache (HPD 1977, S. 27)
oitc19 fiil /colega/ kucdsawitc, ni arwic, pasia, acwaisam
bcsaalc, awaism, axwansi marko ficsi fni. Duu gukc mool, ainc- ainc /colega/, filai
czswai kinda doislan, /o/ ni kinda, axwansi marko bcsalc ainc tah.
miitc bcsaalc, cstrom bcsaalc, wasa bcsaalc, wspa bcsaalc, woo gl? + (lacht) & &
igaal, /colega/, & & igaal.
Je nach Reichweite der Verschriftlichung mndlicher Sprache wird in der phonetischen
Forschung zwischen breiten und engen phonetischen Transkriptionen unterschieden.
Eine breite phonetische Transkription ist an den Phonemen der betreffenden Sprache
orientiert (s. Kap. 13). Notiert werden lediglich diejenigen Eigenschaften der Aussprache,
denen bedeutungsdifferenzierende Qualitt zugesprochen wird. Zudem wird eine
Segmentierung des Lautstroms durch Spatien (Leerzeichen) sowie durch Interpunktion
vorgenommen, die ber die wahrnehmbaren Eigenschaften des Gesprochenen
hinausgeht. B3 zeigt eine breite Transkription des Textes Nordwind und Sonne, der als
Beispieltext im Handbuch der International Phonetic Association verwendet wird.
B3 breite phonetische Transkription (Kohler 1999, S. 88)
ans ttn z ntvnt n zn, ve fn im baidn
vol d tk ve, als an vand, d n an
vam mantl ghlt va, ds vegs dahekam.
Bei einer engen phonetischen Transkription werden hingegen wesentlich mehr Eigen-
schaften der sprachlichen uerung notiert (s. B4). Erfasst werden u.a. die Realisierung
von Knacklauten [], Entstimmlichungen und Lnge. Die Verwendung von Spatien als
Lesehilfe entfllt.
B4 enge phonetische Transkription (Pompino-Marschall 2009, S. 268)
ansttnzntvntnzn|vefnimbadn
voldtkve|alzavand|dnan
vammantl ghltva|dsvegsdahekam
Will man die Aussprache von Deutschlernenden nher untersuchen, ist eine sehr enge
Notation notwendig, in der z.T. noch weitere Merkmale, etwa die vor- und rck-
verlagerte oder entrundete Umsetzung eines Lautes zu erfassen sind.
19 Das Zeichen <c> steht hier fr einen reduzierten Vokal (Schwa-Laut), der sich im Deutschen in unbe-
tonten Nebensilben findet (s. Kap. 12f.).
12 Kapitel 4
Die Frage, wie sich der untersuchte Ausschnitt zur Grundgesamtheit aller Sprach-
daten dieses Typs verhlt, wird unter dem Stichwort Reprsentativitt diskutiert.
Idealiter sollte ein Korpus reprsentativ, d.h. das verkleinerte Abbild der
Grundgesamtheit sein. So wre es beispielsweise unzulssig, eine Beschreibung der
deutschen Aussprache allein auf eine Untersuchung von 2030-jhrigen Sprechern zu
sttzen, die in Mnchen leben. Zwar drfte eine solche Untersuchung durchaus
interessante Ergebnisse erbringen (z.B. mit Blick auf Mehrsprachigkeit in der Stadtregion)
und knnte zur Beantwortung der Frage nach Aussprachestandards im Deutschen
beitragen. Hinsichtlich der Verallgemeinerbarkeit muss jedoch die Frage gestellt werden,
ob die Untersuchung von anderen Altersgruppen und in anderen Regionen dieselben
Ergebnisse erbringen wrde.
Korpora sind grundstzlich und aus forschungspraktischen Grnden begrenzt und
knnen den Untersuchungsbereich Sprache niemals vollstndig abbilden. So knnen
fr eine sychrone Sprachbeschreibung des Deutschen nicht alle mndlichen und schrift-
lichen uerungen seiner gegenwrtigen Sprecher herangezogen werden; auch kann
eine diachrone germanistische Beschreibung sich nicht auf alle auf Deutsch verfassten
Texte der letzten Jahrhunderte sttzen. Untersucht werden knnen lediglich Ausschnitte
diese sind mittlerweile aber schon sehr umfangreich und umfassen Tausende von
Texten und Tonaufnahmen. Eine bersicht ber nationale und internationale
Korpusarchive zum Deutschen geben LEMNITZER / ZINSMEISTER (2006) sowie KALL-
MEYER / ZIFONUN (2007). Die umfangreichste Sammlung von Korpora zum gesprochenen
und geschriebenen Deutsch verwaltet das Institut fr Deutsche Sprache (IDS) in
Mannheim.
Ein historisches Referenzkorpus fr das Deutsche ist das Deutsche Textarchiv (DTA),
das einen disziplinbergreifenden Kernbestand deutschsprachiger Texte aus der Zeit von
ca. 1650 bis 1900 als digitalisiertes, linguistisch annotiertes Volltextkorpus bereitstellt.
der Universitt Kiel (Kiel Corpus). Sie sind, anders als es ihre Benennungen vielleicht
vermuten lassen, nicht dialektologisch, sondern berregional ausgerichtet. Die
Aufnahmen umfassen vorgelesene und spontane Sprache, z.B. Zahlenreihen (eins, drei,
fnf ), und bilden die Grundlage fr verschiedene Projekte zur Signalverarbeitung
und Entwicklung automatischer Auskunftssysteme (vgl. Kap. 19).
4.4 Korpuslinguistik
Der Ausdruck Korpuslinguistik bezeichnet allgemein einen methodologischen Stan-
dard, der sich in der gegenwrtigen Sprachwissenschaft etabliert hat. Sowohl in der
lexikologischen als auch der semantischen und grammatischen Forschung arbeitet man
mit Korpora; die Gesprochene-Sprache-Forschung wre ohne sie nicht denkbar.
Insbesondere komplexe Handlungsstrukturen (z.B. Reklamationen, Arzt-Patienten-
Gesprche, Verhandlungen) weisen oft vielfltige Variationsmglichkeiten auf. Die fr
bestimmte Institutionen und Diskursarten charakteristischen Handlungsablufe lassen
sich nur durch Analyse einer groen Vielzahl von Gesprchsaufnahmen und
Transkripten herausfinden.
In einem etwas engeren Sinn bezeichnet man als Korpuslinguistik eine linguistische
Teildisziplin, die sich mit dem systematischen Aufbau, der Verwaltung und der
Auswertung von sehr groen Korpora befasst.23 Dabei stellen sich einerseits Fragen der
Annotation (Auszeichnung) linguistischer Daten. Dazu gehrt z.B. die Kennzeichnung
von Wort- und Morphemgrenzen, Kasusformen usw. Durch ein sorgfltiges Tagging wird
eine statistische Auswertung mglich, die die Hufigkeit von Formen ber riesige
Mengen von Sprachdaten hinweg ermitteln kann. Dadurch kann man heutzutage sehr
genau Auskunft ber sprachliche Variation synchroner oder diachroner Art gewinnen.
Fr die sprachvergleichende Forschung von hohem Interesse sind Parallelkorpora
verschiedener Sprachen. Zum anderen bilden auch technische Fragen der Verarbeitung
von Sprachdaten einen Schwerpunkt der Korpuslinguistik; sie schliet somit eng an die
Computerlinguistik an (vgl. Kap. 19). So dient die Arbeit mit Sprachkorpora auch oft
dem Ziel der automatischen Fehlererkennung.
Korpuslinguistisch basierte Informationssysteme zum deutschen Wortschatz sind das
Digitale Wrterbuch der Deutschen Sprache (DWDS) der Berlin-Brandenburgischen
Akademie der Wissenschaften sowie das am IDS angesiedelte Online-Wortschatz-
Informationssystem (OWID) (vgl. Kap. 5). Eine korpusbasierte Auswertung des
deutschen Wortschatzes seit 1998 inklusive einer tagesaktuellen Auswertung
verschiedener Tageszeitungen und Newsdienste bietet das Deutsche Wortschatz-Portal
der Universitt Leipzig; dort erhlt man auch Zugang zur Suche in ber 136
korpusbasierten monolingualen Lexika.
Die Korpuslinguistik versteht sich nicht als reine Hilfswissenschaft, sondern
weitergehend als methodologische Bezugswissenschaft und Korrektiv:
nicht zuletzt ist es nun auch mit einem vertretbaren Aufwand mglich, den gegenwrtigen
Stand der Forschung, wie er in Wrterbchern und Grammatiken kodifiziert ist, auf den
Prfstand zu stellen. (DUFFNER/NF 2006)
23 Einen Einblick geben Hkki Buhofer (2009a, 2009b), Ldeling / Kyto (2008, 2009); zu Korpora in der
Zweitspracherwerbsforschung s. Skiba (2008).
Kapitel 4 15