Sie sind auf Seite 1von 105

Bewertungskriterien

schriftlicher
Lernerproduktionen
B2 und C1
und
ihre Validitt

Dissertation, eingereicht von Anna Chita


bei der Philosophisch-Historischen Fakultt
der Universitt Augsburg
zur Erlangung der Wrde einer Dr. phil.

Dezember 2008

1 2
Bewertungskriterien
schriftlicher Lernerproduktionen
B2 und C1
und ihre Validitt

Dissertation,
eingereicht von Anna Chita (geboren in Korbach, Hessen)
bei der Philosophisch-Historischen Fakultt
der Universitt Augsburg
zur Erlangung der Wrde einer Dr. phil.

Betreuung der Arbeit und Erstgutachter: Prof. Dr. Hans Jrgen Heringer
Zweitgutachter: Prof. Dr. Evelyn Frey
Tag der mndlichen Prfung: 04. Juni 2009

3 4
Inhaltsverzeichnis

1 EINLEITUNG 21

2 REFERENZRAHMEN UND TESTANBIETER 23

2.1 Der Europarat und der Gemeinsame Europische Referenzrahmen 23


2.1.1 Die Kompetenzbeschreibungen im Gemeinsamen Europischen Referenzrahmen
24
2.1.2 Die Niveaustufen des Gemeinsamen Europischen Referenzrahmen 26

2.2 American Psychological Association 36

2.3 Association of Language Testers in Europe (ALTE) 37

2.4 Das Goethe-Institut 38

2.5 Das TestDaF-Institut 41

3 MODELLE DES SPRACHERWERBS 43

3.1 Der Spracherwerb 43

3.2 Erstsprach- und Zweit- bzw. Fremdspracherwerb 44


3.2.1 Gesteuerter vs. ungesteuerter Fremdspracherwerb 44
3.2.2 Die Motivation als Reizelement beim Sprachenlernen 45

3.3 Hypothesen zum Zweitspracherwerb 46


3.3.1 Die Kontrastivhypothese 46
3.3.2 Die Monitor-Theorie 47
3.3.3 Identittshypothese 49
3.3.4 ,,Interlanguage"-Hypothese 49
Fazit 51

3.4 Der schriftliche Ausdruck in der Fremdsprache 53

3.5 Feststellungen und Beobachtungen fr die Praxis 65

3.6 Der Kompetenzbegriff 67

4 VON DER TESTTHEORIE BIS ZUR TESTBEWERTUNG 78

4.1 Was ist ein Test? 78

4.2 Sprachtests: Intentionen und Ziele 81

4.3 Verschiedene Anstze der Testtheorie 83


4.3.1 Das Itemuniversum 84

5 6
4.4 Testtheorien und Gtekriterien 89
4.4.1 Validitt 90
4.4.2 Objektivitt, Reliabilitt und Nebengtekriterien 95
Fazit 100

4.5 Rater und Ratingverfahren 100


4.5.1 Ratingverfahren 100
4.5.2 Deskriptorenuniversum 103
4.5.3 Der menschliche Rater 104

5 UMSETZUNG DEFINIERTER BEWERTUNGSKRITERIEN 108

5.1 Das B2-Zertifikat des Goethe-Instituts 108


5.1.1 Aufgabenstellung fr den schriftlichen Ausdruck im B2-Zertifikat des Goethe-
Instituts 111
5.1.2 Bewertungskriterien fr den schriftlichen Ausdruck im B2-Zertifikat des Goethe-
Instituts 114
5.1.3 Diskussion von Lernerreaktionen auf die Aufgabenstellung und deren
Originalbewertungen 132
Fazit 139

5.2 Das C1-Zertifikat des Goethe-Instituts 141


5.2.1 Aufgabenstellung fr den schriftlichen Ausdruck im C1-Zertifikat des Goethe-
Instituts
143
5.2.2 Bewertungskriterien fr den schriftlichen Ausdruck im C1-Zertifikat des Goethe-
Instituts 145
5.2.3 Diskussion von Lernerreaktionen auf die Aufgabenstellung und deren
Originalbewertungen 152
Fazit 159
5.3 Kontrastiver Ausblick und Neuansatz der Kriterien fr das B2- und C1-Zertifikat
des Goethe-Instituts 160

5.4 Der TestDaF 166


5.4.1 Der schriftliche Ausdruck im TestDaF 167
5.4.2 Bewertungskriterien fr den schriftlichen Ausdruck im TestDaF 172
5.4.3 Bewertung einer schriftlichen Textproduktion 185

6 RESMEE UND AUSBLICK 191

7 LITERATURVERZEICHNIS 202

7 8
Tabellenverzeichnis

Tabelle 1: Komponenten eines handlungsorientierten Ansatzes

Tabelle 2: Niveaustufenbeschreibung

Tabelle 3: Globale Kann-Beschreibung

Tabelle 4: Vergleich der Niveaustufen des GER und ALTE

Tabelle 5: Prfungen des Goethe-Instituts

Tabelle 6: TestDaF im Vergleich zum GER und zu ALTE


Tabelle 7: Komponenten des Schreibprozesses

Tabelle 8: Kann-Beschreibungen fr den schriftlichen Ausdruck auf den Niveaus B2 und


C1

Tabelle 9: Produktionsstrategien fr den schriftlichen Ausdruck fr die Niveaus B2 und


C1

Tabelle 10: Das Schreibprozessmodell von Hayes/Flower am Beispiel des schriftlichen


Ausdrucks des Niveaus B2 in Form einer Pyramide

Tabelle 11: Interne und externe Textproduktionsprobleme

Tabelle 12: Die klassischen Kompetenzen

Tabelle 13: Die Kompetenzerwartung Schreiben nach dem Kernlehrplan NRW

Tabelle 14: Die Kompetenzerwartung Sprachreflexion nach dem Kernlehrplan NRW

Tabelle 15: Kompetenz Leseverstehen im B2 Zertifikat des Goethe-Instituts

Tabelle 16: Kompetenz Hrverstehen im B2 Zertifikat des Goethe-Instituts


Tabelle 17: Kompetenz mndlicher Ausdruck im B2 Zertifikat des Goethe-Instituts

Tabelle 18: Kompetenz schriflicher Ausdruck im B2 Zertifikat des Goethe-Instituts

Tabelle 19: Bewertungskatalog fr das B2- Zertifikat des Goethe-Instituts

Tabelle 20: Inhaltliche Vollstndigkeit im B2 Zertifikat

Tabelle 21: Textaufbau und Kohrenz im B2 Zertifikat

Tabelle 22: Ausdrucksfhigkeit im B2 Zertifikat

Tabelle 23: Gegenberstellung synonymer Ausdrcke nach Profile

Tabelle 24: Korrektheit im B2 Zertifikat


Tabelle 25: Originalbewertung einer B2 - Produktion

Tabelle 26: Originalbewertung einer B2 - Produktion

Tabelle 27: Originalbewertung einer B2 Produktion

9 10
Tabelle 28 : Noten- und Prdikatenskala aus der Prfungsordnung

Tabelle 29: Prfungszielbeschreibung des schriftlichen Ausdrucks im C1Zertifikats des


Goethe-Instituts

Tabelle 30: Bewertungskatalog fr das C1Zertifikat des Goethe-Instituts


Tabelle 31: Inhaltliche Vollstndigkeit im C1Zertifikat des Goethe-Instituts

Tabelle 32: Textaufbau und Kohrenz im C1Zertifikat des Goethe-Instituts

Tabelle 33: Ausdrucksfhigkeit im C1Zertifikat des Goethe-Instituts

Tabelle 34: Korrektheit im C1Zertifikat des Goethe-Instituts

Tabelle 35: Originalbewertung einer C1- Produktion

Tabelle 36: Originalbewertung einer C1- Produktion

Tabelle 37: Originalbewertung einer C1- Produktion

Tabelle 38:Kontrastive Gegenberstellung interner Bewertungsrichtlinien fr die


Niveaus B2 und C1 des Goethe-Instituts

Tabelle 39: Kriterienkatalog fr den TestDaF

Tabelle 40: Kriterium Gesamteindruck im TestDaF

Tabelle 41: Kriterium Behandlung der Aufgabe im TestDaF


Tabelle 42: Kriterium sprachliche Realisierung im TestDaF

Tabelle 43: berblick der Kriterien beim Goethe-Institut und TestDaF- Institut

Tabelle 44: Kriterium Korrektheit des B2 Zertifikats des Goethe-Instituts

Tabelle 45: Bewertungskatalog des griechischen Staatszertifikats fr Sprachen

11 12
Abkrzungsverzeichnis

Abs. = Absatz

APA = American Psychological Association

Bd. = Band

bzw. =beziehungsweise

ca. = circa

d.h. = das heit


DAF = Deutsch als Fremdsprache

DESI = Deutsch-Englisch-Schlerleistungen International

DIALANG = Beurteilungssystem fr Sprachlernende

e.V. = eingetragener Verein

FACETS = Multifacetten-Rasch-Modell

GDS = Groes Deutsches Sprachdiplom

GER = Gemeinsamer Europischer Referenzrahmen

ggf. = gegebenenfalls
GI = Goethe-Institut

GmbH = Gesellschaft mit beschrnkter Haftung

HV = Hrverstehen

i. d. R. = in der Regel

IELTS = International English Language Testing System

IRT = Item Response Theorie

Kap. = Kapitel

KDS = Kleines Deutsches Sprachdiplom

KLP = Lernlehrplan
KMK = Kultusministerkonferenz

KPG = Das griechische Staatszertifikat fr Sprachen

KTT = Klassische Testtheorie

L1 = Erstsprache

13 14
L2 = Zweit- bzw. Fremdsprache

lat. = lateinisch

LV = Leseverstehen

MA = Mndlicher Ausdruck

NRW = Nordrhein-Westfalen

s. = siehe

SA = Schriftlicher Ausdruck

SI = Schriftliche Interaktion
SP = Schriftliche Produktion

StADaF = Stndige Arbeitsgruppe Deutsch als Fremdsprache

TDN = TestDaF-Niveau

Telc = The European Language Certificates

TestDaF = Test Deutsch als Fremdsprache

TOEFL = Test of English as a Foreign Language

u.. = und hnliches

u.a. = unter anderem/und andere


vgl. = Vergleich

vs. = versus

z.B. = zum Beispiel

z.T. = zum Teil

15 16
Danksagung

Fr das Gelingen dieser Arbeit trug eine Vielzahl von Personen bei. Zunchst mchte ich
mich ganz herzlich bei Herrn Prof. Dr. Heringer bedanken, der sich durch sein Vertrauen
in mich bereit erklrte mein Doktorvater zu sein, obwohl er wusste, dass es mir zu dieser
Zeit unmglich war nach Deutschland zu ziehen. Das Flugzeug war fr mich das stndige
Fortbewegungsmittel, um mich zwischen Griechenland und Deutschland und zwischen
Beruf und Dissertation bewegen zu knnen.

Weiterhin mchte ich Frau Prof. Dr. Evelyn Frey danken, die sich einverstanden erklrte
die Zweitkorrektur dieser Arbeit zu bernehmen. Sie ermglichte mir im Februar 2008 im
Goethe-Institut in Mnchen meine Dissertationsthematik vorzustellen und mit den
Experten der Prfungsabteilung darber zu sprechen und zu diskutieren. Frau Freys
Initiative ehrte mich besonders und erwies sich fr mich als sehr fruchtbar.
Ein groer Dank gilt ebenso meiner lieben Freundin und Kollegin Frau Dr. Marieluise
Ernst-Vidalis, die mir in dieser Zeit immer mit Rat und Tat zur Seite stand, sich nie gegen
die endlosen fachlichen Diskussionen bis in die Nacht hinein beschwerte und zudem noch
fr mein leibliches und seelisches Wohl sorgte.

Ein immer offenes Ohr und viel Geduld und Verstndnis hatte auch Andreas Blow
whrend der endlosen Telefonate. Er erlebte zum einen meine Impulsivitt, was ihn oft
zum Schmunzeln brachte und zum anderen war er stets bemht mir auf jegliche meiner
Fragen Hilfestellungen und Antworten zu geben, indem er mir oft andere Perspektiven
aufzeigte.
Bedanken mchte ich mich ebenfalls bei meinem langjhrigen Freund Oliver, bei dem ich
in Augsburg whrend meiner Aufenthalte immer ein Zuhause haben konnte. Auch
meinem Freund Gnter sei gedankt, der in meinem Auftrag das Organisatorische und
Logistische dieser Dissertation bernahm.
Abschlieend mchte ich mich aus ganzem Herzen bei meiner Familie und all denjenigen
bedanken, die mir in dieser Zeit sehr viel Verstndnis entgegenbrachten, Geduld mit mir
hatten und mich entbehren mussten.

Und zu guter letzt danke ich meinem Krper, der in dieser Zeit mit wenig Schlaf,
berstunden, und unregelmigen Essenszeiten ausgekommen ist und nicht nach
Erholung bat - etwas, das ihm jetzt aber zu Recht zusteht.

Ioannina, Dezember 2008

17 18
Vorwort

Aus Grnden der sprachlichen Vereinfachung werde ich in dieser Arbeit Ausdrcke wie
standardisierte Prfungen und Test, Bewerter und Rater, Lerner und
Prfungsteilnehmer, um einige zu nennen, synonym verwenden. Die kursiven
Auszeichnungen verwende ich hauptschlich fr die Definition der Deskriptoren der
einzelnen Bewertungskriterien. Aus stilistischen Grnden benutze ich nur die generischen
Formen, z.B. beinhaltet der Begriff Lerner sowohl Lernerinnen als auch Lerner - die
Emanzipation der Frauen soll dabei nicht in Frage gestellt werden.

19 20
Die zentrale Thematik dieser Dissertation ist die schriftliche Lernerproduktion auf den
Niveaustufen B2 und C1 und die Validitt der hierzu angewandten Bewertungskriterien
1 Einleitung der jeweiligen Testanbieter. Die Idee, diese Thematik anzugehen, rhrt, wie bereits
angefhrt, aus meiner eigenen Praxis als Lehrerin, betrifft im Generellen aber auch die
Problematik, dass Lerner in Sprachprfungen nicht die Ergebnisse erzielen, die man
Meine Auseinandersetzung mit dem Thema der vorliegenden Dissertation
ihnen zugetraut oder zugesprochen htte. Dann stellt sich nmlich die Frage: Was kann
Bewertungskriterien schriftlicher Lernerproduktionen B2/C1 und ihre Validitt hatte
der Lerner wirklich? Im Extremfall mag es heien: 0 Punkte im schriftlichen Ausdruck.
bereits in meiner Praxis als DaF-Lehrerin begonnen. Hierbei kommt man in Kontakt mit
Aber: Wie kommen diese 0 Punkte zustande? Entspricht dies der tatschlichen Leistung
Sprachanfngern und hat dabei die Aufgabe die deutsche Sprache zu vermitteln. Mit
eines Prfungskandidaten oder Lerners?
einer Vielfalt von verschiedenen Methoden und Strategien wird im Unterricht der Versuch
unternommen, den Deutschlernern die von ihnen ausgewhlte Zielsprache so nah wie Was wird eigentlich getestet?
mglich zu bringen. Nach welchen Kriterien wurde bewertet?
Bezglich des erworbenen Sprachstandes durch den Unterricht muss zwischen einer Sind die Bewertungskriterien als valide anzusehen?
Bewertung innerhalb des Klassenzimmers und der im Rahmen standardisierter
Wie kommt es zu x Punkten?
Prfungen1 unterschieden werden. Im Klassenzimmer geht es dem Lehrer in erster Linie
darum, ein Feedback fr seinen geleisteten Unterricht zu erhalten, die entsprechenden Wie und von wem wurde die Lernerproduktion bewertet?
Fortschritte der Gruppe und einzelne Leistungen in Bezug dazu zu erkennen, damit er im
Welche anderen Faktoren knnten zustzlich zu diesem Resultat gefhrt haben?
Curriculum oder mit den von ihm gesetzten Lehrzielen fortfahren kann. Dies kann als
Normorientierung verstanden werden. In standardisierten Prfungen wird in der Regel Ist dieses das Abbild der tatschlichen Leistung eines Prfungskandidaten bzw.
ein Kriterium aufgestellt, das fr die Sprachzertifizierung erfllt sein muss in diesem Lerners?
Fall spricht man von Kriteriumsorientierung. Der Unterricht wird somit testorientiert.

In fast allen Lndern werden Sprachzertifizierungsprfungen indirekt von den In dieser Arbeit steht neben diesen Fragen die Problematik der Bewertung des
jeweiligen Bildungssystemen abverlangt. Man muss nachweisen, was man kann, denn schriftlichen Ausdrucks im Mittelpunkt, um wichtige Aussagen und mgliche
ohne Zertifizierung wird keinerlei Kompetenz zugesprochen. Anliegen und Ziel des Verbesserungsvorschlge in diesem Bereich zu machen. Die zurzeit in der Praxis
Lehrers ist in jedem Falle, dass seine Schler die ntigen Sprachkompetenzen erwerben. anwendbaren Bewertungskriterien fr den schriftlichen Ausdruck sollen auf das Ma ihrer
Mit der Existenz des Gemeinsamen Europischen Referenzrahmens fr Sprachen (GER) Validitt hin untersucht werden. Untersucht werden sollen die Bewertungsraster des
wird nunmehr ein Raster zur Verfgung gestellt, mithilfe dessen das Knnen der Lerner Goethe-Instituts und des TestDaF-Instituts. Bei den Schwellenniveaus B2 und C1, die von
auf eine von sechs Niveaustufen (A1-C2) zugeordnet werden soll. einer bestimmten Sprachkomplexitt charakterisiert werden, wie im Laufe dieser Arbeit
Auf den Schablonen der sechs Niveaustufen versuchen die verschiedenen Testanbieter zu sehen sein wird, kann die Subjektivitt menschlicher Rater durch die Definition der
ihre Sprachzertifizierungsprfungen aufzubauen, um die entsprechende Kompetenz zu Bewertungskriterien zunehmend an Freiraum gewinnen. Um dem entgegenzuwirken,
zertifizieren. Das Goethe-Institut deklariert im Sinne des GER neue Prfungen, die mssen die Bewertungsraster, die aus unterschiedlich festgesetzten Kriterien bestehen,
bestimmten Niveau-Stufen zugewiesen werden. Dazu gehren die in dieser Arbeit so engmaschig wie mglich definiert und entwickelt sein. Ziel dieser Arbeit ist es, die
behandelten neuen Zertifikate des Goethe-Instituts B2 und C1, die zum ersten Mal potentiellen Schwachstellen der verschiedenen Bewertungskriterien aufzudecken. Des
weltweit im Herbst 2007 zur Anwendung kamen. Da es sich um neu erstellte Prfungen Weiteren sollen daraus Verbesserungsvorschlge gemacht werden. Die Mglichkeit
handelt, war zu Beginn dieser Dissertation der Zugang relativ schwierig, denn selbst das anderer Perspektiven oder auch anderer Anstze soll diese Arbeit abrunden. Dies
Goethe-Institut befand sich noch in der Testentwicklung und Testerprobung. So wurden geschieht unter der Annahme, dass hchstmgliche Validitt erst dann erreicht werden
die Konturen dieser neuen Zertifikate erst im Laufe der Zeit deutlich. kann, wenn sich die Bewertung der schriftlichen Sprachkompetenz, unabhngig von
externen Faktoren, als stabil und objektiv erweist.
Weiterhin wird die Prfung des TestDaF-Instituts zum Gegenstand dieser Arbeit, da
anhand einer einzigen Prfung verschiedene Niveauzuweisungen erfolgen knnen, die
schlielich fr die Hochschultauglichkeit eines nicht-muttersprachlichen potentiellen
Bewerbers im sprachlichen Bereich fr eine deutsche Universitt oder Hochschule
entscheidend sind.

1
In dieser Arbeit liegt das Hauptaugenmerk auf den kriteriumsorientierten Prfungen der Testanbieter Goethe-Institut und
TestDaF-Institut.

21 22
der Sprachprfungsplanung bezglich des Prfungsinhalts und der Beurteilungskriterien,
die eher die positiven Facetten einer Lernersprache als die Defizite beleuchten sollen
2 Referenzrahmen und Testanbieter (GER 2001:18). Als umfassend sieht sich der GER, weil er den Versuch unternimmt, ein
groes Spektrum der Sprachkompetenzen und deren Verwendungen so detailliert wie
mglich zu definieren. Transparenz versucht der GER insofern zu sichern, indem
Dieses Kapitel wird den theoretischen Hintergrund fr die vorliegende Arbeit bereit smtliche Definitionen wie auch andere Informationen fr jedermann klar formuliert sein
stellen und sich mit sprachpolitischen Fragen und testtheoretischen Standardisierungen sollen und so als normative, gemeinsame Bezugsgre dienen knnen (Perlmann-Balme
verschiedener Institutionen befassen. Als erstes wird der Europische Rat und der daraus 2006:5-13). Kohrent ist der Referenzrahmen erst dann, wenn seine Beschreibungen
resultierende Gemeinsame Europische Referenzrahmen fr Sprachen (GER) vorgestellt, und Ausfhrungen frei von inneren Widersprchen sind (GER 2001:19). Die
welcher das europische Referenzniveau fr Sprachkenntnisse und Sprachstandstests Kombination dieser drei Merkmale impliziert kein einziges oder einheitliches System,
darstellt. Auf dessen Basis sind die hier aufgestellten Normen und Rahmenbedingungen folglich gehrt die Definition und die Eingrenzung individueller Ziele und Methoden nicht
das Instrument der in diesem Kapitel prsentierten Testanbieter, um durch zu den Aufgabenbereichen des GER. Dieser Referenzrahmen kann als deskriptiver Ansatz
Qualittsmanagement standardisierte Tests hinsichtlich internationaler Ansprche zu betrachtet werden, der lediglich das zur Verfgung stellt, was bentigt wird, um sich ber
erstellen und schlielich Sprachkenntnisse unter Zuhilfenahme und Reflexion bestimmter gesetzte Ziele, Inhalte und die erforderlichen Methoden und hinsichtlich ihrer
Bewertungskriterien zu zertifizieren. Realisierung Gedanken zu machen (Glaboniat/Mller 2006: 15-21). Die definierten Ziele
Im weiteren Verlauf werde ich mich mit der American Psychological Association reichen dabei in der Bandbreite von einzelnen sprachlichen Teilkompetenzen bis hin zur
befassen, die sich seit mehreren Jahrzehnten mit dem Teilbereich der kompletten Sprachbeherrschung.6
Teststandardisierung auseinandersetzt. Die Standards der APA werden ebenso als
Bezugssystem bei der kritischen Betrachtung der Bewertungskriterien schriftlicher
Textproduktionen fungieren. Darauf folgend wird die sich seit Anfang der 90er Jahre 2.1.1 Die Kompetenzbeschreibungen im Gemeinsamen Europischen
etablierende Vereinigung von Sprachprfungsanbietern innerhalb Europas, die so
Referenzrahmen
genannte ALTE vorgestellt, die unter anderem die Homogenitt und Vergleichbarkeit der
Sprachtests ihrer Mitglieder anhand definierter Standards erreichen will. Der GER beschreibt anhand von sechs definierten Niveaustufen (A1-C2) fremdsprachliche
Kompetenzen und Fertigkeiten, deren Erwerb den FS-Lerner im Sinne eines
Abgerundet wird dieses Kapitel mit den Testanbietern Goethe-Institut e.V. und TestDaF-
handlungsorientierten Ansatzes (GER 2001:21) als soziale Person handlungsfhig machen
Institut, deren Bewertungskriterien schriftlicher Lernerproduktionen fr die
sollen. Dabei ist das Definieren gemeinsamer Referenzniveaus der Sprachkompetenz aus
Referenzniveaus B2/C1 im Rahmen dieser Arbeit untersucht, dokumentiert und ggf.
verschiedenen Grnden ntzlich. Einerseits knnten anhand der Erwartungen der
Kritisiert wurden.
einzelnen Niveaus Lernziele konkretisiert werden. Andererseits knnte der Vergleich
zwischen verschiedenen Systemen oder auch Lernzielen durch gemeinsame
Sprachkompetenzbeschreibungen erleichtert werden (GER 2001:28).
2.1 Der Europarat und der Gemeinsame Europische Im Mittelpunkt stehen verschiedene Arten von Kompetenzen, die einen Lerner
Referenzrahmen befhigen sollen, kommunikativ aktiv zu sein. Dieser Tatsache Rechnung tragend
bentigt ein Lerner fr gewisse Kontexte und die Umstnde oftmals lediglich
Seit seiner Grndung definierte der Europische Rat zur Frderung von Sprachen eine
Teilkompetenzen. Aus diesem Grund zeigt sich in der Taxonomie der Kompetenzen im
neue Dimension beim Lehren und Lernen von Sprachen. Der von ihm herausgegebene
GER eine Aufgliederung.7 Die Aktivierung der verschiedenen Ausprgungen von
Gemeinsame Europische Referenzrahmen fr Sprachen: Lernen, lehren und beurteilen
(GER)2 wurde 2001 als Grundsatzdokument des Europarats 3 auch in deutscher Sprache Sprachkompetenz, die rezeptiv, produktiv, interaktionistisch oder sprachmittelnd
vonstatten gehen kann, erfolgt mithilfe allgemeiner Kompetenzen, kommunikativer
verffentlicht4. Die Ziele hierbei sind facettenreich. Unter anderem versteht sich der GER
Kompetenzen und verschiedenen Strategien (GER 2001:21ff.). Folgende Tabelle soll die
als richtungweisend, umfassend, kohrent und transparent (GER 2001: 19) 5 und als
bentigten Elemente und Komponenten zur Sprachverwendung im Sinne eines
Basis fr die Entwicklung von Lehrplnen, Unterrichtsplanungen und Materialerstellungen
(GER 2001: 14), zugleich als Bezugssystem fr Lehrer, Lerner, Curriculumentwickler, handlungsorientierten Ansatzes verdeutlichen:
Bildungstrger und Testentwickler. Im Kontext dieser Arbeit dient der GER dem Zweck

2 Deutsche bersetzung der endgltigen englischen Fassung des Common European Framework of Reference, Straburg:
Europarat, 2000 (bersetzung von Prof. Jrgen Quetz, Frankfurt, Umsetzung der Eurodidaktik des Gemeinsamen Europischen
Referenzrahmens) gfl-journal, No. 3/2002
3 Der Europarat ist auch nicht zu verwechseln mit dem Europischen Rat und dem Rat der Europischen Union (Ministerrat),
Quelle: www.wikipedia.de
4 http://www.goethe.de/z/50/commoneoro/
5 Die Literaturangabe fr die deutsche Fassung Europarat-Rat fr kulturelle Zusammenarbeit: Gemeinsamer europischer
6 http://www.goethe.de/z/commeuro/i1.htm
Referenzrahmen fr Sprachen: lernen, lehren, beurteilen, Straburg, Langenscheidt 2001 wird im Flietext mit GER
ausgezeichnet werden 7 http://www.goethe.de/z/commeuro/i1.htm

23 24
Faktoren schlielich gerechtfertigt sind. Dies betrifft auch die Definition der
Bewertungskriterien hinsichtlich der als erforderlich definierten Kompetenzen.
Allgemeine Kommunikative Kommunikative Lebensbereiche Kommunikative Man kann sich das vom GER definierte Modell als ein funktionales Koordinatensystem
Kompetenzen Sprach- Sprachaktivitten / Domne Aufgaben, vorstellen, in dem die verschiedenen Kompetenzen und Strategien aus obiger Tabelle die
kompetenzen Strategien, x-Achse und die im Folgenden skizzierten Niveaus A1-C2 die y-Achse darstellen. Je nach
Texte Ausprgung werden verschiedene Werte in dieses System eingetragen, Werte der
Sprachbeherrschung, die sich funktional ab dem Wert Null aufwrts bewegen knnen.
Man kann der angefhrten Tabelle des Weiteren die Kongruenz der einzelnen
deklaratives Linguistische Rezeption, Produktion, ffentlicher z.B. Komponenten entnehmen. Kompetenzen treten mittels kommunikativer
Wissen, Kompetenz, Interaktion, Bereich, Kommunikations- Sprachaktivitten hervor. Die primren Prozesse Rezeption und Produktion, die
prozedurales soziolinguistische Sprachmittlung privater und Lernstrategien Interaktion und die Sprachmittlung finden in den vier vom GER skizzierten Domnen ihre
Wissen, Kompetenz, Bereich, Anwendung. Da gem des GER die entscheidenden Lebensbereiche eines Individuums
persnlichkeits- pragmatische beruflicher
abgedeckt sind, wird er in dieser Hinsicht seinem Anspruch, umfassend zu sein,
bezogene Kompetenz Bereich,
gerecht. Die erarbeiteten und angefhrten Kompetenzbeschreibungen sollen in diesem
Kompetenzen, Bildungswesen
Lernfhigkeit
Sinne kohrent und transparent (GER 2001:29) sein. Bedarfsanalysen und individuelle
Systeme sollen anhand der kalibrierten Kompetenzbeschreibungen des GER Lernziele,
Inhalte und Leistungsevaluation adquat und im jeweils definierten Rahmen
entsprechend formulieren. Lerner bentigen auerdem Strategien, um die Aktivierung
Tabelle1: Komponenten eines handlungsorientierten Ansatzes der angefhrten Kompetenzen erfolgreich zu bewltigen. Laut des GER werden
Strategien von Lernern insofern bentigt und eingesetzt, um die eigenen Ressourcen zu
mobilisieren und ausgewogen zu nutzen, Fertigkeiten und Prozesse zu aktivieren, um die
Diese im GER als horizontal definierte Dimension (GER 2001:25 ff.) gibt an, ber Anforderungen der Kommunikation in einem Kontext zu erfllen und die jeweilige
welche Kompetenzen Lerner verfgen mssen, um kommunikativ handlungsfhig zu sein. Aufgabe erfolgreich und mglichst konomisch der eigenen Absicht entsprechend zu
Die jeweiligen Stufen des GER werden aufsteigend spezieller und erfordern zunehmend erledigen (GER 2001:62). An anderer Stelle werde ich mich mit der Thematik der
automatisierte Sprachbenutzung. An dieser Stelle sei vermerkt, dass die allgemeinen kommunikativen Strategien und insbesondere der Vermeidungsstrategien auseinander
Kompetenzen und die Strategien keiner Stufe zuzurechnen sind, sondern fr alle setzen, obgleich der GER Kommunikations- und Kompensationsstrategien nicht im Sinne
beschriebenen Niveaustufen als vorausgesetzt gelten. Das meiste bentigte Wissen bzw. eines Defizitmodells betrachtet. Durch das Einsetzen von Strategien versuchen Lerner ihr
Weltwissen ist eine latente Voraussetzung. Zu hinterfragen hierbei ist, in welcher Weise sprachliches Potential so zu nutzen, dass sie der Arbeitsanforderung gerecht werden. Der
und in welchem Umfang dieses implizit vorausgesetzt wird, in dem Sinne, dass es bereits GER definiert Strategien als Gelenkstellen zwischen den Ressourcen bzw. der
aus der L1 resultiert. Das bedeutet, dass bei dem Erlernen einer neuen Sprache das Kompetenzen der Lerner und dem, wie sie kommunikativ damit umgehen (GER
meiste bentigte Wissen (z.B. bestimmte Themen) bereits aus der Muttersprache 2001:38). Dieses wird im Referenzrahmen als Produktionsstrategie definiert, welche das
hervorgehen kann. Laut GER verfgen Erwachsene ber ein ausdifferenziertes Modell, Mobilisieren von Ressourcen und das Ausbalancieren verschiedener Kompetenzen, d.h.
das mit dem Vokabular und der Grammatik der Muttersprache eng verbunden ist, das Ausnutzen der Strken und Herunterspielen der Schwchen, um das vorhandene
wobei diese eng aufeinander bezogen sind. Die Kommunikation eines Menschen wird im Potential im Sinne der jeweiligen Aufgabe einzusetzen, involviert (GER 2001:68).
Laufe der Entwicklung durch die bereinstimmung zwischen den von den Beteiligten
internalisierten Weltmodellen und der Sprache abhngig gemacht (GER 2001:103). Fr
das Erlernen einer Fremd- bzw. Zweitsprache geht man davon aus, dass Lerner ber ein
2.1.2 Die Niveaustufen des Gemeinsamen Europischen
hinreichendes Weltwissen verfgen. Dabei umfasst Weltwissen zum Beispiel Sachwissen
ber das Land der gesprochenen Sprache oder die Einteilung von Dingen in Klassen und Referenzrahmens
Funktionen. Im handlungsorientierten Ansatz des GER wird der Lerner als sozial Nach Krumm (2006) legen die Niveaustufenbeschreibungen des GER fest, was Lerner
Handelnder betrachtet, der als Teil der Gesellschaft kommunikative Aufgaben zu oder Prfungsteilnehmer auf bestimmten Stufen knnen sollen, sodass das Resultat einer
bewltigen hat, die jedoch nicht immer sprachlicher Natur sind (GER 2001:21). Der GER Prfung zum Beispiel nicht inhaltslos bleibt (vgl. Krumm 2006). Die Oberbegriffe werden
versucht diesbezglich aus methodischer Sicht zu beantworten, wann die zu prfende entsprechend Elementare Sprachverwendung fr Niveaubereich A, Selbstndige
Sprache ein Weltwissen involviert, das ber den Reifegrad der Lernenden hinausgeht Sprachverwendung fr Niveaubereich B und Kompetente Sprachverwendung fr
(GER 2001:145). Diesbezglich stellt sich die Frage, ob man berhaupt von einem Niveaubereich C benannt. Diese Niveaustufen knnen als Messeinheit der vertikalen
einheitlichen oder gemeinsamen Konzept ausgehen kann. Besonders wichtig ist diese Dimension (GER 2001:25ff.) unseres Koordinatensystems, der y-Achse also, verstanden
Frage fr den Bereich des schriftlichen Ausdrucks, wenn es darum geht, welche werden. Dennoch weist der GER darauf hin, dass Lernfortschritt nicht einfach das
Textsorten von Testanbietern erwartet werden und ob diese unter Bercksichtigung aller Vorankommen auf einer vertikalen Skala ist. Es gibt keinen zwingenden logischen Grund

25 26
dafr, dass Lernende smtliche niedrigeren Stufen einer Teilskala durchlaufen mssen Niveaus sind anhand von kalibrierten und empfohlenen, jedoch nicht verpflichtenden
(...) Man sollte sich schlielich davor hten, Niveaus und Sprachkompetenzskalen als Deskriptoren definiert, die mittels intuitiver, quantitativer und qualitativer (GER 2001:
eine lineare Messskala wie z.B. einen Zollstock zu interpretieren (GER 2001:15ff.). 33). Messmethoden teilweise empirisch skaliert und schlielich durch Lehrende validiert
worden sind (vgl. Schneider 2001). Fr die Formulierung von Deskriptoren wurden im
Die schon 1975 definierte Stufe Threshold (B1) von J. A. van Ek (vgl. van Ek 1976)
GER die Erfahrungen und die Datenbanken vieler verschiedener Institutionen
war die erste konsequente Durchfhrung eines lernerzentrierten, funktionalen und
herangezogen (GER 2001:217ff.). Dazu zhlt auch die Zusammenarbeit mit der
nationalen Ansatzes zur Lehrzielbestimmung fr den Fremdspracherwerb
Organisation von Sprachprfungsanbietern in Europa (ALTE), die im Weiteren vorgestellt
(Baldegger/Mller/Schneider 1981:5) und wird nun durch weitere darunter und darber
wird.
liegenden Stufen vervollstndigt, wobei die Abstnde zwischen ihnen variieren und die
Niveaustufenskala eher im Eisttenformat darzustellen wre, da sprachliche Aktivitten, Im so genannten Can-Do-Projekt der ALTE entwickelte und validierte man eine groe
Fertigkeiten und sprachliche Mittel aufsteigend komplexer werden (GER 2001:29): Bandbreite an Deskriptoren fr die Domnen von Erwachsenen, die die des GER ergnzen
(GER 2001:33). Die Tatsache, dass smtliche Projekte ihre Deskriptorendatenbanken
hinsichtlich des Lebens von Erwachsenen erstellen, mag fr diese Arbeit ein Indiz dafr
A1 A2 B1 B2 C1 C2 sein, dass das Alter und die Reife potentieller Prflinge fr Sprachprfungen
Breakthrough Waystage Threshold Vantage Effective Mastery verschiedener Testanbieter keine Bercksichtigung zu finden scheint.11 Wichtig hierbei ist
Operational die Frage, wie der GER zunchst den Begriff Domne definiert. Domnen werden hier
Proficiency sehr abstrakt kategorisiert und auf die wesentlichsten Kategorien beschrnkt, in denen
ein Lerner sozial agieren soll (GER 2001:22). Da sich die Domnen auf der x-Achse des
Koordinatensystems befinden, muss die Frage beantwortet werden, worauf der
thematische Input bei Sprachtests beruht. In den Komponenten der Sprachverwendung
Tabelle 2: Niveaustufenbeschreibung scheint das Alter nur indirekt innerhalb der Domnen, die Bereiche des
Erwachsenenlebens definieren, begrndet zu sein.

Deskriptoren sollten klar, transparent, kriteriumsbezogen und autonom sein. Da sich


Fr die vorliegende Arbeit sind die Stufen B2 und C1 von Interesse. Fr diese auf einer
der Referenzrahmen als umfassend und transparent definiert, knnen gleiche
vertikalen Dimension des GER angesiedelten Niveaustufen (GER 2001:27) sind so
Deskriptoren auch in anderen Systemen eingebettet werden, um diese dann auf die
genannte Kann-Beschreibungen oder auch Can-Do-statements8 entwickelt worden, die
Aspekte kommunikative Aktivitt, Strategie und kommunikative Sprachkompetenz zu
einen positiven und handlungsorientierten Charakter aufweisen. Sie stellen nicht die
beziehen (GER 2001:38ff.). In Globalskalen oder in nach Domnen kategorisierten
Sprachdefizite, sondern das fremdsprachliche Knnen auf entsprechender Lernerstufe
Skalen fr die einzelnen Niveaus werden Vorschlge gemacht, wie Beschreibungen
zunchst fr alle Sprachen in den Mittelpunkt (vgl. Glaboniat/Mller 2006). Dadurch soll
aussehen knnten und welchem Zweck sie jeweils dienen sollten. Das als einheitlich
konkretisiert werden, welche Anforderungen jedes Niveau fr sich hat.9 Dennoch verweist
verstandene System soll den Vergleich von Lernzielen, Niveaustufen, Materialien, Tests
der GER darauf, dass es bis zu einem bestimmten Grad willkrlich ist, die Niveaustufen
und Lernerfolgen in verschiedenen Systemen, Kontexten und Situationen erleichtern. Das
an Sprachkompetenz festzumachen und zu definieren (GER 2001: 28). In diesem
Beschreibungssystem und die Referenzniveaus des GER basieren darauf, dass jeder
Zusammenhang erweist sich der Aufsatz von Frey (2004) Die Kompetenzbeschreibungen
Benutzer dadurch sein eigenes System formuliert. Aus diesem Grund sollte eine Skala
des Europischen Referenzrahmens: Beobachtungen zur Trennschrfeproblematik10 als
von Referenzniveaus im Idealfall sowohl Kriterien, die ihre Beschreibung einschliet, als
eine sehr hilfreiche Quelle. Durch die Ergebnisse eines Workshops hinsichtlich der
auch Fragen bezglich der Messverfahren bercksichtigen (GER 2001:32ff.). Eine
Niveaubeschreibungen des GER und deren Training kommt die Autorin zum Resultat,
gemeinsame Referenzskala muss im Sinne des GER kontextfrei sein. Dies bedeutet, dass
dass die Zuordnung von Kompetenzen zu bestimmten Niveaustufen nicht eindeutig ist.
verschiedene kontextuelle Gegebenheiten darin Platz finden, so dass man zu einer
Daher sei es wichtig, die Exaktheit in der Beschreibung der Kompetenzniveaus zu
Generalisierung kommt. Trotz dieses Umstandes mssen die Deskriptoren dennoch
fordern, indem man zum einen mehr Konsistenz in der begrifflichen Anwendung der
kontextrelevant sein, sie mssen funktional alle mglichen und potentiellen Kontexte
Niveaus und zum anderen mehr Konsistenz bei der Auswahl der Signalebenen
abdecken knnen. Der GER stellt weiterhin den Anspruch, dass die Beschreibung einer
voraussetzt.
Referenzskala auf Sprachkompetenztheorien basieren sollte. Die verschiedenen Theorien
Wie Skalen mit ihren Deskriptoren aufgestellt werden steht letztlich immer mit der hinsichtlich der Sprachkompetenz, die letztlich aus Anstzen des Zweitspracherwerbs
jeweiligen Zweckerfllung in Verbindung. Fr die Beschreibung der Kompetenzniveaus ist hervorgehen, mssten meines Erachtens aber hinreichend selektiert werden, um eine
es wichtig zu definieren, wie Kompetenz im jeweiligen Kontext zu verstehen ist. Die Basis zu schaffen, auf der die gemeinsamen Referenzniveaus beschrieben werden
knnen. Inwieweit dies realisiert werden kann, stelle ich insofern in Frage, weil innerhalb
8 Die Begriffe Kann-Beschreibungen und Can-Dos/Can-Do-statements werden in dieser Arbeit abwechselnd synonym verwendet der Zweitspracherwerbsforschung keine universelle Positionierung feststellbar ist.
werden
9 Die definierten Can-Dos haben konkreten Inhalt. Es stellt sich aber die Frage, ob dieser Inhalt die Anforderungen der Niveaus
akkurat wiedergibt
10 www.hueber.de/sixcms/media.php/36/referenzrahm-frey.pdf ., Zugriff am 20.08.2008 11 Aus analytischer Sicht ist dies insofern bemerkenswert, da das Alter das zweidimensionale Koordinatensystem sprengt

27 28
Betrachtet man nun die Referenzniveaus aus der Perspektive des Threshold Levels Kompetente Sprachverwendung
(B1), so wird ersichtlich, dass sich die Grenze nicht zwischen der selbstndigen und der C2 Kann praktisch alles, was er/sie liest oder hrt, mhelos verstehen. Kann
kompetenten Sprachverwendung befindet (Niveau B und C), denn das Niveau B2 weicht Informationen aus verschiedenen schriftlichen und mndlichen Quellen
ganz erheblich von den bisherigen Inhalten ab und ist als eine neue Schwelle zu zusammenfassen und dabei Begrndungen und Erklrungen in einer
betrachten (GER 2001:44). Das Vantage Level B2 definiert den Lerner, der langsam zusammenhngenden Darstellung wiedergeben. Kann sich spontan, sehr flssig und
aber sicher das mittlere Lernplateau durchschritten hat und merkt, dass er jetzt an einen genau ausdrcken und auch bei komplexeren Sachverhalten feinere
Punkt angekommen ist, von dem aus die Dinge in einem anderen Licht erscheinen und Bedeutungsnuancen deutlich machen.
sich neue Perspektiven erffnen (GER 2001:44). Gerade in seiner starken Form grenzt C1 Kann ein breites Spektrum anspruchsvoller, lngerer Texte verstehen und auch
sich das Niveau B2 vom Threshold Level (B1) ab, denn hier werden nunmehr implizite Bedeutungen erfassen. Kann sich spontan und flieend ausdrcken, ohne fter
grundlegende Aspekte bereit gestellt, wie zum Beispiel Argumentationsfhigkeit und deutlich erkennbar nach Worten suchen zu mssen. Kann die Sprache im
strkeres Sprachbewusstsein. Das Niveau C1 kennzeichnet schlielich die Intensivierung gesellschaftlichen und beruflichen Leben oder in Ausbildung und Studium wirksam und
und Festigung der Diskursfertigkeiten und der sprachlichen Mittel des vorangegangenen flexibel gebrauchen. Kann sich klar, strukturiert und ausfhrlich zu komplexen
Sachverhalten uern und dabei verschiedene Mittel zur Textverknpfung angemessen
Niveaus, wobei das Gewicht aber insgesamt auf den Aspekt der Flssigkeit gelegt wird.
verwenden.
Es wird ersichtlich, dass die Abstnde zwischen den Niveaus nicht identisch sind. Eine
Diskrepanz zwischen B2 und C1 ist geringer als die zwischen B1 und B2, obwohl B2 den Selbstndige Sprachverwendung
erforderlichen Standard von C1 noch nicht erreicht. B2 Kann die Hauptinhalte komplexer Texte zu konkreten und abstrakten Themen
Zur Formulierung einheitlicher Referenzskalen mssen Aspekte von Messverfahren verstehen; versteht im eigenen Spezialgebiet auch Fachdiskussionen. Kann sich so
spontan und flieend verstndigen, dass ein normales Gesprch mit Muttersprachlern
bercksichtigt werden. Der GER stellt den Anspruch objektiver Skalen, um subjektiven
ohne grere Anstrengung auf beiden Seiten gut mglich ist. Kann sich zu einem
Konventionen, so weit es geht, Stand halten zu knnen. Ich werde diesen Umstand im
breiten Themenspektrum klar und detailliert ausdrcken, einen Standpunkt zu einer
Verlauf der Arbeit immer wieder aufgreifen. Die jeweils definierten Kompetenzskalen aktuellen Frage erlutern und die Vor- und Nachteile verschiedener Mglichkeiten
sollen schlielich objektive Aussagen bezglich der Leistungen geben knnen und dabei angeben
so konzipiert sein, dass durch ihr Ausma menschliche Rater oder Korrektoren
B1 Kann die Hauptpunkte verstehen, wenn klare Standardsprache verwendet wird und
konsistente Unterscheidungen treffen knnen. Die Forderung nach der Entwicklung
wenn es um vertraute Dinge aus Arbeit, Schule, Freizeit usw. geht. Kann die meisten
einer gemeinsamen Referenzskala scheint berechtigt, obwohl dieser Idealzustand
Situationen bewltigen, denen man auf Reisen im Sprachgebiet begegnet. Kann sich
natrlich schwer zu erzielen ist. Anders ausgedrckt muss der Frage nachgegangen einfach und zusammenhngend ber vertraute Themen und persnliche
werden, ob diese bezglich des gegebenen und definierten Kontextes das Kriterium der Interessengebiete uern. Kann ber Erfahrungen und Ereignisse berichten, Trume,
Validitt erfllen. Der GER hat diesen Validierungsprozess fr die Entwicklung von Hoffnungen und Ziele beschreiben und zu Plnen und Ansichten kurze Begrndungen
Skalen, die aus Deskriptoren bestehen, mithilfe einer Kombination verschiedener oder Erklrungen geben.
Forschungsmethoden durchlaufen (GER 2001:33). Ziel der Validierung, die als ein Elementare Sprachverwendung
permanenter und theoretisch unendlicher Prozess anzusehen ist, soll vor allem die
A2 Kann Stze und hufig gebrauchte Ausdrcke verstehen, die mit Bereichen von ganz
explizite Beschreibung von Kompetenzen durch die Deskriptoren sein.
unmittelbarer Bedeutung zusammenhngen (z. B. Informationen zur Person und zur
Die sechs aufgestellten Niveaus des GER, die sich auerdem durch subjektive Familie, Einkaufen, Arbeit, nhere Umgebung). Kann sich in einfachen, routinemigen
Kategorisierungen aufspalten lassen knnen, definieren in Form einer Globalskala Situationen verstndigen, in denen es um einen einfachen und direkten Austausch von
zunchst die grundlegenden Erfordernisse der Can-Dos.12 Diese globale Auflistung von Informationen ber vertraute und gelufige Dinge geht. Kann mit einfachen Mitteln die
Kompetenzen soll im Sinne des GER definieren, wie gut jemand in einer Fremdsprache eigene Herkunft und Ausbildung, die direkte Umgebung und Dinge im Zusammenhang
mit unmittelbaren Bedrfnissen beschreiben.
sprachliche Handlungen ausfhren bzw. bewltigen kann. Es werden demnach Aussagen
ber die qualitativen Aspekte der Sprachkompetenz gemacht (GER 2001:35): A1 Kann vertraute, alltgliche Ausdrcke und ganz einfache Stze verstehen und
verwenden, die auf die Befriedigung konkreter Bedrfnisse zielen. Kann sich und
andere vorstellen und anderen Leuten Fragen zu ihrer Person stellen z. B. wo sie
wohnen, was fr Leute sie kennen oder was fr Dinge sie haben und kann auf Fragen
dieser Art Antwort geben. Kann sich auf einfache Art verstndigen, wenn die
Gesprchspartnerinnen oder Gesprchspartner langsam und deutlich sprechen und
bereit sind zu helfen.

Tabelle 3: Globale Kann-Beschreibung

12 Skalen bersetzt von Prof. Gnther Schneider (Universitt Fribourg, Vertreter der Schweizerischen Konferenz der kantonalen
Erziehungsdirektion/EDK). Ausfhrlichere Informationen enthlt man unter www.goethe.de/referenzrahmen

29 30
Die globale Fragestellung, wie gut man etwas in der Fremdsprache beherrscht, ist in Test seine Berechtigung hinsichtlich der Testgtekriterien findet. Es geht also in erster
der hier im Mittelpunkt stehenden Bewertung schriftlicher Lernerproduktionen auf den Linie darum, dass Sprachkompetenz im Sinne Bachmans/Palmers (1996) durch
Niveaus B2 und C1 problematisch. Im Folgenden soll die Globalskala dieser beiden Interaktivitt gekennzeichnet wird. Die verschiedenen Ebenen, auf denen Lerner
Niveauabstufungen betrachtet und Stellung bezglich der globalen Deskriptorendefinition interagieren sind sprachlich, strategisch, affektiv und auf Weltwissen bezogen. Innerhalb
genommen werden. Ich werde im Verlauf dieser Arbeit die so genannten Stolpersteine der Testsituation sollte aber darauf geachtet werden, die sprachliche Ebene hingegen der
anhand der konkreten Bewertungskriterien des Goethe-Instituts und des TestDaF- anderen drei Ebenen soweit zu maximieren, um dem was gemessen wird bzw. der
Instituts errtern und des Weiteren versuchen, alternative Vorschlge zu machen, wie Validitt gerecht zu werden.
diese zu umgehen wren. Diese holistische Aufbereitung der erwarteten Kompetenzen im
Das eigene Spezialgebiet ist eine kontroverse Definition. Whrend ein Spezialgebiet als
Fremdsprachenbereich kann als Orientierungshilfe betrachtet werden. Insgesamt schliet
ein Fachgebiet betrachtet werden kann, kann das eigene Spezialgebiet aber nicht
der GER nicht aus, dass die Formulierungen der existierenden Skalen
erfassbar sein. Krekeler (2005) beschftigt sich mit der Thematik des Fachbezugs in
verfeinerungswrdig sind (GER 2001:34). Zu dem Oberbegriff selbstndige
Sprachtests fr den Hochschulzugang, allerdings konzentriert er sich auf das
Sprachverwendung zhlt das Referenzniveau B2, welches global folgendermaen definiert
Leseverstehen.15 Sprachtests ohne Fachbezug prfen lediglich das Kriterium der
wird und Aufschluss ber die Sprachkompetenz geben soll:
Sprachkompetenz und werden im Sinne der Testtheorie der Testkonomie und der
Kann die Hauptinhalte komplexer Texte zu konkreten und abstrakten Themen Testfairness gerecht (vgl. Kapitel 4.3.2). Bei Sprachtests mit Fachbezug werden
verstehen; versteht im eigenen Spezialgebiet auch Fachdiskussionen. Kann sich so Fachkenntnisse als Teil des Testkonstrukt angesehen bzw. als Kompetenz vorausgesetzt.
spontan und flieend verstndigen, dass ein normales Gesprch mit Muttersprachlern Krekeler stellt verschiedene Positionen gegenber. Whrend einerseits die Meinung
ohne grere Anstrengung auf beiden Seiten gut mglich ist. Kann sich zu einem breiten vorherrscht, dass sprachliche Leistungen je nach Kontext und Aufgabentypus variieren
Themenspektrum klar und detailliert ausdrcken, einen Standpunkt zu einer aktuellen knnen (vgl. Douglas 2000), existiert andererseits die Position, dass man
Frage erlutern und die Vor- und Nachteile verschiedener Mglichkeiten angeben. Studienbewerber nicht mit Kommunikationssituationen aus dem Hochschulalltag
konfrontieren sollte. Whrend Krekeler die Auswirkungen auf die Testvorbereitung und
Im Folgenden werde ich erlutern, wieso meines Erachtens mittels dieser holistisch
die Authentizitt fr die wichtigsten Vorteile von Sprachtests mit Fachbezug hlt, stellt er
geprgten Definition der Niveaustufe B2 keine allgemeingltige Aussage bezglich der
kontrastiv dazu die Frage auf, ob sich Hochschulsprache durch Sprachtests mit
Sprachkompetenz gemacht werden kann. Nach meiner Auffassung bedrfte bereits der
Fachbezug berhaupt ausreichend differenzieren lassen kann. Diesbezglich ist auch der
erste Deskriptor auf dieser Niveaustufenbeschreibung einer engeren Begriffsbestimmung.
Einfluss der Vorkenntnisse eines Prfungskandidaten von Bedeutung und inwieweit sich
Dass gerade in einer standardisierten Prfungssituation13, die in der vorliegenden Arbeit
daraus sprachliche Niveaus bzw. Schwellen ableiten lassen knnen. In diesem Sinne ist
den Mittelpunkt ausmacht, konkrete bzw. abstrakte Themen vorgegeben werden knnen,
die zu messende sprachliche Kompetenz meines Erachtens als eine Kann-Beschreibung
ist zwar eine Tatsache, klrt aber meines Erachtens in dieser holistischen Beschreibung
des Spracheinsatzes zu betrachten. Ob dieser Spracheinsatz ein gemeinsames bzw.
nicht den Umstand, um welche Themengebiete es sich handeln kann. Ich habe bereits
universelles Hintergrundwissen voraussetzt, bleibt zu klren. Die Definition des B2-
angefhrt, dass die Klassifizierung von Dingen, d.h. konkrete oder abstrakte Themen,
Niveaus auf dieser Skala kann Benutzer des GER dazu verleiten, dass sie unter der
Teil des Weltwissens sind. Zunchst bilden diese Themen die Oberflche. Es stellt sich in
Bercksichtigung, welche Kompetenzen als vorausgesetzt gelten, Sprachtests mit
diesem Zusammenhang aber die Frage, wie definierte Themengebiete bearbeiten
Fachbezug erstellen (kann an Fachdiskussionen teilnehmen) knnten. Ziel hierbei wre
werden, wenn sie nicht einmal das Weltwissen der L1 ausmachen. Neben dem kulturellen
die Kompetenz der Sprachverwendung in bestimmten Kontexten zu eruieren. In diesem
Umfeld sind aber ebenso das Alter und der persnliche Hintergrund hinsichtlich der
Sinne kann die Leistung in Abhngigkeit des Ausmaes dieser erforderten Kompetenz
Domnen insgesamt wichtig und zu bercksichtigen. Ich bin davon berzeugt, dass das
variieren. Dass man auf diesem Niveau die Kompetenz einrumt, Argumentationen zu
eigene Spezialgebiet eines 16jhrigen mit dem eines 30jhrigen nicht vergleichbar
fhren, ist meines Erachtens eine vom breiten Themenspektrum unabhngige
gemacht werden kann. Dabei spielen unter anderem die verschiedenen Wissensbestnde
Komponente. Dennoch bleibt der klare und detaillierte Ausdruck eine unzureichend
einer Person eine Rolle.14 Zentral ist demnach, was ein Test zu messen vermag. Wenn es
definierte Kompetenz. Worauf bezieht sich der klare und detaillierte Ausdruck?
sich lediglich um die Erhebung von Sprachkenntnissen handelt, dann findet das Kriterium
der Fairness seine Berechtigung insofern, dass der Faktor Alter beispielsweise eine Sprache verwendet man auf der ersten Stufe des C-Niveaus kompetent, wenn gem
untergeordnete Rolle spielen wrde. Der GER definiert in seinem handlungsorientierten des GER folgendes globale Definitionskonstrukt erfllt ist:
Ansatz spezifische Umgebungen und Handlungsfelder, in denen man die Vielzahl von
Kann ein breites Spektrum anspruchsvoller, lngerer Texte verstehen und auch
Kompetenzen (vgl. oben) strategisch und planvoll einsetzt (GER 2001:21). Demnach ist
implizite Bedeutungen erfassen. Kann sich spontan und flieend ausdrcken, ohne fter
die Handlungsfhigkeit in einem bestimmten Kontext bzw. Domne als eine
deutlich erkennbar nach Worten suchen zu mssen. Kann die Sprache im
vorausgesetzte Kompetenz zu betrachten. Insofern wre nachzuweisen, ob derartige
gesellschaftlichen und beruflichen Leben oder in Ausbildung und Studium wirksam und
Kompetenzen, die weit ber die sprachliche Kompetenz hinaus gehen, bei allen
flexibel gebrauchen. Kann sich klar, strukturiert und ausfhrlich zu komplexen
Prfungsteilnehmern als vorausgesetzt betrachtet werden knnen, so dass der erstellte

13 High-stakes (empirische Kalibrierung) vs. low-stakes Tests 15 Krekeler, C. (2005): Grammatik und Fachbezug in Sprachtests fr den Hochschulzugang. Dissertationsschrift. Universitt
Duisburg Essen http://dueplico.uni-duisburg-essen.de/servlets/DocumentServlet?id_12458

31 32
Sachverhalten uern und dabei verschiedene Mittel zur Textverknpfung angemessen 2006:16f.)). Der GER weist darauf hin, dass man bei den verschiedenen Skalen jedoch
verwenden. einen Unterschied zwischen den Sprachkompetenzniveaus und der Bewertung der
erzielten Leistung immer hinsichtlich des gesetzten Ziels machen muss. Gemeinsam ist
Zunchst gilt es innerhalb dieser globalen Kann-Beschreibung zu klren, welchen
allen Projekten jedenfalls, dass die Standards und die Relation zwischen Punktwerten und
Anspruch man an den Lerner hat, wenn von anspruchsvollen, lngeren Texten die Rede
zugewiesener Kompetenzstufe sich so weit annhern, dass sie vergleichbar gemacht
ist. Texte bzw. Textsorten knnen als mehr oder weniger anspruchsvoll empfunden
werden knnen (GER 2001:49).
werden. Dabei spielen unter anderem die verschiedenen Wissensbestnde einer Person
eine Rolle. Weiterhin besagt die spontane und flssige Sprachbeherrschung lngst nichts Der GER bietet Skalen an, die jede Facette des kommunikativen Handelns
darber, ob der Anspruch diesem Niveau, d. h. Sprache kompetent zu verwenden, bercksichtigen sollen. Bachman (1990:325f.) definiert in diesem Zusammenhang die
gerecht wird. Ebenso bezieht sich der Sprachgebrauch dieser Niveaubeschreibung auf das real-life-Skala, wonach das abgebildet wird, was ein Lerner auf einer bestimmten
gesellschaftliche und berufliche Leben. Auch hier kann man den Einwand erheben, dass Niveaustufe im realen Leben kommunikativ tun kann. Dabei beinhaltet die Bewltigung
Themeninhalte bezglich des Studierens beispielsweise nicht unbedingt die Interessen einer kommunikativen Aufgabe die strategische Aktivierung spezieller Kompetenzen, um
eines 16jhrigen definieren. Abschlieend bezieht sich dieser holistische Deskriptor auf innerhalb eines bestimmten Lebensbereichs (...) zielgerichtet Handlungen mit einem klar
die Kompetenz, verschiedene sprachliche Mittel hinsichtlich der uerungsabsicht definierten Ziel (...)auszufhren (GER 2001:153). Im Vorfeld sind aber in dieser Hinsicht
komplexer Sachverhalte angemessen zu verwenden. Man geht bei diesem globalen Fragen zu beantworten, die sich damit befassen, was ein Lerner erwerben muss, das
Deskriptor demnach der Frage nach, wie gut man sich zu komplexen Sachverhalten heit jeder Benutzer des GER muss die Lernziele fr seinen eigenen Bedarf definieren.
uern kann. Die Antwort darauf lautet an dieser Stelle klar, strukturiert und ausfhrlich. Dafr muss zunchst eine Bedarfsanalyse der Lerner oder gar der Gesellschaft gemacht
werden. Der nchste Schritt besteht darin, zu ermitteln, anhand welcher Aufgaben,
Abgesehen von der qualitativen Beschreibung der Sprachkompetenz, definiert der GER
Prozesse und Aktivitten diese Bedrfnisse befriedigt werden knnen, in welchen
auch die Kehrseite, die Quantitt. Hierbei geht es darum, was jemand in der
Domnen sich all das widerspiegelt und welche Kompetenzen und Strategien ein Lerner
Fremdsprache kann bzw. welche sprachlichen Handlungen im Mittelpunkt stehen
letztlich dafr bentigt. Vor allem ist die Strategieentwicklung ein wichtiger Punkt, dem
(Glaboniat/Mller 2006:16). Auf diese so genannten detaillierten Kann-Beschreibungen
der GER einen groen Platz einrumt (Glaboniat/Mller 2006:16). Schlielich skizziert der
wird im 5. Kapitel dieser Arbeit zurckgegriffen werden, wenn es darum geht, Kritik an
GER dadurch ein methodisch-didaktisches Konzept, das den Lerner, seine Bedrfnisse
verschiedenen Bewertungskriterien zu ben.
und den Fortschritt seiner Sprachkompetenz in den Mittelpunkt stellt. Die Kriterien fr die
Nach Alderson (1991) gibt es verschiedene Arten von Skalen, deren Ziel und Beschreibung der Kompetenzen unterliegen objektiven Kriterien, was schlielich dazu
Hintergrund jeweils ein anderer ist. Benutzerorientierte Skalen sind in der Regel fhren soll, dass eine Grundlage fr die Angleichung verschiedener Lehr- und Lernzielen
holistisch, um dem Lerner die Selbsteinschtzung zu erleichtern. Durch derartige durch die Sprachen Europas und deren Zertifizierung definiert wird, indem ein
einfache Skalen, die meist positiv formuliert sind, kann der Lerner ermitteln, was er gemeinsames Bezugssystem als Auenkriterium etabliert wird (Perlmann-Balme 2006:6).
bereits fhig ist, mittels Sprache zu tun (GER 2001:46). Beurteilungsorientierte Skalen
Derartiges galt lange als berfllig fr das Lehren, Lernen und Beurteilen von
konzentrieren sich auf den Aspekt der Qualitt der erwarteten oder der zu messenden
Sprachen, auch wenn trotzdem diverse Kritikpunkte hinsichtlich des GER definiert worden
Leistung. Diese Skalen sind fr den Bewertungs- und Beurteilungsprozess gedacht und
sind. Dennoch sind durch den GER gerade im Bereich Sprachprfungen Vernderungen
knnen sowohl holistisch, analytisch oder gar als Kombination beider Eigenschaften
eingetreten, sodass sich Konsequenzen fr Testinstitutionen, in unserem Fall im
auftreten, wobei auch auf hheren Niveaus meistens negativ formuliert wird. Holistische
deutschsprachigen Raum, ergeben haben. Das uert sich darin, dass existierende
Skalen fr Beurteilende sind mit nur einem Deskriptor ausgestattet, hingegen beziehen
Prfungen berarbeitet oder revidiert werden mussten, um den Vorgaben des GER und
sich analytische Skalen auf verschiedene Kriterien der Sprachkompetenz oder auch
auch der ALTE und ihren Standards gerecht zu werden (Perlmann-Balme 2006:7).
leistung. Skalen mit vielen Kategorien und Deskriptoren eignen sich allerdings weniger,
denn dadurch wird die Beurteilungsobjektivitt eingeschrnkt. Rater empfinden es als In der vorliegenden Arbeit werde ich mich mit der Sprachaktivitt schriftlicher
eine berforderung, wenn sie mehr als drei bis fnf Deskriptoren fr die Bewertung zu Produktion von Lernern im Hinblick darauf befassen, welche Kompetenzen und
Rate ziehen mssen (GER 2001:47). Der Schwerpunkt beurteilungsorientierter Skalen kommunikativen Zwecke je nach Niveau und Testanbieter vom Lerner erwartet werden
liegt schlielich auf der adquaten Sprachverwendung eines Lerners. Der GER gibt in und wie diese zu entwickeln und frdern sind. Weiterhin ist die Fragestellung
dieser Hinsicht den Ratern den Ratschlag zu bedenken, inwieweit sich ihr Interesse auf interessant, in welchem Kontext vom Lerner bzw. vom Prfling verlangt wird, die
eine verbesserte Konsistenz von Beurteilungen bezieht, indem gut definierte Kriterien fr schriftliche Produktion zu aktivieren und einzusetzen. Auerdem bleibt zu beantworten,
die verschiedenen Fertigkeitsniveaus angeboten werden (GER 2001:49). Schlielich ob der GER die geeigneten Grundlagen dafr schafft und wie diese zunchst von den
benutzen Testautoren aufgabenorientierte Skalen, um Tests zu entwickeln bzw. zu Testanbietern und schlielich vom Endabnehmer Lerner realisiert werden. Zentraler
erstellen. Hier wird der Frage nachgegangen, wie ein Lerner mit Sprache umgehen kann. Punkt ist zum einen die Validitt der Bewertungskriterien schriftlicher
Auch fr den Idealzustand der Testerstellung und ihrer Bewertung bernimmt der GER Lernerproduktionen, um die konstante und konsistente Testvaliditt insgesamt zu
nicht die Verantwortung. Anstatt vorgefertigter Schablonen definiert er in diesem gewhrleisten. Zum anderen ist die Vorgehensweise hinsichtlich der Korrektur und im
Zusammenhang testtheoretische Fragestellungen und Anstze, die Anreiz dafr sein weiteren der Bewertung durch Rater, die als das letzte Glied in der Testkette gelten,
sollen, je nach Notwendigkeit methodisch adquat vorzugehen (Glaboniat/Mller mittels Ratingverfahren und anhand verschiedener Kriterienkataloge entscheidend, um

33 34
schlielich der Verantwortung fr die Beibehaltung der Testvaliditt gerecht zu werden. 2.2 American Psychological Association
Die im handlungsorientierten Ansatz des GER angefhrten Kompetenzen und Kann-
Die American Psychological Association (APA) grndete schon in den spten 40er Jahren
Beschreibungen werden in Kapitel 5 in der Diskussion der bestimmten
ein Komitee fr ethische Standards in der Psychologie und entwickelte daraus die ersten
Bewertungskriterien der verschiedenen Testanbieter bercksichtigt.
ethischen Prinzipien.16 1954 begann sie dann damit, sich mit dem Bereich der
Des Weiteren werden die fr die schriftliche Produktion ntigen Skalen des GER in Entwicklung und Anwendung von Tests zu befassen und entsprechende Guides samt
Verhltnis zu den von den jeweiligen Testanbietern verwendeten Kann-Beschreibungen Standards in diesem Bereich zu verffentlichen. Die erstmals 1966 und dann 1985
bzw. Deskriptoren gesetzt. Als mittelndes Instrument soll die speziell fr die deutsche herausgegebenen Standards for Educational and Psychological Testing und das
Sprache erarbeitete Fassung Profile (Glaboniat et al. 2002) samt ihren definierten auf dazugehrige Manual wurden zwischen 1991 und 1996 berarbeitet. Diese Standards
dem GER beruhenden und umgesetzten Kann-Beschreibungen, soweit wie mglich, wurden entwickelt und berdacht, um anderen Kriterien konsistent gegenber zu sein.
dienen. In dieser fr die deutsche Sprache entstandenen Fassung sind zudem die Die Absicht der Standards besteht darin, den ethischen Testgebrauch zu frdern und
empfohlenen sprachlichen Mittel, die Grammatik, verschiedene Textsorten und Lerner- einen Mastab bereitzustellen, mit dessen Hilfe die Testqualitt evaluiert werden kann.
und Kommunikationsstrategien aufgefhrt. Wie der GER auch, so versteht sich auch Die APA ist eine exzellente Quelle fr verschiedene testtheoretische Konzepte17 und
Profile Deutsch nicht als verpflichtend. Lernziele und sprachliche Mittel werden hier zu Qualifikationen, die sie fr die Kompetenzen und den verantwortungsvollen Testgebrauch
einem Werkzeugkasten zusammengestellt und sollen vielmehr Richtlinien sein, die fr wichtig hlt.18 Sie betont als optimale Voraussetzung hinsichtlich des Testgebrauchs
flexibel eingesetzt und zudem erweitert werden knnen (Perlmann-Balme 2006:10). Faktoren wie Wissen, Kenntnis, Fhigkeit, Schulung und Erfahrung. Fr die APA bedeutet
Anregungen knnen hierdurch zum Beispiel fr Curriculumentwicklung, Lehrkonzepten die Qualifikation eines Testbenutzers weniger eine Zertifizierung, als vielmehr das
und Testentwicklung gegeben werden. Das sprachenpolitische Konzept des Europarats Aufzeigen von Kompetenz. Die seit August 2000 neu definierten und erprobten Richtlinien
steht unter anderem auch dafr ein, dass ihre Mitgliedsstaaten mit ausreichenden des APA-Vorstandes beschreiben zweierlei Kompetenzen. Zum einen bilden allgemeine
Kommunikationskompetenzen ausgestattet werden, um untereinander interagieren zu Kompetenzen die Basis fr den blichen Testgebrauch. Der optimale und spezielle
knnen. Dadurch knnte es zu einer wachsenden Mobilitt im Berufsbereich zum Beispiel Testgebrauch bedarf aber speziellerer Kompetenzen. Anders ausgedrckt, sehen die
innerhalb Europas kommen. Die gefrderte Mehrsprachigkeit und Plurikulturalitt soll Richtlinien der APA fr die verschiedensten Kontexte und deren Gebrauch
ebenso kulturelle Barrieren und Vorurteile zwischen den verschiedenen europischen unterschiedliche Kompetenzen vor.
Staaten abbauen (GER 2001:16). Der Europarat gibt den Mitgliedsstaaten Hilfestellung
Die APAStandards19 werden im Kernkapitel der vorliegenden Arbeit der Analyse und
zur Anwendung neuer sprachlichen Programme und motiviert des Weiteren zur
Kritik der Bewertungskriterien schriftlichen Ausdrucks insofern hilfreich sein, indem die
Innovation beim Sprachenlehren und - lernen, welche zudem weiterentwickelt werden
definierten Richtlinien als Basis verstanden werden, um das Gtekriterium der Validitt
soll, um die Kooperation zwischen Bildungstrgern verschiedener europischer Lnder zu
zu untersttzen.
frdern. Ein weiteres Ziel des GER besteht darin, die Vergleichbarkeit von validen
Sprachqualifikationen oder Sprachzertifizierungen zu erlangen, d.h. eine Grundlage zu
schaffen, Sprachzertifizierungen europaweit anzugleichen und anzuerkennen.
Der GER soll ebenfalls als Hilfsmittel fr die Erstellung von standardisierten
Sprachprfungen und den dazu bentigten Bewertungskriterien fungieren, wobei deren
Vergleichbarkeit letztlich nur dadurch erreicht werden kann, wenn Standards bei der
Testentwicklung, -durchfhrung und bewertung eingehalten werden (Perlmann-Balme
2006:6f.).

16 American Psychological Association. 1950. Ethical standards the distribution of psychological tests and diagnostic aids.
American Psychologist 5, S. 620-626
17 Report of the Task Force on Test User Qualifications 2-88. Practice on Science Directorates APA. Approvedby the APA Council
of Representatives. August, 2000.
18 DeMers, S.Y., Turner, S.M. (Cochairs), Andberg, M. Foote, W. Hough, L. Ivnik, R. Meier, S. Moreland, K. & Rey-Casserly,
C.M. (2000). Report of the Task Force on Test User Qualifications. Washington, D.C.: Practice and Science Directorates,
American Psychological Association - aus dem Original von mir bersetzt.
19 Die Literaturangabe oder der Verweis auf die Standards der American Psychological Association wird in der Arbeit mit APA
bzw. APA-Standard gekennzeichnet sein. Ersteres bezieht sich auf allgemeine Referenz whrend letzteres auf definierte
Standards verweisen soll.

35 36
2.3 Association of Language Testers in Europe (ALTE) Auerdem wurden 199422, hnlich wie bei der APA23, allgemeine Standards, der so
genannte ALTE Code of Practice24, fr den gesamten Testprozess von Sprachprfungen
Die Vereinigung Association of Language Testers in Europe (ALTE) setzt sich aus
definiert. ALTE-Mitglieder bekennen und verpflichten sich dabei, diese bei der
verschiedenen Testanbietern im Bereich der Fremdsprachen in Europa zusammen.
Testerstellung und durchfhrung einzuhalten. Es wird von den Mitgliedern erwartet,
Initialisiert wurde dieses Konzept 1989 anfangs durch die Universitten von Cambridge
dass ihre Prfungserstellung und Qualittskontrolle dokumentiert wird.
und von Salamanca. Mittlerweile zhlt ALTE 31 Mitglieder. Darunter fallen aus dem
deutschsprachigen Raum neben der Telc GmbH, das Goethe-Institut und das TestDaF-
Institut.
2.4 Das Goethe-Institut
1991 begann ein langfristiges ALTE Rahmen-Projekt, in dem alle Mitglieder ihre
Prfungen nach dem gleichen Prinzip und Format definierten. Ziel der ALTE ist es, Das Goethe-Institut e.V. wurde am 9. August 1951 in Mnchen gegrndet und ist heute
vergleichbare Sprachprfungen und Zertifizierungen in Europa herzustellen. Um diese die bekannteste weltweit ttige Organisation zur Vermittlung deutscher Sprache und
Homogenitt unter den unterschiedlichsten Sprachprfungen innerhalb Europas zu auswrtiger Kulturpolitik.25 Das Institut, dem der Beiname Institut zur Pflege der
erreichen, hat ALTE einen Referenzrahmen der Niveaus entwickelt20, welcher durch eine deutschen Sprache im Ausland und zur Frderung der internationalen kulturellen
groe Palette von Kann-Beschreibungen definiert wird. Der Rahmenplan der ALTE besteht Zusammenarbeit26 beigefgt wird, ist also nicht nur Vermittler der deutschen Sprache,
auf den ersten Blick, wie der GER auch, aus sechs Niveaustufen hinsichtlich der sondern leistet im Auftrag der Bundesrepublik Deutschland als gemeinntziger Verein27
Sprachbeherrschung. Dennoch sind es lediglich fnf, weil die erste Niveaustufe nicht auch einen groen Beitrag im Bereich der Kulturarbeit, der sich zum Beispiel in
nummeriert ist, sondern eben nur ein Breakthrough ist. An folgender globalen Tabelle Ausstellungen zu Themen deutscher Geschichte oder der Organisation von Konzerten
sei der Vergleich beider Referenzrahmen deutlich gemacht:21 niederschlgt.28

Whrend der Zeit des so genannten Wirtschaftswunders wurden weitere Institute


erffnet. Schon 1951 wurden in Athen/Griechenland und in anderen Metropolen von im
C 2 Fhigkeit, mit akademisch oder kognitiv anspruchsvollem Material
Ausland lebenden Deutschen erste Deutschkurse angeboten (Apelt o.J.:4). 1953 gab es
ALTE 5 umzugehen und Sprache mit gutem Erfolg auf einem Leistungsniveau zu
in Deutschland das erste Fortbildungsangebot fr auslndische Deutschlehrer. Der
benutzen, das in mancher Hinsicht fortgeschrittener sein mag als das
Schwerpunkt lag hier in erster Linie auf dem Erstellen von Lehrbchern, Lehrplnen und
eines durchschnittlichen Muttersprachlers.
Unterrichtsmethoden (Apelt o.J.:4). Zu erwhnen wre an dieser Stelle, dass die ersten
C 1 Fhigkeit zu kommunizieren, mit Betonung darauf, wie gut etwas Lehrveranstaltungen fr auslndische Studenten in Deutschland bereits im
ALTE 4 erledigt wurde im Hinblick auf Angemessenheit und Feingefhl und die Sommersemester 1898 an der Friedrich-Wilhelms-Universitt von Berlin eingefhrt und
Fhigkeit, mit nicht vertrauten Themen umzugehen. angeboten wurden. Landeskundliche Inhalte wurden in diesem Zusammenhang in
Deutschland also erstmals im Sommersemester 1903 Teil dieser
Unterrichtsveranstaltungen.29 Das Goethe-Institut erweitert seinen Ttigkeitsbereich von
B 2 Fhigkeit, die meisten Ziele zu erreichen und sich ber eine Vielzahl von der Sprachfrderung zur Programmarbeit (Vortragsreihen usw.) und zur Entwicklung
ALTE 3 Themen auszudrcken. neuer Lernmethoden oder Sprachtestentwicklungen, etwas was die Fusion mit Inter
Nationes am 21. September 2000 zustzlich bestrkt. Dieses Institut wurde 1952
B 1 Fhigkeit, sich auf begrenzte Weise in vertrauten Situationen
gegrndet, um die Prsenz Deutschlands im Ausland durch Informationsverbreitung
ALTE 2 auszudrcken und auf allgemeine Weise nicht-routinemige
deutlich zu machen.30 Seitdem arbeitet das Goethe-Institut mit verschiedenen
Informationen zu bewltigen.

A 2 Fhigkeit, mit einfachen, unkomplizierten Informationen umzugehen


ALTE 1 und der Beginn der Fhigkeit, sich in vertrauten Kontexten auszudrcken.
22 www.alte.org
23 APA ist umfassender und bezieht sich nicht speziell auf Sprachstandstests
A 1 Elementare Fhigkeit, auf einfache Weise zu kommunizieren und 24 www.alte.org
ALTE Informationen auszutauschen. 25 Eckard Michels, Goethe-Institut, in: Historisches Lexikon Bayerns, URL:<http://www.historisches-lexikon
bayerns.de/artikel/artikel_44721>
Breaktrough 26 Satzung und Rahmenvertrag. Rechtliche Grundlagen des eingetragenen Vereins. Herausgegeben vom Goethe- Institut,
Mnchen o.J., S. 6
27 http://de.wikipedia.org/wiki/Goethe-Institut

Tabelle 4: Vergleich der Niveaustufen des GER und ALTE 28 vgl. Kulturprogramme der Pdagogischen Verbindungsarbeit 1991 - 1997. Dokumentation. Herausgegeben vom Goethe-
Institut, Mnchen 1997. Auerdem gibt das Goethe- Institut die Zeitschrift Goethe- Institut aktuell heraus, in der
vierteljhrlich die Kulturprogramme vorgestellt werden.
29 Gnther, Roswitha: Das Deutsche Institut fr Auslnder an der Universitt Berlin in der Zeit von 1922 bis 1945. Ein Beitrag
20 Es werden seit 1998 Vergleiche und Korrelationsberechnungen der Kann-Beschreibungen und Skalen zwischen dem GER und zur Erforschung des Lehrgebiets Deutsch als Fremdsprache. In: Beitrge zur Geschichte der Humboldt-Universitt zu Berlin,
ALTE angestellt Nr. 19. Berlin 1988
21 Durch statistische Verfahren wurde die Vergleichbarkeit der Stufen ALTE und GER erwiesen (www.alte.org) 30 http://de.wikipedia.org/wiki/Goethe-Institut

37 38
universitren oder privaten Bildungstrgern im In- und im Ausland zusammen, indem Vorfeld betont werden, dass das Goethe-Institut die Qualittsstandards der ALTE
unter anderem Projekte und Curricula erstellt werden.31 anwendet, wenn es um Testentwicklung, Durchfhrung, Bewertung und ihrer Analyse
geht.33 Aktuell bietet das Goethe Institut folgende Prfungen an:34
Seit seiner Grndung war das Goethe- Institut unabhngig von der Bundespolitik,
obwohl es durch das Bundesauenministerium finanziert wurde (vgl. Apelt o.J.:4). Durch
diese Liquiditt war dem Goethe-Institut der Zugang zu anderen Lndern mglich. Nicht
Stufe des GER Prfungen des Goethe-Instituts
unbeachtet darf die Tatsache gelassen werden, dass das Goethe- Institut in den letzten
Jahren finanzielle Krzungen, Umstrukturierungen und Schlieungen von Zweigstellen A1 Goethe-Zertifikat Start Deutsch 1,
hinnehmen musste. Goethe-Zertifikat Fit in Deutsch 1
Der zentrale Gedanke und das Motto des Goethe-Institutes besteht in der Vermittlung
A2 Goethe-Zertifikat Start Deutsch 2,
der deutschen Sprache und Kultur in Form einer Bereicherung der jeweiligen Kultur vor
Ort. Alle Veranstaltungen der Institute haben den Hintergrund und das Konzept, dass sie Goethe-Zertifikat Fit in Deutsch 2
sowohl fr Freunde der deutschen Sprache und Kultur als auch fr deutschneutrale B1 Goethe-Zertifikat Deutsch,
Erstentdecker attraktiv sein knnen. Heute umfasst das weltweite Netz des Goethe-
Goethe-Zertifikat Deutsch fr Jugendliche
Instituts ber 140 Kulturinstitute in 77 Lndern. Die insgesamt 15 Institute in
Deutschland runden diese Arbeit ab und ermglichen Auslandsaufenthalte der B2 Goethe-Zertifikat Deutsch fr den Beruf,
Sprachlerner in Deutschland.
Goethe-Zertifikat B2
Die deutsche Sprache im Ausland wird vom Goethe-Institut durch viele verschiedene
C1 Goethe-Zertifikat Prfung
Manahmen und Produkte betrieben, wie z.B. :
Wirtschaftsdeutsch, Goethe-Zertifikat C1
Pdagogische Verbindungsarbeit zur Untersttzung des Deutschunterrichts in
C2 Goethe-Zertifikat Zentrale
privaten und ffentlichen Institutionen im Ausland
Oberstufenprfung,
Entwicklung und Bereitstellung von Lehr- und Lernmaterialien
Goethe-Zertifikat Kleines Deutsches
Fortbildungsangebote fr Lehrkrfte Sprachdiplom
Sprachpolitische Aktivitten C2+ Goethe-Zertifikat Groes Deutsches
Sprachkurse unterschiedlicher Zielgruppen Sprachdiplom

Tabelle 5: Prfungen des Goethe-Instituts


Anhand dieser Beitrge frdert das Goethe-Institut die deutsche Sprache und leistet
somit auch einen Beitrag zur Frderung der Mehrsprachigkeit im Rahmen der
europischen Sprachpolitik. Dabei orientiert sich das Goethe-Institut an den
Im Herbst 2007 wurden auf den Niveaus B2 und C1 weltweit die neu erstellten
Grundstzen, die die Institutionen der Stndigen Arbeitsgruppe Deutsch als
Prfungen eingefhrt. Genau diese zwei neuen Prfungen des Goethe-Instituts werden
Fremdsprache (StADaF) beschlossen haben. Ein Beispiel hierfr wre das Ziel
neben der TestDaf-Prfung zum Hauptgegenstand dieser Arbeit. Dabei werden die
Vermittlung eines aktuellen Deutschlandbildes und Anregungen zu interkultureller
offenen Aufgabenformate und die erwarteten Textsorten des schriftlichen Ausdrucks und
Auseinandersetzung. Die Arbeit der einzelnen Goethe-Institute im In- und Ausland
die dafr bereitgestellten Bewertungskriterien im Vordergrund stehen
beschrnkt sich aber keinesfalls nur auf Sprachvermittlung. Die Kulturarbeit der Goethe-
Institute im Ausland soll die Akzeptanz der deutschen Sprache frdern sowie dabei
helfen, Vorurteile gegenber Deutschland abzubauen.

Die meines Erachtens zentralste Aufgabe und Funktion aller Goethe-Institute ist die
Bereitstellung von Prfungsangeboten. Die ersten entstandenen Prfungen (1963) waren
die Oberstufenprfungen KDS und GDS. In den letzten 50 Jahren sind aber immer wieder
neue Prfungen initialisiert, aber auch berarbeitet worden. Alle Prfungen werden in der
Zentrale in Mnchen erstellt.32 Die Prfungen decken die verschiedenen Niveaustufen des
GER ab, die jeweils als aufbauend zueinander betrachtet werden knnen. Es muss im

31 Berthold Franke (Hrsg.): Jahrbuch 1998/1999 des Goethe-Instituts, S. 26


32 Writing Tasks: Pilot Samples. In: Preliminary Pilot Version of the Manual for Relating Language Examinations to the CEFR: 33 Goethe-Zertifikat C1. Handbuch. Prfungsziele. Testbeschreibung. 050707. S. 4f.
learning, teaching, assessment. 1995 34 www.goethe. de

39 40
2.5 Das TestDaF-Institut Durch die verschiedenen Ergebnisse der Kompetenzen in den entsprechenden Subtests
sollen sich Hochschulen einen Eindruck vom Profil des Studienbewerbers verschaffen.
Das TestDaF-Institut ist eine gemeinntzige wissenschaftliche Institution, die von der
Demzufolge kann je nach Profil jede Fakultt einer Universitt ihrer Hochschulordnung
Gesellschaft fr Akademische Testentwicklung35 mit der finanziellen Hilfe des Auswrtigen
entsprechend differenzieren und bedingt zulassen.41 Erreicht ein Kandidat beispielsweise
Amtes und des Bundesministeriums fr Bildung und Forschung36 ins Leben gerufen
in allen vier Subtests die TDN-Stufe 4, so hat er die sprachliche Zugangsvoraussetzung
wurde. Der Hintergrund fr die Grndung einer derartigen Instanz lag in der Diskussion,
fr deutsche Hochschulen, wobei manche bereits Studienbewerber aufnehmen, die
einen internationalen Hochschulzugangssprachtest fr deutsche Universitten zu
mindestens das TDN-Niveau 3 erreicht haben.
entwickeln, der mit dem IELTS (International English Language Testing System) und dem
TOEFL (Test of English as a Foreign Language)37 verglichen werden knnte. 2001 wurde Da sich der TestDaf-Test als ein standardisierter Test versteht, der die Einhaltung der
dann schlielich der standardisierte TestDaF-Test herausgebracht, bei dem es um den Gtekriterien der Testerstellung garantiert, wird er am TestDaF-Institut sowohl erstellt
Sprachnachweis auslndischerer Studienanwrter bzw. Studienbewerber fr die als auch bewertet.42 Er wird mittlerweile in ber 80 Lndern in mehr als 300 lizenzierten
Hochschulzugangsberechtigung an deutschen Universitten geht. Dabei wird der Testzentren abgenommen. Der TestDaF-Test wird in dieser Arbeit hinsichtlich des
Sprachstand eines Kandidaten bezglich des akademischen Kontextes im oberen Subtests schriftlicher Ausdruck untersucht werden. Bewertungskriterien und deren
Leistungsspektrum38 berprft. Der nach den vier Fertigkeiten in Subtests getrennte Realisierung werden im Rahmen der Validitt beleuchtet werden.
TestDaF orientiert sich an einer mit drei verschiedenen Niveaustufen (TDN 3, TDN4,
TDN5)39 erarbeiteten Skala. Trotzdem orientiert sich der TestDaF sowohl an den Skalen
des GER als auch an die der ALTE. Ein Charakteristikum dabei ist der hochschulbezogene
Kontext bei den Stufenbeschreibungen.40 An folgender Tabelle sei die Zuordnung
angefhrt:

GER A1.1 A1.2 A2.1 A2.2 B1.1 B1.2 B2.1 B2.2 C1.1 C1.2 C2.1 C2.2

TestDaF

TDN 3 TDN 4 TDN 5

ALTE

ALTE ALTE ALTE ALTE ALTE ALTE

Breakthrough 1 2 3 4 5

TestDaF

TDN 3 TDN 4 TDN 5

Tabelle 6: TestDaF im Vergleich zum GER und zu ALTE

35Hierzu zhlen: Hochschulrektorenkonferenz, DAAD e.V. Bonn, Goethe-Institut e.V. Mnchen,


Fernuniversitt/Gesamthochschule Hagen, Ruhr-Universitt Bochum, Universitt Leipzig, Fachverband Deutsch als
Fremdsprache e.V.. Aus: www.testdaf.de
36 Grotjahn, R./Kleppin, K.: TestDaF: Stand der Entwicklung und einige Perspektiven fr Forschung und Praxis. In:
Germanistisches Jahrbuch der GUS Das Wort 2000/2001, S. 267
37 IELTS und TOEFL sind die wichtigsten Sprachtests fr englischsprachige Universitten und Einrichtungen
38 Arras, U./Grotjahn, R.: TestDaf: Aktuelle Einwicklungen. Eine erweiterte Fassung eines Vortrages auf der 22. Arbeitstagung
in Chemnitz, 28.02.2002. 41 Informationsmaterial des TestDaF-Instituts: Empfehlungen fr Kurse und Materialien zur Vorbereitung auf die Prfung
TestDaF. 04/2005
39 TDN steht fr TestDaF-Niveau (siehe auch Abkrzungsverzeichnis)
42 www.testdaf.de
40 Grotjahn, R./Kleppin, K.: TestDaF: Stand der Entwicklung und einige Perspektiven fr Forschung und Praxis. In:
Germanistisches Jahrbuch der GUS Das Wort 2000/2001, S. 26

41 42
3.2 Erstsprach- und Zweit- bzw. Fremdspracherwerb
3 Modelle des Spracherwerbs

3.2.1 Gesteuerter vs. ungesteuerter Fremdspracherwerb


Zentrales Thema dieses Kapitels ist die fremdsprachliche Lernerproduktion im
schriftlichen Ausdruck. Zunchst sollen Fragen hinsichtlich des Lernens einer
Fremdsprache aufgestellt werden: Wie geht dieser Prozess vonstatten? Was geht im In erster Linie wird zwischen den Lernkontexten (vgl. Bausch/Kasper 1979) Erstsprach-
Lerner vor? Die wichtigsten Grundlagen und Hypothesen, die die Forschung des Zweit- und Zweit- bzw. Fremdspracherwerb differenziert. Erstspracherwerb bezieht sich auf das
und Fremdspracherwerbs geprgt haben, sollen die Grundlage zur Beantwortung dieser Erlernen der Muttersprache, Zweit- bzw. Fremdspracherwerb differenziert zwischen
Fragen sein, indem sie kritisch gegenbergestellt, betrachtet und auf Relevanz gesteuertem und ungesteuertem Erlernen bzw. Erwerben einer weiteren Sprache. Das
hinsichtlich der Thematik dieser Dissertation untersucht werden. Weiterhin wird Erlernen einer zweiten Sprache ist differenzierter und daher muss schon die Definition
spezifisch auf die schriftliche Lernerproduktion und ihre Problematik im dieses Rahmens per se entsprechend explizit gemacht werden. In der Literatur gibt es
Fremdsprachenbereich eingegangen werden. Des Weiteren werden sich daraus, unter verschiedene Bezeichnungen dafr. Die Erforschung dieses Bereichs wird sowohl unter
anderem Aspekte der sprachlichen oder auch kulturellen Identitt und der sprachlichen als auch unter auersprachlichen Gegebenheiten betrachtet. Whrend
Lernermotivation abzeichnen. Der zweite Teil dieses Kapitels wird sich dann mit der ersteres sich, global betrachtet, auf die Rolle und die Beziehung zweier Sprachen bezieht,
Definition des Kompetenzbegriffs beschftigen, um zunchst die erforderlichen deckt letzteres Faktoren wie Persnlichkeit oder Motivation ab (Egger 1995:81).
Sprachkompetenzen zu skizzieren und dann speziell auf die produktive Kompetenz
Der ungesteuerte Fremdspracherwerb ist mit dem nicht systematischen Lernen einer
Schreiben einzugehen. Kontrastiv dazu wird Bezug auf ein primrsprachliches
Fremdsprache gleichzusetzen (Klein 1984:28). Da es sich nicht um einen
Kernlehrcurriculum genommen, um darauf aufbauend die schriftliche Lernerproduktion,
unterrichtsbegleiteten bzw. institutionellen Prozess handelt, wird dieses im Folgenden als
insbesondere in Testsituationen, samt ihren Strategien, Methoden und internen sowie
Zweitspracherwerb bezeichnet werden. Ich lasse an dieser Stelle unbercksichtigt, dass
externen Einflssen zu beleuchten.
auch im ungesteuerten Spracherwerb durch Interaktion gesteuert werden kann (Rsler
1995:150). Dieser natrliche Zweitspracherwerb erfolgt in der alltglichen
Kommunikation, zu der auch das Fernsehen oder das Zeitungslesen eines Migranten
beispielsweise, gezhlt werden knnen (Merten 1997:66ff.).

3.1 Der Spracherwerb Beim gesteuerten Fremdspracherwerb, der fr diese Arbeit interessant ist, wird eine
zweite Sprache in der Regel auerhalb ihres normalen Verwendungsbereichs, das heit
Spracherwerb ist der Prozess des Erlernens einer Sprache, was als das Spezifikum des
nicht im Land, in dem sie Verkehrssprache ist, erlernt.43 Im Gegensatz zum
Menschen gilt. Dieser ist prinzipiell in der Lage, jede Sprache zu erwerben, da er ber
Zweitspracherwerb, der in erster Linie der Alltagsbewltigung dient und Fehler eine
einen angeborenen Sprachmechanismus verfgt. Die universale Sprachfhigkeit entfaltet
untergeordnete Rolle spielen (vgl. Rsler 1984), ist der Fremdspracherwerb44 durch
sich im Laufe des Heranwachsens einer Person. Die Art und Weise wie Menschen
Strategieentwicklung zur Fehlervermeidung gekennzeichnet, wobei Fehler jedoch auch
Sprachen verarbeiteten und erlernten, vollzog sich ber Millionen von Jahren bis vor
Anzeichen dafr sein knnen, dass die Sprache samt ihren Regeln erworben wird
einigen Jahrzehnten unsystematisch (Klein 1984:31). Die sich aus der Psycholinguistik
(Kielhfer 1995:36).
entwickelte Spracherwerbsforschung versucht in den letzten Jahrzehnten eine Erklrung
der Spracherwerbsprozesse zu geben, indem sie biologisch gegebene Der handlungsorientierte Ansatz des GER lsst darauf schlieen, dass es in Zukunft
Sprachlernfhigkeiten, Charakteristika einer Person, Inputbedingungen oder durch die wachsende Mobilitt innerhalb Europas zu verschiedenen Erwerbsformen und
vorausgesetztes Wissen fr den Spracherwerb bercksichtigt. entsprechenden Definitionen kommen wird. Hinsichtlich der Thematik der vorliegenden
Arbeit knnte demnach die Homogenitt von Lernern und ihren Produktionen zuknftig
durch verschiedene Mischformen in Frage gestellt werden, da die unter Kapitel 3.2
vorgestellten Hypothesen zum Zweit- bzw. Fremdspracherwerb keine Entsprechung im
definierten Sinne htten.

43 Angemerkt sei an dieser Stelle, dass sich die wenigsten Zweitspracherwerbshypothesen aufgrund ihrer sehr theoretischen
Grundlage auf den Fremdspracherwerb auerhalb des Zielsprachenlandes beziehen
44 Synonym dazu werden in dieser Arbeit als Variation des Begriffs Fremdspracherwerb auch Zielsprache, fremdsprachlich, u..
verwendet werden

43 44
3.2.2 Die Motivation als Reizelement beim Sprachenlernen 3.3 Hypothesen zum Zweitspracherwerb46
Ein entscheidendes Element bei dem Erlernen einer Sprache ist die Motivation. Dittmar In der Zweitspracherwerbsforschung gibt es mehrere Erklrungsanstze, die sich in ihren
(1995) spricht in diesem Zusammenhang von Lernenergie, wobei ihre Intensitt und ihr Voraussetzungen klar voneinander abheben. Psycholinguistisch sollen
Ausma das Spracherwerbsresultat bestimmt (Dittmar 1995:109 ff.). Die Grnde, aus Spracherwerbsablufe und -sequenzen beschrieben und erklrt werden, indem die
denen man sich mit einer Sprache auseinandersetzt, knnen ganz unterschiedlicher biologisch existierende Sprachlernfhigkeit und andere Faktoren den Rahmen bilden. Im
Natur sein. Einerseits kann sowohl die Akkulturationsbereitschaft45 als auch ein externer, Vordergrund steht entweder die zu erwerbende Sprache oder der Lerner und seine
sozialer Zwang Anlass sein, sich eine Sprache anzueignen. In diesem Fall ist die zu soziokulturelle Situation. Die wichtigsten Hypothesen werden im Folgenden kurz
erlernende Sprache das einzige Kommunikationsmedium des Umfeldes. Dies impliziert vorgestellt, ohne Anspruch auf Vollstndigkeit. Ich beschrnke mich hierbei auf relevante
aber nicht nur die Verstndigung, sondern auch die Aneignung von Werten, Normen und Teile der Hypothesen, die unmittelbar mit der Thematik dieser Arbeit in Beziehung zu
Interpretationen dieser fr die Gesellschaft typischen Sprache. In diesem Sinne stehen scheinen.
durchluft man gezwungenermaen oft eine zweite Sozialisation im Bereich der
Persnlichkeitsentwicklung, der Handlungsfhigkeit und konkreten
Interpretationsschemata (Steinmller 1995:161ff.). Auf der anderen Seite gibt es den
3.3.1 Die Kontrastivhypothese
Fall des mehr oder weniger freien Willens, eine weitere Sprache zu erwerben. Setzt man
sich unter diesen Bedingungen mit einer neuen Sprache auseinander, so unterliegt dieser Von Charles C. Fries (1947) initiiert und von Robert L. Lado (1957) fortgefhrt, gilt diese
Prozess konkreten Prmissen, Funktionen und Zwecken (Beispiel Student in Hypothese behavioristischen Ansatzes als die erste entwickelte (Merten 1997:73). Ihre
Griechenland). Ein Motiv bzw. eine Zielsetzung fr die Spracherlernung knnte in diesem ursprngliche starke Version lautete sinngem:
Fall der Sprachnachweis zur beruflichen Qualifikation oder die Attraktivitt der Die Grundsprache des Lerners beeinflusst seinen Erwerb einer Zweitsprache in der
Weiterbildung an einer Universitt im deutschsprachigen Raum sein. In diesem Weise, dass in Grund- und Zweitsprache identische Elemente und Regeln leicht und
Zusammenhang soll man gem des GER darber nachdenken, in welcher Beziehung fehlerfrei zu erlernen sind, unterschiedliche Elemente und Regeln dagegen
kommunikative Aktivitten und Lernaktivitten zu den Antrieben, Motivationen und Lernschwierigkeiten bereiten und zu Fehlern fhren (Bausch/Kasper 1979:5).
Interessen der Lernenden stehen (GER 2001:57).
Es wird ersichtlich, dass es hier nicht um ein lernerzentriertes Modell geht, das heit im
Der Aspekt der Persnlichkeitsbildung ist eng mit dem Erlernen einer Fremdsprache Mittelpunkt steht nicht der Spracherwerber, sondern Basis- und Zielsprache stehen im
gekoppelt. Neben den funktionalen und instrumentellen Zwecken gibt uns eine Sprache Vordergrund und machen demnach den Untersuchungsgegenstand aus. Kontrastiv
Aufschluss ber Land und Leute. In ihr spiegeln sich Werte und Normen der bedeutet in diesem Zusammenhang das Gegenberstellen zweier Sprachsysteme, um
entsprechenden Gesellschaft wider. Gemeinsamkeiten und Unterschiede zu ermitteln, die dann durch Systematisierung den
Im Fall des Fremdspracherwerbs durchliefe man nicht wie im ersten Beispiel eine Lernerfolg eines Lerners im Fremdsprachenunterricht gewhrleisten sollen. Juhsz
weitere Sozialisation, sondern wrde seinen Horizont erweitern und bisher unbekannte (1970:9), ein wichtiger Vertreter der Kontrastivhypothese, spricht in diesem Sinne von
Normen und Wertvorstellungen modifizieren. Erst durch Sprache knnen Menschen ,,Interferenzen" oder ,,negativem Transfer" bei fehlerhaften bertragungen und von
miteinander in Interaktion treten und ihre Umwelt gestalten. Phipps und Gonzales ,,positivem Transfer", wenn die Umsetzung fehlerfrei erfolgt. Decken sich Strukturen der
sprechen in diesem Zusammenhang von Languaging (2004:2). Sprachenlernen erweitert Erst- und der Zielsprache, so ist eine zweite Sprache gem der Kontrastivhypothese
den Bewusstseinshorizont der Lernenden in Richtung Toleranz, Verstndnis des Anderen leicht erlernbar.
und frdert somit den Abbau existierender Vorurteile und damit in Zusammenhang Dem Input-Outputverhalten (Bausch/Kasper 1979:4) der Kontrastivhypothese kann
stehender Lernblockaden (Phipps/Gonzalez 2004:168): nur im syntaktischen Bereich eine Bedeutung beigemessen werden, denn inhaltliche oder
To be intercultural is to be beyond the captivities of culture gar thematische Gegenberstellungen zweier Sprachen sind nicht realisierbar. Die
kontrastive Spracherwerbstheorie kann sich fr die Didaktik sicherlich teilweise als
ntzlich erweisen. Der Anspruch jedoch aus dieser prognostischen Version
Strukturidentitten und Strukturdivergenzen zu ermitteln und daraus bestimmte
Lernprozesse zu erwarten, erweist sich als nicht valide (Wienold 1973:93ff.). Dieser
behavioristische Ansatz sagt beispielsweise nichts ber zur Verfgung gestelltes
Lernmaterial aus, mit dessen Hilfe man eine Sprache erwerben kann. Es geht hier einzig
und allein um die sprachlichen Charakterzge und Eigenschaften. Da es in diesem Ansatz
prinzipiell um das Umlernen der Muttersprache geht, kann er fr unsere Arbeit nicht in
Anspruch genommen werden, um schriftliche Lernerproduktionen ber den Kontrast von
45 zum Begriff der Akkulturation vgl. Herskovits, M.J.: Acculturation. New York, 1938
46 Diese Hypothesen machen keine Unterscheidung zwischen Zweit- und Fremdsprache. Es geht hier um eine weitere Sprache,
die neben der Muttersprache erworben wird

45 46
erster und zweiter Sprache zu definieren (Kielhfer 1995:35ff.). Auch Edmonson und In The Natural Approach. Language Acquisition in the Classroom (vgl. Krashen/Terell
House (1993:210) fhren einige Schwachstellen der kontrastiven Analyse an. Selbst ein 1983) werden fnf Thesen skizziert, um Krashens Ansatz zu festigen:
Kontrastmangel zwischen zwei Sprachsystemen knne zu interlingualen Fehlern fhren.
Fehler knnten aber auch intralingualer Natur sein, d. h. sowohl in der Zweit- als auch in
der Fremdsprache selbst prsent sein. Es treten schlielich auch jene Fehler auf, die Spracherwerb und Sprachlernen: Es wird zwischen dem unbewussten Spracherwerb
gnzlich unabhngig von beiden Sprachsystemen sind und als kreative und dem Sprachenlernen unterschieden. Unbewusster Spracherwerb findet in realer
Lernerschpfungen gesehen werden knnten, die Rckschlsse auf Lernprobleme, Kommunikation statt, whrend Sprachenlernen mit bewusstem Einprgen von
Lernprozesse, Verarbeitung von Erklrungen und Entstehung eigener Lernerregeln Sprachstrukturen in Verbindung gebracht wird. Da nach Krashen der unbewusste
(Kielhfer 1995:35ff.) zulassen. Ein letzter Kritikpunkt besteht darin, dass die Spracherwerb weitaus effektiver als das Sprachenlernen ist, sollte der
Kontrastivittshypothese zur Generalisierung aller Lerner gleicher Erst- bzw. Fremdsprachenunterricht darin bestehen, Sprachaktivitten zu stimulieren, statt
Muttersprachen neigt. Es zeigt sich aber, dass diese Lerner nicht alle identische Fehler Regelwissen einzuben (Apeltauer 1987:9).
verzeichnen und somit keine allgemeingltigen Regeln aufgestellt werden knnen. Die Natrliche Ordnung: Die Reihenfolge, in der grammatische Strukturen erlernt werden,
abgeschwchte Form der Kontrastivhypothese fungiert mittlerweile nur zur Erklrung ist vorhersehbar. Der Fremdsprachenunterricht bercksichtigt allerdings nicht diese
von Lernschwierigkeiten und -fehlern (Apeltauer 1987:32) und bietet damit eine zeitliche und natrliche Erwerbsreihenfolge, sondern richtet sich nach den zu
Grundlage fr das Begreifen der Fehlergenese (Corder 1973:293), bedenkt aber nicht behandelnden sprachlichen Phnomenen eines Curriculums oder Lehrwerks
den Fall, dass sich Strukturunterschiede zwischen den Sprachen nicht bedingt in der (Dulay/Burt/Krashen 1982:17).
Lernschwierigkeit oder in Fehlern uern mssen, sondern vielmehr in der
Der Monitor: Zweitsprache wird ber das unbewusste Erwerbssystem initiiert. Der
Vermeidungsstrategie.
Monitor als Kontrollinstanz und bewusstes System schaltet sich nur dann ein, wenn zum
Bezogen auf die vorliegende Arbeit impliziert dieses, dass die wirkliche Kompetenz47 Beispiel eine notwendige korrekte syntaktische Form von Bedeutung ist.
eines Testkandidaten dadurch nicht ermittelt werden knnte. Unsicherheit darber, ob
Das Input: Sprachen werden erlernt, indem man verstndliches Input bekommt. Je
eine Struktur korrekt angewandt wird, kann demnach dazu fhren, dass man sich als
nach Niveau ist das Input demnach mehr oder weniger erforderlich. Einfache
Prfling weniger komplexer syntaktischer Zusammensetzungen bedient. Derartige
Sprachstrukturen stellen zum Beispiel das ideale Input fr jemanden dar, der sich noch
verdeckte oder auch latente Fehler, die durch Vermeidungs- oder
in der Grundstufe seiner Zielsprache befindet.
bergeneralisierungsstrategien nicht auf den ersten Blick zum Vorschein kommen, sollen
in Kapitel 5 anhand der Kompetenzbeschreibungen des GER diskutiert werden, indem Der affektive Filter: Affektiv wird im Sinne dieser Theorie zum Beispiel die
noch zustzlich ausfhrlich Bezug auf die Bewertungskriterien und der tatschlichen und Lernermotivation genannt. Ideale Sprachlernsituationen hemmen Angst oder Scheu vor
existierenden Sprachkompetenz einer Person genommen werden soll (Rieck 1980:44). der Zielsprache.

Wissenschaftlich lsst sich Krashens Theorie nicht nachweisen, denn es bleibt unklar,
welcher der beiden angefhrten Prozesse gerade abluft. Obwohl sie unberprfbar ist,
3.3.2 Die Monitor-Theorie kann sie dennoch hilfreich fr den Fremdsprachenunterricht sein, da affektive Faktoren,
Der Begrnder Stephen D. Krashen sieht in dieser Theorie die Mglichkeit die Relation wie die Lernermotivationen, eine Hauptrolle spielen (Kohn 1990:18ff.). Die Krashen-
zwischen ungesteuertem und gesteuertem Spracherwerb zu definieren. Krashen Theorie basiert auf der Annahme, dass der Zweit- bzw. Fremdspracherwerb bewusst vom
untersuchte hauptschlich erwachsene Lerner, die seiner Meinung nach ber zwei Lerner beeinflussbar ist. In der Literatur ist diese Annahme aber bislang nicht validiert
verschiedene Systeme verfgen, um eine Sprache zu erlernen: den unbewussten worden. Im Zusammenhang der vorliegenden Arbeit ist diese definierte Theorie in erster
Spracherwerb und das bewusste Sprachlernen. In den Mittelpunkt stellt Krashen das Linie irrelevant, denn die verschiedenen von Krashen benannten User knnten nicht
Erwerbsphnomen, d. h. die unbewussten Prozesse des Lerners. Demnach bedarf es den gleichen Sprachniveaus zugeteilt werden. Der Monitor ist ein latentes
keiner Regelaufstellung. Der bewusste Spracherwerb bentigt den so genannten Kontrollelement, wodurch das Bewusstsein des Spracherwerbs meines Erachtens in Frage
Monitor, mit dessen Hilfe der Lerner sein Wissen abspeichert und bei Bedarf abrufen gestellt werden kann, denn wie Butzkamm (1989:97) definiert ist Bewusstsein kein
kann. In Krashens radikaler und viel diskutierter Theorie gibt es verschiedene Lerntypen, einheitlicher Zustand, der entweder da ist oder nicht.
die den Monitor je nach Notwendigkeit unterschiedlich nutzen (vgl. Krashen 1985).48 Trotzdem ist diese Theorie auf einer anderen Art und Weise fr die vorliegende Arbeit
ntzlich. Die bereits angefhrten Thesen Krashens knnten den Hintergrund fr die hier
im Mittelpunkt stehende Textproduktion und die dafr ntigen Kompetenzen bereit
stellen. Im entsprechenden Abschnitt werde ich Krashens Monitor-Theorie und seine fnf
Thesen mit den Textproduktionsmodellen koppeln.

47 Der Begriff der Kompetenz wird in Kapitel 3.6 definiert


48 http://www.sdkrashen.com/SL_Acquisition_and_Learning/index.html

47 48
3.3.3 Identittshypothese Der Lerner bernimmt Regeln, Muster und Gewohnheiten aus der Erstsprache und
bertrgt sie auf die Zweitsprache. (language transfer)
Noam Chomskys Theorie, jeder Mensch habe einen angeborenen
Spracherwerbsmechanismus, ist der Wechsel von den behaviorististischen zu den Der Lerner wendet bestimmte falsche Strukturen an, die durch ungeeignete
kognitiven Spracherwerbstheorien. Demnach spielt es keinerlei Rolle, ob ein Lerner Lernmaterialien oder anderen Regelbildungen entstehen. (transfer of training)
Sprachkenntnisse hat, denn sowohl bei der Erst- als auch bei der Zielsprache handelt es Der Lerner entwickelt eigenstndig Regeln und Strategien, die er berprft,
sich um die gleichen grammatikalischen universalen Strukturen, die der Mensch als besttigt oder gar revidiert. (strategies of second language learning)
genetische Information mitbringt. Folglich ist der Ablauf jedes Spracherwerbs nach dem
gleichen Muster aufgebaut (Kupfer-Schreiner 1994:40). Corder (1967) spricht in diesem Der Lerner versucht seine unzulnglichen und nicht ausreichenden
Zusammenhang von einem eingebauten Lehrplan, welcher den Lerner dabei Sprachkenntnisse in einer bestimmten Kommunikationssituation durch Strategien
untersttzt, Hypothesen ber das Regelwerk der Zielsprache zu bilden. Die Regeln und zu kompensieren. Dabei geht es nicht um die perfekte Beherrschung
Elemente aus syntaktischer und morphologischer Perspektive werden also durch einen grammatikalischer Strukturen, sondern um die ausschlielich verstndliche
aktivierten angeborenen mentalen Prozess sowohl in der Erst- als auch in der Zielsprache Kommunikationsfhigkeit. (strategies of second language communication)
gleichermaen erworben. Die Erstsprache hat laut dieser Theorie keinerlei Einfluss auf Der Lerner wendet erworbene Regeln auch auf Ebenen an, fr die sie nach
das Erwerben einer weiteren Sprache. Obwohl verschiedene empirische Studien hnliche zielsprachlichen Normen nicht gltig sind. (overgeneralisation of target language
Entwicklungssequenzen im syntaktischen Regelerwerb aufgewiesen haben49, lsst sich material)
diese Theorie trotzdem nicht validieren, da der vllige Ausschluss der Erstsprache nicht
bewiesen werden kann.50 Der Erwerbsprozess verschiedener Strukturen, z. B. der Plural
oder die Negation, erfolgt zu einem Teil aus einer Variation beider Sprachformen (Klein Entscheidend ist hier der Begriff der ,,Fossilierung". Ist der Lerner nach Kohn
1984:36ff.). An dieser Stelle kann der Aspekt der kognitiven und sozialen Entwicklung (1990:13) der Ansicht, er beherrsche die Sprache ausreichend, da er im Stande ist gut
angesprochen werden. Jemand, der eine Zweitsprache erlernt, kennt gem seiner zu kommunizieren, vernachlssigt er es, Fehler zu korrigieren und fllt dadurch oftmals
kognitiven Entwicklung (Piaget) in aller Regel die semantischen Konzepte von Wrtern in ein frheres Stadium seiner Interlanguage (so genanntes back-sliding). Nach Klein
bereits von seinem Erstspracherwerb. In diesem Sinne werden diese, in verkrzter Form (1984:40) beruhen Interlanguages bzw. Lernersprachen auf einer zweifachen
ausgedrckt, auf die Zielsprache bertragen. Ginge man in der Tat von universalen Systematik. Jede einzelne Lernersprache besitzt eine innere Systematik, auch wenn sie
Strukturen aus, so wre die Diskussion bezglich der zu erwerbenden und notwendigen von vielen instabilen Komponenten geprgt sein kann.
Kompetenzen im Fremdsprachenbereich nicht gegeben. In der in dieser Arbeit im Die Interlanguage-Theorie rumt dem Lerner ein, in bestimmten Phasen seines
Mittelpunkt stehenden schriftlich produktiven Lernerkompetenz gbe es demnach keinen
Spracherwerbs Fehler zu machen und Zwischensprachen zu benutzen. Ziel bleibt hier
Unterschied zur Primrsprache. Auf diesem Argument basierend kann diese Theorie nicht
dennoch die Perfektionierung der Zielsprache. Der gesamte Spracherwerb ist im Prinzip
vertreten werden.
nichts Anderes als eine Reihe von bergngen von einer Lernersprache zur nchsten.
Diese Abfolge definiert demnach die Systematik, der eine Lernersprache zugrunde liegen
kann. Lernersprachen sollten nicht als fehlerbehaftete Formen der Zielsprache angesehen
3.3.4 Interlanguage-Hypothese werden. Sie sind ein eigenes Ausdruckssystem. Die Variabilitt, Dynamik und
Durchlssigkeit fr Regeln und Strategien ermglichen die stufenweise Annherung an
Ein differenzierteres Modell des Zweitspracherwerbsprozesses ist die ,Interlanguage-
die Zielsprache (Apeltauer 1987:34).
Hypothese. Man geht davon aus, dass der Lerner beim Erwerb einer zweiten Sprache ein
spezifisches Sprachsystem, die so genannte Interlanguage entwickelt. Dieses
Sprachkonstrukt setzt sich aus Merkmalen und Strukturen zusammen, die sowohl
Rekonstruktionen beider Sprachen (Erst- und Zielsprache) aber auch eigene unabhngige
Assoziationen eines Lerners beinhalten. Diese Hypothese macht als erste den Versuch,
auch sozialpsychologische Faktoren einzubeziehen (Bausch/Kasper 1979:15ff.).

Larry Selinker (1972), der den Begriff dieser Hypothese entscheidend geprgt hat,
betont die Regelhaftigkeit des Zweitspracherwerbs und kann systematisch erscheinende
Fehler erklren, indem er die Charakterisierung der ,,Interlanguages" bzw. spezifischer
Lernersprachen durch fnf verschiedene psycholinguistische Prozesse bestimmt sieht
(Bausch/Kasper 1979:23ff.):

49 Verschiedene empirische Studien mit dem Ziel verschiedene Lernergruppen gegenberzustellen versuchten die
Identittshypothese zu validieren (vgl. Dulay/Burt 1974)
50 Im Weiteren wird dieses durch die Resultate empirischer Studien mittels introspektiver Verfahren deutlich werden, z. B. bei
Krings (1986)

49 50
(...)Der ganze Mensch lernt- mit allen Befindlichkeiten Bedingungen seines Krpers,
seiner Gefhle, seiner intellektuellen Zurstung, seiner sozialen Situation, mit allen darin
aufgeschichteten Lebenserfahrungen und daraus abgeleiteten Lebenserwartungen.

Die Zweitspracherwerbsforschung und die Sprachlehr- und Sprachlernforschung sollten


Fazit sich mehr aufeinander abstimmen. Erstere sollte sich mehr mit der Praxis hinsichtlich des
All diese globalen Erklrungsanstze stimmen darin berein, dass es sich beim Zweit- gesteuerten Fremdspracherwerbs beschftigen, um dann letzterer die Basis zu liefern,
bzw. Fremdspracherwerb um einen komplexen Vorgang handelt. Der Lerner stellt eigene sich mehr im Bereich des Sprachlernens im In- und Ausland samt diversester gesteuerter
Hypothesen ber die zu erlernende Sprache auf, die er dann besttigen oder revidieren bzw. ungesteuerter sozial bedingter Mischformen zu bewegen. Testerstellungen und
muss (Merten 1997:78ff.). Klein (1984:49) verweist darauf, dass Menschen einen Konzeptionen hinsichtlich von Sprachkompetenz sollten die verschiedenen Dimensionen
Sprachverarbeiter besitzen, sodass Sprachproduktion und Sprachverstehen an das der Zweitspracherwerbsforschung bercksichtigen, um einen geeigneten Rahmen zu
jeweils zu verarbeitende Material angepasst werden kann. Trotzdem bleiben bei diesen bilden. Der GER spricht im Sinne Hllens (1983) lediglich von einem
Hypothesen die sprachliche und soziale Realitt eines Lerners vllig unbercksichtigt. Im handlungsorientierten Ansatz und sieht den Sprachenlerner als sozialen Akteur
Mittelpunkt stehen die Sprache und deren Erwerbsprozess. Die innerhalb des europaweiten Kontinuums. Die Frage des Anspruches in Sprachtests, die
Zweitspracherwerbsforschung sollte sich demnach mit allen fr das Lernen wichtigen auf dem GER beruhen, beantwortet meines Erachtens nicht die Frage der Sprachnorm.
Faktoren (linguistische, soziale, entwicklungspsychologische Aspekte) befassen. Jede Zwar werden Kann-Beschreibungen definiert und teilweise empirisch skaliert, aber
Theorie des Zweitspracherwerbs versucht, die bekannte Tatsache zu erklren, warum der dennoch bleibt es zu klren, ob Spracherwerbsprobleme oder auch regeln bercksichtigt
Erwerb einer zweiten oder auch dritten Sprache in den meisten Fllen weit vor dem worden sind, um bestimmte Kompetenzen vorauszusetzen und zu definieren. Es muss
Niveau stehen bleibt, dass Kinder beim Erwerb ihrer Muttersprache erreichen. Zur zunchst und erstrangig der Frage nachgegangen werden, was jede Kompetenz impliziert
Beantwortung dieser Frage ist es zuallererst notwendig, viele Erwerbsprozesse und worin sie bestehen soll.
aufzuzeichnen, zu analysieren, um die wirksamen Faktoren im Erwerbsprozess zu finden Die im Vorfeld vorgestellten wichtigsten Hypothesen zum Zweitspracherwerb knnen in
und Vorschlge fr die Zweitsprachvermittlung formulieren zu knnen. Auch wenn in der dieser Sache nicht alle Anwendung finden. Die grundlegendste Theorie bezglich des
zurckliegenden Zeit wichtige Erkenntnisse zum Zweitspracherwerb gewonnen wurden, Fremdspracherwerbs im Sinne dieser Arbeit scheint zunchst die Interlanguage-
kann die oben gestellte Frage noch nicht zufrieden stellend beantwortet werden. Hypothese zu sein, da die wichtigste Norm bei dieser hierbei das zielsprachige Input ist
Betrachtet man den Zweitspracherwerb unter systematischen Gesichtspunkten, kann (Blommaert/Lutjeharms 2003:126). Unsicherheiten (oder grammatische Fehler, die der
man die kaum berschaubare Vielzahl an Faktoren auf einige wenige eingrenzen. Im Korrektheit der Zielsprachennorm nicht gengen) auf einem Niveau der Interlanguage
Kern geht es um folgende Gren, die im Zweitspracherwerb eine wichtige Rolle spielen: knnen Aufschluss darber geben, in welchem Mae der Lerner bereits mit der
zunchst das Verhltnis schon erworbener Sprachen zu der zu lernenden, sodann die zielsprachlichen Norm vertraut ist oder nicht (Kohn 1990:31, 50). hnlichkeiten zur
Zweitsprache als Lernobjekt mit ihren Strukturen und Regeln, weiterhin die biologischen Funktion von Interlanguages sind meines Erachtens auch in den Kann-Beschreibungen
Grundlagen und die psychischen Mechanismen und Strategien im Erwerbsprozess sowie des GER zu finden, wobei die Abstufungen zwischen den Niveaubeschreibungen als
schlielich das sprachliche Handeln der Lernenden in der Kommunikation mit Sprechern Stadien bzw. Interlanguages betrachtet werden knnten. Inwieweit sich diese Assoziation
der Zielsprache. Es drfte weiterhin anerkannt sein, dass diese vier Grundgren den letztlich durch die Benutzung von Kann-Beschreibungen fr die Bewertung schriftlichen
Zweitspracherwerb beeinflussen. Allerdings gibt es wenig bereinstimmung in der Ausdrucks deckt, wird im 5. Kapitel noch ausfhrlich zu sehen sein. Die Monitor-Theorie
Bestimmung ihres Gewichts und der daraus ableitbaren Konsequenzen fr die L2- kann mittels seiner definierten Facetten hilfreich fr das Verstndnis von
Vermittlung. Der Zweitspracherwerbsprozess kann nicht bei allen Lernern gleichermaen Schreibprozessmodellen sein, wie der nchste Abschnitt verdeutlichen wird.
ablaufen, denn verantwortlich und eine tragende Funktion hierbei haben die
divergierenden kognitiven Entwicklungen, sozialpsychologische und affektive Faktoren,
die entweder positiv oder negativ fr den Erwerb der Zielsprache sein knnen (Merten
1997:90ff.).

Zweitspracherwerb ist ein nie endender Prozess, der in einzelnen Schritten abluft. Er
impliziert nicht nur das Erlernen eines fremden Regelsystems. Es ist das anfangs
langsame Herantasten und Hineinfhlen in eine fremde Sprache, Kultur und Gesellschaft.
Wer sich in einer Sprache uern und in einer anderen Sprache verstehen will, muss
zweimal den Bezugsrahmen wechseln: den kulturellen und den sprachlichen (Steinmller
1995:161ff.).

Nach Hllen (1983:164) wird der Lerner als Ganzes beim Spracherwerb und durch den
Sprachkontakt beeinflusst:

51 52
3.4 Der schriftliche Ausdruck in der Fremdsprache mehrerer Stze zu einem Ganzen begriffen (Linke/Nussbaumer/Portmann-Tselikas
2004:215). Um zu diesem Schluss zu kommen, wird das Augenmerk insofern auf die
Frhere Fremdsprachenmethodenkonzepte rechneten die Fertigkeit des Schreibens lange
systematischen Bezge zwischen den Stzen gerichtet, dass unterschiedliche Formen
Zeit zur vierten und damit neben Leseverstehen, Mndlichem Ausdruck und Hrverstehen
grammatischer Verknpfungen und Bezug schaffende sprachliche bzw.
zur letzten (Teil)Kompetenz (Krings 1989:377ff.). Im Laufe der Zeit stieg aber das
kohsionsstiftende Mittel in den Mittelpunkt rcken. In der fortlaufenden Entwicklung und
Interesse an der Schreibforschung, und damit rckte die Fertigkeit Schreiben sowohl in
Umorientierung der Textlinguistik ist man aber noch einen Schritt weiter gegangen, als
der Mutter- als auch in der zu erlernenden Fremdsprache in den Mittelpunkt.
dass man Text nicht mehr als eine systematisch verbundene Satzmenge betrachtet,
Seit den 70er Jahren verfolgt die sich etablierte und weiter etablierende Schreibdidaktik sondern als eine eigenstndige Gre, die ihren eigenen Organisationsprinzipien
hauptschlich das Produkt des Schreibens, d. h. sie untersucht die Qualitten von verpflichtet ist und von der ausgehend der Satz als Textbaustein betrachtet werden
Lernerproduktionen. Die Schreibforschung ist im Gegensatz zur Schreibdidaktik bemht, kann (Linke/Nussbaumer/Portmann-Tselikas 2004:224). Ein Text ist in diesem Sinne die
durch empirische Untersuchungen und Schreibprozessmodelle den mentalen Prozessen oberste Organisationsform innerhalb einer kommunikativen Situation, sofern eine
whrend der Textproduktion und weiteren Einflussfaktoren auf den Grund zu gehen kommunikative Funktion zugesprochen werden kann. Im Sinne dieser Definition werden
(Molitor-Lbbert 1989:278ff.). Anfang der 80er Jahre machte sich ein Interesse Kriterien zur Texthaftigkeit bentigt, die weniger an der linearen Verknpfung von
hinsichtlich der Thematik Sprach- und Textproduktion sowohl in der Mutter- als auch in Element zu Element orientiert sind als vielmehr am Textganzen als einer komplex
der Fremdsprachenlehrforschung bemerkbar (Antos/Krings 1989:3ff.). Crystal strukturierten und sowohl thematisch als auch konzeptuell zusammenhngenden
(1987:180) merkt an dieser Stelle bezglich der Auseinandersetzung schriftlichen sprachlichen Einheit (Linke/Nussbaumer/Portmann-Tselikas 2004:224). Diese
Ausdrucks an: ganzheitliche Betrachtung eines Textes erfasst zudem die kommunikative Funktion, was
auch im Sinne des handlungsorientierten Ansatzes des GER ist. Die Textdefinition kann
() The analogous study of written language is less advanced, but has just a
also funktional folgendermaen erweitert werden (Linke/Nussbaumer/Portmann-Tselikas
promising future.
2004:245):
Ich werde mich in diesem Teil der Arbeit der fremdsprachlichen Textproduktion
Ein Text ist eine komplex strukturierte, thematisch wie konzeptuell
widmen. Ziel der verstrkt in den Mittelpunkt rckenden fremdschreiblichen Kompetenz
zusammenhngende sprachliche Einheit, mit der ein Sprecher eine sprachliche Handlung
ist es, wie auch in der Muttersprache, etwas auszudrcken oder mitzuteilen. Etwas selbst
mit erkennbarem kommunikativen Sinn vollzieht.
produktiv schriftlich zu verfassen, kann als die komplexeste und die am schwierigsten zu
erlernende sprachliche Teilkompetenz in der Zielsprache bezeichnet werden. Ich definiere Diese Erweiterung des Textbegriffs fhrt zu der Gegenberstellung des Begriffspaars
den schriftlichen Ausdruck in der Zielsprache ganz bewusst als sprachliche Kohsion vs. Kohrenz bzw. analog dazu zu dem linguistischen Modell der
Teilkompetenz, denn meiner Ansicht nach erfordert diese weitere Kompetenzen, die aber Oberflchenstruktur vs. der Texttiefenstruktur. Die Oberflchenstruktur eines Textes wird
eigentlich latent zu sein scheinen. Die diversen Kompetenzen sind nach Rost (2004) durch die sprachliche Realisierung von Informationseinheiten definiert, die durch
latente Variablen, die vorhanden sind und die Einfluss auf das beobachtbare Ergebnis kohsionsstiftende Mittel miteinander verknpft sind. Darber hinaus betrachtet man was
haben. Ein bestimmtes Testverhalten wird auf eine oder mehrere latente Variablen unter der Oberflche eines Textes liegt, d. h. die Texttiefenstruktur, welche
zurckgefhrt. Items bzw. Aufgaben werden als manifeste Variablen betrachtet, wobei Informationen der Textoberflche komplex miteinander verbindet. Um im Sinne
die beobachteten Zusammenhnge unter ihnen auf den Einfluss der latenten Variablen vorliegender Dissertation schriftliche Lernerproduktionen verstehen und im Weiteren
zurckzufhren sind (Rost 1996:30). Die Aufgabenformate standardisierter Prfungen bewerten zu knnen, muss definiert werden, ob die Aneinanderreihung von Stzen auf
knnen beispielsweise rezeptivlastig sein, das heit der Arbeitsauftrag muss rezipiert einen zusammenhngenden bzw. kohrenten Text schlieen lsst. Um diese
werden knnen, damit mit der schriftlichen Produktion begonnen werden kann. Die Texttiefenstruktur erschlieen zu knnen, mssen die bereits erwhnte Textoberflche
Problematik einer schriftlichen Lernerproduktion ergibt sich auerdem nicht unbedingt bzw. die lineare Abfolge der Textbausteine, die Textverknpfung und das Einbeziehen
aus der Fhigkeit einer logischen Textgliederung, sondern aus der Erwartung, einen und Aktivieren von allgemeinem auersprachlichen Wissen betrachtet werden. Nach
normgerechten Text in fremder Sprache zu verfassen (Brner 1989:351ff.). Normgerecht Linke/Nussbaumer/Portmann-Tselikas (2004:251) manifestieren sich textinterne
einen Text zu produzieren, heit gem eines allgemein anerkannten Standards zu Kriterien entsprechend an der Textoberflche (Wortschatz, syntaktische Muster) oder an
verfahren. Im vorliegenden Fall gilt es den Standard fr den schriftlichen Ausdruck auf der Texttiefenstruktur (Thema, Textstruktur).
den Niveaus B2/C1 zu bestimmen.
Die Texttiefenstruktur bzw. der Begriff der Kohrenz spielt in den Bewertungskriterien
Es muss aber zunchst definiert werden, was ein Text ist. Es gibt in der Textlinguistik schriftlicher Lernerproduktionen (vgl. Kap. 5) eine entscheidende Rolle. Der GER spricht
verschiedene Anstze, die den Begriff Text definieren, abgrenzen und klassifizieren. in diesem Zusammenhang von Diskurskompetenz, d. h. von der Fhigkeit der
Whrend der sprachsystematische Ansatz die syntaktische Beziehung zwischen Stzen Sprachverwendenden/ Lernenden, eine Satzsequenz so zu arrangieren, dass kohrente
ausdrckt (Brinker 2001:14ff.), ist ein Text im Sinne des kommunikationsorientierten sprachliche Textpassagen entstehen (GER 2001:123). Fr die Textlinguistik spielen fr
Ansatzes funktions- und themenabhngig (Schmidt 1973:150ff.). Diese Anstze den Prozess und die Gewhrleistung der Kohrenz die bereits unter Kapitel 2.2.1 im
konzentrieren sich jeweils auf unterschiedliche Merkmale, schlieen sich dennoch nicht Rahmen des GER definierten auersprachlichen Wissensbestnde eine groe Rolle.
aus. Ein Text wird in der Textlinguistik zunchst als das Produkt aus der Verbindung Zentral ist in diesem Zusammenhang aus textlinguistischer Sicht die Frage, wie konkret

53 54
im schriftlichen Ausdruck Elemente der Textoberflche mit sprachlichem und Der GER benutzt den Textbegriff zur Bezeichnung aller sprachlichen Produkte, die
auersprachlichem Wissen angereichert werden, so dass man von Textkohrenz sprechen Sprachlernende empfangen, produzieren oder austauschen (GER 2001:95). Dabei
kann (Linke/Nussbaumer/Portmann-Tselikas 2004:229). Eine weitere Voraussetzung, werden in Anlehnung daran alle sprachlichen Aktivitten und Prozesse hinsichtlich ihrer
dass eine Reihe von Stzen als kohrent empfunden wird, uert sich im Thema eines kommunikativen Intention und auf den Text bezogen analysiert und taxonomiert (GER
Textes. Dabei geht es um die Handlung eines Textes oder anders ausgedrckt um den 2001:95). Im handlungsorientierten Ansatz des GER heit Text jeder Diskurs (mndlich
Kerngedanken. Da auersprachliche Wissensbestnde wie Welt- oder Handlungswissen oder schriftlich), der sich auf einen bestimmten Lebensbereich bezieht. Texte werden
natrlich auch hier zum Tragen kommen, ist das Thema zunchst keine sprachliche whrend der Ausfhrung einer Aufgabe Anlass fr Sprachaktivitten, indem sie diese
Gre, denn man bezieht sich in erster Linie auf einen bekannten oder unbekannten untersttzen oder sogar als Prozess oder als Produkt Ziel der Aktivitten sind (GER
Sachbereich (Linke/Nussbaumer/Portmann-Tselikas 2004:237). 2001:21). Whrend Texte von Medien getragen werden, definiert die Art und die
Linke/Nussbaumer/Portmann-Tselikas (2004:246, 250) betonen in diesem Struktur ihres Inhalts die verschiedenen Textsorten (GER 2001:96). Die im
Zusammenhang die Wichtigkeit textexterner Faktoren wie zum Beispiel Textfunktion, Zusammenhang dieser Arbeit und im Mittelpunkt stehenden Textsorten dieser Definition,
Trgermedium, Textadressat, Situations- und Kommunikationszusammenhang, sind geschriebene Texte. Fr das B2-Zertifikat des Goethe-Instituts beispielsweise wrde
Beziehung der Kommunikationspartner, geteiltes Weltwissen der Kommunikationspartner die Textsorte im schriftlichen Ausdruck durch einen Leserbrief reprsentiert. Um diese
und Handlungswissen. Sobald ein bestimmter kommunikativer Handlungswert einer Textsorte bearbeiten zu knnen, mssen jedoch bestimmte Regeln und Muster erlernt
sprachlichen uerungen zugeordnet werden kann, kann man dies als kohrent werden. Wie Bearbeitungsanweisungen und Regeln auf die zu bearbeitende Textsorte
empfinden. Anders ausgedrckt kann nicht verhindert werden, dass eine zufllige, nicht Leserbrief in der Ziel- bzw. Fremdsprache umgesetzt und realisiert werden, hngt
als Text intendierte Satzfolge kohrent und damit als Text verstanden wird letztendlich vom Wissen und der Strategieanwendungen der Lerner bzw. der
(Linke/Nussbaumer/Portmann-Tselikas 2004:247). Ein weiteres Kriterium fr Prfungsteilnehmer ab. Nach Hayes/Flower (1980:11) besteht der Schreibprozess folglich
Texthaftigkeit bzw. der Definition eines Textes besteht auch aus dem Umstand, dass eine aus drei konkreten und stabilen Komponenten:
Reihe von Stzen, eine bestimmte Textsorte erkennen lassen
(Linke/Nussbaumer/Portmann-Tselikas 2004:254). Interessant ist auerdem die
funktionale Satzperspektive, wenn es um die Bestimmung eines Themas geht. Die so
genannte satzlinguistische Thema-Rhema-Struktur definiert zum einen, worber etwas Aufgabenumfeld
ausgesagt und zum anderen was ausgesagt wird (Linke/Nussbaumer/Portmann-Tselikas
2004:238). Dieser textlinguistische Ansatz stellt mit anderen Worten die Struktur und die Langzeitgedchtnis des Schlers
Handlung eines Textes dar. Schreibprozess (Planen, Formulieren, berarbeiten)
Eine meines Erachtens integrative Definition im Sinne der Textlinguistik ist die von
Brinker (2001:17), wobei es nicht um die grammatische Aneinanderreihung von
Satzverknpfungen, sondern vielmehr um die Komplexitt einer sprachlichen Handlung
geht: Tabelle 7: Komponenten des Schreibprozesses

Der Terminus Text bezeichnet eine begrenzte Folge von sprachlichen Zeichen, die in
sich kohrent ist und die als Ganzes eine erkennbare kommunikative Funktion Ich werde im Folgenden dieses Modell auf die schriftliche Lernerproduktion im
signalisiert". Fremdsprachenbereich beziehen und stellenweise weiter ausfhren, indem ich es anhand
Andere Autoren versuchen den Textbegriff anhand von Merkmalsausprgungen zu der konkreten Prfungen von Testanbietern im Bereich B2/C1 skizziere.
definieren. Helbig (1986:166) benennt in diesem Sinne fnf Textualittskriterien, um Das Aufgabenumfeld impliziert im Sinne Hayes/Flower (1980) eine auszufhrende
eine Definition bereit zu stellen: Handlung und auf meine Thematik bezogen eine zu bewltigende Aufgabe im
a) Text als Komplex von Stzen (Komplexittskriterium) schriftlichen Ausdruck. Je nach Testanbieter und das zu prfende Niveau (gem des
GER A1-C2) soll ein Aufgabeninput schriftlich bearbeitet werden (vgl. Kap. 5). Es soll also
b) Text als kohrente Folge von Stzen (Kohrenzkriterium)
eine bestimmte Textsorte produziert werden, die den Handlungsrahmen bildet. Das stellt
c) Text als thematische Einheit (thematisches Kriterium) zunchst eine Tatsache dar, wobei meines Erachtens das Schreiben nicht nur als Produkt
sondern auch als Prozess betrachtet werden sollte (in welchem Rahmen). Ob dies
d) Text als relativ abgeschlossene Einheit (Abgeschlossenheitskriterium)
realisiert werden kann, hngt vom zweiten Faktor in dieser Schreibprozesskette ab,
e) Text als Einheit mit erkennbarer kommunikativer Funktion (kommunikatives nmlich vom Langzeitgedchtnis einer Person, die kommunikativ bzw. schreibproduktiv
Kriterium) ttig werden soll. Das Langzeitgedchtnis bewahrt Informationen auf, die unser
Weltwissen bilden, fr den Abruf zu einem spteren Zeitpunkt (Zimbardo 1992:270). Das
zur Aufgabenbewltigung erforderliche Material bzw. Wissen und die entsprechende
Strategie sind mehr oder weniger im Speicher Langzeitgedchtnis vorhanden. Die

55 56
Bearbeitung eines Inputs, worauf eine schriftliche Reaktion folgen soll, erfordert den Schriftliche Produktion allgemein Berichte und Aufstze schreiben
Zugriff auf das im Langzeitgedchtnis mehr oder weniger verfgbare Weltwissen,
C1 Kann klare, gut strukturierte Texte zu Kann klare, gut strukturierte
Textwissen, Sprachwissen und Adressatenwissen. Was das Textwissen beim
komplexen Themen verfassen und dabei Ausfhrungen zu komplexen Themen
fremdsprachlichen Schreiben anbelangt, so muss man zunchst in Erfahrung bringen, ob
die entscheidenden Punkte hervorheben, schreiben und dabei die
es sich mit dem in der Erstsprache erworbenen deckt und folglich kompatibel sein kann.
Standpunkte ausfhrlich darstellen und entscheidenden Punkte hervorheben.
Es kann nicht grundstzlich vorausgesetzt werden, dass Textsorten und ihre Merkmale
durch Unterpunkte oder geeignete Kann Standpunkte ausfhrlich
universell und kulturunabhngig sind. Diesbezglich hlt es Glck (1988:32) fr mglich,
Beispiele oder Begrndungen sttzen und darstellen und durch Unterpunkte,
dass Textsorten und ihre Ausprgung kulturspezifisch sein knnen. Verfgt ein Lerner
den Text durch einen angemessenen geeignete Beispiele oder
nicht ber das ntige Textwissen, welches Schemata und Textstrukturen beinhaltet, so
Schluss abrunden. Begrndungen sttzen.
kann er nicht mit dem Prozess der schriftlichen Produktion beginnen. Whrend das
Weltwissen ber das Langzeitgedchtnis aktiviert werden kann, kann das Textwissen im B2 Kann klare, detaillierte Texte zu Kann einen Aufsatz oder Bericht
Falle der fehlenden textuellen Kompetenz nicht entsprechend angewendet werden. verschiedenen Themen aus seinem/ihrem schreiben, in dem etwas
Raimes (1987) benennt in diesem Zusammenhang neben fehlenden Interessengebiet verfassen und dabei systematisch errtert wird, wobei
Fremdsprachenkenntnissen auch das fehlende Strategiewissen und das fehlende Wissen Informationen und Argumente aus entscheidende Punkte angemessen
ber die zielsprachlichen Textkonventionen. Im kommunikativen Kompetenzmodell von verschiedenen Quellen zusammenfhren hervorgehoben und sttzende Details
Bachman/Palmer (1996:67ff.) besteht Sprachfhigkeit aus sprachlichem Wissen und und gegeneinander abwgen. angefhrt werden. Kann
strategischer Kompetenz. Whrend sprachliches Wissen aus strukturellem und verschiedene Ideen oder
pragmatischem Wissen besteht, soll die strategische Kompetenz aufzeigen, ob Problemlsungen gegeneinander
Sprachwissen in der Kommunikation angewandt werden kann (vgl. Faerch/Kasper 1983). abwgen
Textwissen gehrt hierbei zum strukturellen Wissen. Die Frage, die sich im Rahmen
Kann in einem Aufsatz oder Bericht
dieser Dissertation insgesamt und speziell hinsichtlich der schriftlichen Lernerproduktion
etwas errtern, dabei Grnde fr
stellt, ist, inwiefern das Wissen und dessen Anwendung bei zielsprachlichen
oder gegen einen bestimmten
Textkonventionen Aussagen ber die Sprachkompetenz eines Lerners bzw. Prflings
Standpunkt angeben und die Vor-
erlaubt und folglich machen kann und ob dies schlielich normgerecht ist.
und Nachteile verschiedener
Der dritte und in sich untergliederte Aspekt bezieht sich auf den Schreibprozess an Optionen erlutern. Kann
sich. Um diesen abzuschlieen, mssen drei Phasen durchlaufen werden. Dabei wird Informationen und Argumente aus
Rcksicht auf die bereits erwhnten Komponenten genommen. Der Planungsvorgang verschiedenen Quellen
setzt Schreibziele und -inhalte fest. In dieser Planungsphase setzt sich der Schreiber mit zusammenfhren.
der Frage auseinander, was, wie und womit er schreiben soll, wobei sich diese
normativen Aspekte in einer Wechselbeziehung befinden. Der GER definiert diesen dritten
Bereich in der Kette der kommunikativen Aktivitt Schreiben als das Anwenden Tabelle 8: Kann-Beschreibungen fr den schriftlichen Ausdruck auf den Niveaus B2 und C1
metakognitiver Prinzipien (GER 2001:73). Es finden sich im Referenzrahmen empirisch Auch fr den Schreibprozess nach Hayes/Flower (1980) bzw. der Produktionsstrategien
nicht kalibrierte Beispielskalen hinsichtlich der sprachlichen Aktivitt und Strategie fr die Planen, Formulieren, berarbeiten existieren im GER Beispielsskalen, wobei fr die
schriftliche Produktion allgemein und fr das Bericht- und Aufsatzschreiben. Zwecke dieser Arbeit manche irrelevanten Deskriptoren ausgelassen bzw. auf die
Die fr die Niveaus B2/C1 interessanten Deskriptorendefinitionen, die aus anderen kommunikative Aktivitt hin konkretisiert wurden (GER 2001:70):
Skalen zusammen gesetzt wurden, will ich an dieser Stelle kurz anfhren (GER
2001:67ff.):
Planen Kompensieren/Formulieren Kontrolle und
Reparaturen/berarbeiten

C1 Wie B2 Wie B2+ Kann bei


Ausdrucksschwierigkeiten neu
ansetzen und umformulieren,
ohne die uerung ganz
abreien zu lassen.

57 58
B2 Kann planen, was Kann etwas Kann Fehler normalerweise
und wie er/sie paraphrasieren und selbst korrigieren, wenn
etwas umschreiben, um sie/ihm bewusst werden. Kann
ausdrcken will, Wortschatz- und eigene Fehler korrigieren, wenn
und dabei die Grammatiklcken zu sie zu Missverstndnissen
Wirkung auf des berbrcken fhren knnen. Kann sich seine Aufgabenfeld
Adressaten Hauptfehler merken und sich
bercksichtigen bewusst in Bezug auf diese
Fehler kontrollieren.
Standardisierte Prfung
Zeit: 70 Min
Tabelle 9: Produktionsstrategien fr den schriftlichen Ausdruck fr die Niveaus B2 und C1 Hilfsmittel: keine
Motivierung: prfungsbedingt
Aufgabenformat: Vorgabe von
Um einen Leserbrief des Niveaus B2 bezglich eines vorgegebenen Inputs schreiben zu Leitpunkten zu einem Thema, auf
lassen, muss man zunchst den erwnschten Inhalt und die Thematik definieren und die reagiert werden soll
Erfordertes Textvolumen: ca. 180
eingrenzen: Was und wie soll der Lerner schreiben? Das gegebene Aufgabenfeld setzt der
Wrter
Lerner bzw. Prfling insofern um, indem er sich auf der nchsten Ebene bewegend, Textsorte: Leserbrief
Gedanken ber die erforderlichen sprachlichen Mittel macht und durch die entsprechende Ziel: adressatengerechter
schriftliche Produktion die Frage des womit soll der Lerner schreiben? beantwortet. 51 schriftlicher Ausdruck
Sind die Phasen der Planung und des Formulierens abgeschlossen, dann wird der
Schreibprozess mit der berarbeitungsphase abgerundet. Hierbei soll nun berdacht
Wissen
werden, ob die Schreibziele und die zu erfllenden Bedingungen erreicht wurden.

Nach Feilke (1993a:17) ist das Erreichen der textuellen Handlungskompetenz ein Zum Thema
ber die erforderliche / anzuwendende Textsorte
langwieriger Aneignungsprozess. Ziel des Schreibens und seiner fortlaufenden
L2 Wissen
Entwicklung ist, dass der geschriebene Text in diesem Sinn als Produkt eines Primrsprachliches Wissen
problemorientierten und problemlsenden Schreibprozesses, in dem die SchreiberInnen Kommunikations- und Planstrategien
ihre subjektive Involviertheit

die sachliche Komplexitt des Themas Planen Formulieren berarbeiten


die formale Homogenitt ihres Textes und
Aktivierung des Verschriftlichung des Plans Kontrolle bezglich der
die antizipierten Erwartungen eines Adressaten Wissens unter Erfllung der Schreibziele
Bercksichtigung des
unter einen Hut bringen mssen () (Feilke 1993a:23) 52
Aufgabenfeldes
Textuelle Handlungskompetenz ist wie im kommunikativen Kompetenzmodell von
Bachman/Palmer (1996) auch nach Feilke (1993a) ziel-, situations- und
adressatenspezifisch und involviert sowohl Wissen als auch Strategieanwendungen. Das
Schreibprozessmodell von Hayes/Flower (1980) habe ich fr die Zwecke vorliegender
Dissertation speziell in Form einer Pyramide den konkreten Prfungen angepasst. Das Monitor (Mit L1- Einfluss)
heit, dass der Schreibprozess fr die Bearbeitung der Aufgabe des schriftlichen
Ausdrucks im B2-Zertifikat des Goethe-Instituts (Leserbrief) in diesem Sinne
folgendermaen von Statten geht:
Tabelle 10: Das Schreibprozessmodell von Hayes/Flower (1980) am Beispiel des schriftlichen
Ausdrucks des Niveaus B2 in Form einer Pyramide

51 Nach Hayes/Flower (1980) heit dieser Prozess Translating


52 Hervorhebungen im Original

59 60
In dem von mir erweiterten Schreibprozessmodell von Hayes/Flower (1980) hinsichtlich Teile aus Krings erstelltem Fragenkatalog fr das Ergrnden der fremdsprachlichen
der einzelnen Prfungen, die in dieser Arbeit behandelt werden, sollten alle Komponenten Textproduktionsprozesse werden an dieser Stelle herangezogen und teilweise fr das Ziel
einer standardisierten Prfung hinsichtlich des Schreibprozesses eingeflochten werden. dieser Arbeit, die Bewertungskriterien von Lerner(text)produktionen nach ihrer Validitt
Dabei habe ich beim Aufgabenfeld smtliche Daten und Gegebenheiten, die ein Prfling zu beurteilen, erweitert (Krings 1989:380). Ich habe hierbei die Ursachen und die
bei der jeweiligen Prfung zu beachten hat, eingebracht. Dem Prfling muss also in Probleme bei Textproduktionsproblemen in interne, d. h. den Prfling betreffend, und
diesem ersten Schritt bewusst sein, um was es in diesem Prfungsteil geht und welchen externe, d.h. von auen hervorgerufene Faktoren, eingeteilt:
konkreten Gegebenheiten er ausgesetzt ist. Dabei spielen sowohl Zeit,
Textsortenbewusstsein und der Zweck der Prfung insgesamt eine Rolle. In der nchsten
Kategorie sind dann explizit die erforderlichen Wissensbestnde angefhrt, die zur Interne Ursachen und Probleme Externe Ursachen und Probleme
Bewltigung der gestellten Aufgabe bentigt werden, um schlielich den Schreibprozess Wie geht ein Lerner bei der Bearbeitung Welche sprachlichen oder
zu planen, zu formulieren und zu berarbeiten. Der Einfluss des Monitors wird im GER als bzw. Produktion der ihm gestellten nichtsprachlichen Probleme knnen
strategische Komponente betrachtet, die dafr zustndig ist, die mentalen Aktivitten schriftlichen Aufgabe vor? auftreten?
und Kompetenzen (...) fortlaufend zu aktualisieren (GER 2001:95). Es stellt sich
demnach erneut die Frage, in welchem Ma welche Kompetenzen erwartet und
vorausgesetzt werden, um die kommunikative Aufgabe des schriftlichen Ausdrucks zu Gibt es Lernerstrategien? Wenn ja Welche Textsorten werden
bewltigen. Daher betont der GER die zentrale Rolle der inhaltlichen Ebene, whrend welche? vorausgesetzt?
Lerner ihre kommunikativen Intentionen realisieren (GER 2001:154). Wichtig ist
diesbezglich also, aufgrund welcher Faktoren die Textproduktion vom Lerner ausgefhrt
werden kann (vgl. erweitertes Schreibprozessmodell in Form einer Pyramide). Welche Rolle spielen primrsprachliche Welche Gemeinsamkeiten und
Kenntnisse bezglich der Teildisziplin Unterschiede gibt es zwischen freier
Zu einer der ersten durchgefhrten empirischen Untersuchungen hinsichtlich der
Schreiben? fremdsprachlicher Textproduktion und
Textproduktion im Fremdsprachenbereich gehren die von Krings (1986). Dabei wurde
verschiedenen gebundenen Typologien
auf das introspektive Verfahren des Lauten Denkens zurckgegriffen, welches es
des Schreibens?
erlaubt, Sprachverwendungs- und Sprachproduktionsprozesse insbesondere schriftlicher
Art nachzuzeichnen und zu verstehen.53 Hierbei sollten die Testpersonen jegliche Wie interagieren sprachliche und Wie beeinflussen unterschiedliche
Gedanken whrend der Bearbeitung einer Vorlage ungebundener bzw. freier nichtsprachliche Wissensbestnde im Aufgabentypologien den schriftlichen
Schreibaufgabe in der Fremdsprache verbalisieren, die dann anhand der angefertigten Prozess der Textproduktion? Ausdruck in der Fremdsprache?
Transkriptionen analysiert wurden, um der Frage nher zu kommen, was in den Kpfen
Welche intra-individuellen und inter- Gibt es eine Beziehung zwischen
der Lerner einer Fremdsprache im Allgemeinen und insbesondere whrend einer
individuellen Unterschiede Textproduktionsprozess und dem
schriftlichen Textproduktion vor sich geht (Krings 1989:394ff). Die Versuchspersonen,
kennzeichnen in der Textproduktion daraus resultierenden Produkt?
die an der ersten Pilot-Untersuchung teilnahmen, waren Franzsischstudenten im
den Lerner (Alter, Kompetenzgrad der
Hauptstudium der Universitt Bochum, die auch Erfahrungen mit dem Land der
Fremdsprache, vertraute
Zielsprache hatten. Ihre Aufgabe bestand darin, auf einen franzsischen Anzeigetext in
Aufgabentypologie, Anwendung von
Form einer Bewerbung um die Anstellung als Au-pair zu schriftlich zu reagieren. Die
Strategien, etc.)?
zweite Pilotuntersuchung bestand darin, Bildergeschichten schriftlich nachzuerzhlen.
Ausgewhlt wurden hierzu Sprachstudenten verschiedener Muttersprachen (fnf Wie sollte unter Bercksichtigung aller
deutsche, zwei spanische, ein franzsischer und ein italienischer Muttersprachler), die Faktoren ein Fremdsprachenunterricht
sich im Hauptstudium der Universitt Bochum befanden. aufgebaut sein?

Im Zusammenhang mit der vorliegenden Dissertation ist es wichtig, das Profil und das
sprachliche Niveau der Versuchspersonen zu klren, damit die Ergebnisse dieser Tabelle 11: Interne und externe Textproduktionsprobleme
empirischen Untersuchungen auf die Referenzniveaus B2 und C1 bertragen werden
knnen. Da der GER zum Zeitpunkt dieser Untersuchung noch nicht definiert war, kann
ich an dieser Stelle lediglich davon ausgehen, dass sich das Sprachniveau der Man knnte einen derartigen Fragenkatalog je nach Intention und Zielsetzung
Versuchspersonen mit den Schwellenniveaus B2 und C1 decken kann. Ein Indiz dafr ist komprimieren oder auch erweitern. Fr den Rahmen dieser Arbeit sind an dieser Stelle
der Aufgabentyp Bewerbungsschreiben, der in der ersten Pilotstudie angewandt wurde, die grundlegendsten berlegungen und Fragestellungen hinsichtlich des Prozesses und
welcher als Textsorte gerade in diesen Bereichen des GER prsent ist. schlielich des Testens und Bewertens schriftlicher Lernerproduktionen ausgewhlt
worden, um diese im zentralen Kapitel 5 zur Diskussion zu stellen. Dabei finden sich
Parallelen zu dem erweiterten Schreibprozessmodell wieder, die Krings unter anderem
53 Anmerkung: Als Hilfsmittel wurden ein- und zweisprachige Wrterbcher und eine einzige Grammatik zugelassen. anhand seiner empirischen Forschungsarbeit teilweise durch seine Ergebnisse

61 62
beantworten und belegen konnte. Die Frage nach der Existenz sprachlicher oder In Krings empirischer Forschung kristallisierte sich weiterhin die Frage heraus,
nichtsprachlicher Probleme lie sich durch die hauptschliche Hufung in der Zielsprache inwiefern die Muttersprache den fremdsprachlichen Textproduktionsprozess mitsteuert
beantworten, wo bestimmte semantische Einheiten im Gegensatz zur Erstsprache nicht bzw. lenkt. 40,6 % der Planrealisierungen, d. h. wie eine schriftliche Aufgabenstellung
aktiviert werden konnten. Der Mangel an spontanen fremdsprachlichen angegangen wird, vollzogen sich in der Muttersprache. Muttersprachliche
Konzeptualisierungen wirkt sich aufgrund der muttersprachlichen Blockierung (Krings Versprachlichungen sind demnach als automatisiert zu betrachten und finden sich
1989:415ff) mit 44% auf den Bereich der Textproduktion aus. Somit kann davon wiederholt auf den Gebieten des Wortschatzes oder der Syntax im Prozess der
ausgegangen werden, dass die Koppelung muttersprachlicher und fremdsprachlicher fremdsprachlichen Textproduktion wieder. In diesem Fall wird das in der Muttersprache
Prozesse zusammenhngt (vgl. Portmann 1991). Im Fall der schriftlichen Textproduktion erstellte sprachliche Teilkonstrukt in die Fremdsprache transferiert und mit weiteren
bedeutet dies, dass sich der Prozess der Textplanung sowohl auf der muttersprachlichen fremdsprachlichen Elementen angereichert. An dieser Stelle sollte die Problematik des
als auch auf der zielsprachlichen Ebene vollzieht (vgl. Brner 1987). Im Sinne des bereits von Selinker (1972) definierten Interferenzbegriffes angesprochen werden, wobei
angefhrten Schreibprozessmodells von Hayes/Flower (1980) bezieht sich diese zunchst in der Muttersprache konstruiert wird, dann in die Zielsprache bertragen und
Feststellung auf die Planung des Schreibprozesses. Ebenfalls wurde in dieser empirischen dieses gegebenenfalls noch mit zielsprachlichen Elementen angereichert wird.
Studie nachgewiesen, dass spontane Assoziationen in der Muttersprache statt finden (vgl.
In der Auswertung dieses empirischen Projekts beobachtet man eine mehr oder
Jones/Tetro 1987). Da man den quivalenten Ausdruck oder Begriff in der Zielsprache
weniger starke Koppelung von Textproduktionsplanungsprozessen sowohl in der Mutter-
nicht kennt, bedient man sich eines Wrterbuchs.54 Die mehrfachen Vermerke darin
als auch in der Zielsprache, jedoch sind die muttersprachlichen Einflsse in diesen
lassen aber nicht auf die korrekte Verwendungsform im bestimmten Kontext schlieen
ausgewerteten Daten in fast jeder fremdsprachlichen Planung zu verzeichnen. Probleme,
(es knnte sich z. B. um eine Redewendung handeln, die nicht einfach transferiert
wie z. B. Verbalisierungen, die in der fremdsprachlichen Textproduktion zu finden sind,
werden kann). Weitere Probleme (40%), die sich in der Fremdsprache uern, decken
knnen im gleichen Prozess der Muttersprache nicht erkannt werden. Demnach ist bereits
die Palette der Orthografie, des Plurals, des Genussystems, des Tempus, des Modus und
ein Unterschied zwischen Erstsprache und Zielsprache im Hinblick auf den
der Syntax ab, um die wichtigsten zu nennen. Bei der Beantwortung der
Textproduktionsprozess definiert. Auerdem luft der Textproduktionsprozess in der
sprachproblematischen Frage stellt sich zudem deutlich heraus, dass lexikosemantische
Muttersprache in einer viel hheren Geschwindigkeit als jener in der Fremdsprache ab.
Probleme so prgnant sind, dass man darauf schlieen kann, dass das so genannte
Das fhrt zur Annahme, dass im schriftlichen Ausdruck der Muttersprache kaum eine
Bedeutungslernen keinerlei Platz im Fremdspracherwerb zu haben scheint (vgl.
Alternativplanung zu beobachten ist. Cummins (1994) fhrte eine Studie durch, indem
Levenston 1979).
sie Vergleiche im Schreibverhalten erfahrener und nicht erfahrener Schreiber in der
Durch die verschiedenen Ausprgungen der Kompetenz im schriftlichen Ausdruck Fremdsprache anstellte. Dabei kam sie zu der Schlussfolgerung, dass Schreibfhigkeit,
konnten weiterfhrend sowohl die Lernerstrategien zur Bearbeitung der gestellten die so genannte writing expertise, und das Niveau der Zielsprache unterschiedliche
Aufgabe erkannt, als auch die Aufgabenschwierigkeit durch die Problemkonzentration Wissensaspekte ausmachen.
indiziert werden. Als wichtigste Lernerstrategie stellte sich in vielerlei Hinsicht die
Muttersprache als Steuerungselement bzw. als Einsatzstrategie heraus. Angenommen,
ein Lerner sucht z. B. nach einer entsprechend des Kontextes notwendigen
Versprachlichung. Bentzte er in diesem Fall ein Wrterbuch, so wre es nach Krings
(1989:420ff.) nicht mglich, dass die gefundenen Sprachverweise realisiert werden
knnten, da ihre Funktion in einem gegebenen Sprachkonstrukt unbekannt wren
(Vermeidungsstrategie). Man wrde demnach strategisch auf die Muttersprache
zurckgreifen, in der der quivalente Ausdruckskomplex prsent ist. Ist die bertragung
dennoch nicht realisierbar, wird die muttersprachliche Version dermaen umstrukturiert,
so dass die Struktur leichter in die Fremdsprache zu transferieren ist.
Vermeidungsstrategien wie jene im angefhrten Beispiel gibt es nach Varadi (1983:65ff.)
in einer schwcheren und strkeren Form. Das so genannte message adjustement ist die
Abschwchung des message abandonment. Ersteres veranlasst den Lerner dazu, seine
Ausdrucksintention zu verndern und sie schlielich seiner Ausdruckskompetenz
anzupassen, statt die Sprachmittel auf seine Ausdrucksintention abzustimmen. Die starke
Version einer Vermeidungsstrategie impliziert die vllige Aufgabe der uerungsintention
des Lerners, da die Ressourcen nicht ausreichen, um die fremdsprachliche Verbalisierung
zu realisieren.

54 Bercksichtigt man die Ergebnisse dieser empirischen Studie, in der der Wrterbuchgebrauch gestattet war, dann stellt sich
die ganz groe Frage, wie Lerner in der Prfungssituation ohne Hilfsmittel Texte produzieren. Im Sinne Hayes/Flower (1980)
ist in diesem Fall das Langzeitgedchtnis das einzige Hilfsmittel, um einen schriftlichen Text zu produzieren.

63 64
3.5 Feststellungen und Beobachtungen fr die Praxis adquat benutzt werden kann. Hinzu kommt der Faktor, dass jeglicher fremdsprachliche
Wortschatz abrufbar sein muss, um diesen mit Hilfe grammatischer und syntaktischer
Schriftliche bungen, Tests oder Prfungen gehren zum Alltag des Fremdspracherwerbs.
Abstraktionen in ein Textgeflecht umzuwandeln (Brner 1989:359). Es muss an dieser
Welche Bedingungen, Ziele, Normen oder auch Formen des Schreibens in der Zielsprache
Stelle aber die berlegung angestellt werden, was passiert, sobald der Lerner weder
sind hierbei gegeben? Wie erstellt ein Lerner einen Text in der jeweils erwarteten Form?
Sach- bzw. Strategiewissen aus dem Langzeitgedchtnis noch Elemente aus dem
In dieser Arbeit geht es erstrangig um kriteriumsorientierte Sprachprfungen von
Fremdsprachenregister bzw. seinem Lexikon abrufen kann (Antos 1989:22). Von
verschiedenen Testanbietern im Bereich Deutsch als Fremdsprache. Bedenkt man, dass
Interesse ist auch die Variante, bei der das sprachliche Wissen stark defizitr ist und
in der Regel das Erlernen der 1. Fremdsprache im Durchschnitt im Alter von 10 Jahren
mithilfe von Welt- und Strategiewissen ausgeglichen wird. Dann stellt sich natrlich die
beginnt (Brner 1989:351), dann muss man der Frage nachgehen, inwiefern die
Frage danach, was gemessen wird und in welchem Umfang das Welt-, Hintergrund und
kognitive Entwicklung und Reife des Lerners dem Anspruch der fremdsprachlichen
Fachwissen schlielich die Schreibkompetenz beeinflussen. Auf die Lesekompetenz
Textproduktion insbesondere von Sprachzertifizierungsprfungen gengen soll. Folglich
bezogen behauptet Clapham (1996, 2000) im Rahmen ihrer doppelten
mssen diejenigen Textformen behandelt oder auch erwartet werden, die der
Schwellenhypothese, dass das Welt-, Hintergrund und Fachwissen bei einem mittleren
entsprechenden kognitiven Entwicklung analog sind. Standardisierte Sprachprfungen
Sprachniveau nachhaltig das Testergebnis beeinflussen (vgl. Clapham 1996, Clapham
neigen oft dazu, die von der Prfungsordnung vorgesehene Altersbegrenzung
2000).
herunterzusetzen. Das war bis zum Herbst 2008 z. B. bei Prfungen des Goethe-Instituts
der Fall, die das Mindestalter fr die Niveaustufen B1-C1 laut offizieller Prfungsordnung Bachman/Palmer (1996:60ff.) differenzieren in ihrem interaktiven
auf 16 Jahre festsetzten. Dem entgegen war das Mindestalter fr diese Prfungen in Kommunikationsmodell zwischen Merkmalen innerhalb und auerhalb einer Testsituation.
Griechenland, um ein prgnantes Beispiel zu nennen, mit einem Sonderstatus versehen. In einer Sprachprfung bekommt der Prfling einen sprachlichen Input. Demnach knnte
Hier bekamen bereits Jugendliche zwischen 13 und 15 Jahren Zulassungen fr die bereits im Unterricht bungsmaterial mit sprachlichen Inputs und Vorgaben bereit
ursprnglich fr Erwachsene konzipierten Prfungen. gestellt werden (vgl. Nation (2001) /Lschmann (1992)). Aus methodisch-didaktischer
Sicht knnten Lerner dadurch ihr Sprachwissen aufbauen. Es gilt hier aber die
Wie etwas in der Fremdsprache zu Papier gebracht werden soll, ist viel komplexer als
Testsituation von der Unterrichtssituation abzugrenzen. Die Reaktion auf einen
in der Muttersprache. Die Kognition und das Weltbild eines Lerners mag sehr breit
sprachlichen Input mag mithilfe der momentanen Interlanguage eines Lerners oder des
gefchert sein, aber die mangelnde sprachliche Ausdrucksfhigkeit hemmt den
bernehmens einzelner referierter Sachverhalte des Inputs realisiert werden. Zu klren
reibungslosen Prozess des Schreibens (Brner 1989:353). Als erstes stellt sich die Frage
bleibt aber, wie dann latente Fehler, die auf Vermeidungsstrategien zurckzufhren sind,
nach der Notwendigkeit schriftlicher Produktion in der Fremdsprache. Wie bereits
in einer Testsituation bewertet werden (Kohn 1990:15). Anders ausgedrckt stellt sich
erlutert, gehrt die schriftsprachliche Kompetenz mittlerweile zu den Fertigkeiten, durch
die Frage, ob Bewertungskriterien hinsichtlich der konkreten Aufgabenstellung im
die Sprachkenntnisse berprft und einem Prdikat zugeordnet werden. Ausgangslage ist
schriftlichen Ausdruck der verschiedensten Testanbieter Rcksicht auf die schon
demnach die Existenz dieser Teildisziplin in Sprachprfungen. Welche Textsorten muss
erwhnten Probleme und die Schwierigkeiten nehmen. In diesem Zusammenhang fhrt
ein Lerner dafr beherrschen lernen? Welchen Normen ist zu folgen? In welcher Form
Cummins (1994:175) eine meines Erachtens treffende Aussage an:
wird der schriftliche Ausdruck in den verschiedenen Sprachprfungen abgeprft? Handelt
es sich bei der Aufgabentypologie um einen Brief oder gar um einen Aufsatz (Brner Differences in performance appear to arise - while writing in a second language for
1989:356)? Was prft der schriftliche Ausdruck schlielich und worauf basieren die the knowledge, procedures, or strategies people use to produce their writing ().
Anforderungen? All diese Fragen sind im Rahmen des handlungsorientierten Ansatzes des Die angefhrte Problematik des Schreibens in der Fremdsprache ist sicherlich nicht zu
GER zu beantworten. Er versteht sich nur als Bezugsrahmen und ist demnach nicht ignorieren. Der Inhalt einer gestellten und konkreten Aufgabentypologie fr die
verpflichtend. Basierend auf den Kann-Beschreibungen und dem kommunikativen Ansatz Textproduktion kann mehr oder weniger adquat fr die Zielgruppe sein.
des GER jedoch entwickeln verschiedene Testanbieter Zertifikats- bzw.
Im Folgenden werde ich den Begriff der Kompetenz bezglich des Schreibens anfhren.
Sprachnachweisprfungen, in denen die schriftliche Produktion einen Teil ausmacht.
Auerdem sollen die verschiedenen und fr uns relevanten Textsorten definiert werden,
Schriftliche Texte in der Fremdsprache zu produzieren bedeutet wie in der Erstsprache die jeweils aufsteigend zu beherrschen sind. In diesem Zusammenhang werde ich die
auch, Informationen aus dem Langzeitgedchtnis zu aktivieren. Am Anfang steht der erforderlichen Kompetenzen fr den schriftlichen Ausdruck der verschiedenen Niveaus
Kontext, in dem der Lerner einen sprachlichen Input erhlt, den er bearbeiten soll. Dafr fr Sprachprfungen einem primrsprachlichen Curriculum fr das Fach Deutsch
versucht er sprachliches Wissen, Weltwissen und strategisches Wissen anzuwenden. gegenber stellen. Dieses kontrastive Aufzeigen soll den natrlichen und kognitiven
Diese Wissensarten sind miteinander verbunden und Defizite der einen Art knnen durch Aufbau im Bereich der Textsorten und der Entwicklung in der Schreibarbeit
Kompetenzen in anderen Gebieten teilweise ausgeglichen werden. Die generelle muttersprachlicher Schler demonstrieren. Auerdem sollen weitere Komponenten
Anwendung setzt das Vorhandensein voraus. Dieser Prozess kann fr die ganze aufgezeigt werden, die Teile des Schreibprozesses sind.
Verarbeitungsabfolge belastend sein. Lerner knnen mehr oder weniger auf das in der
Erstsprache erlernte Wissen hinsichtlich Planstrategien, Textsorten, Kohrenz, Kohsion
und Stilmittel, um einige zu nennen, zurckgreifen. Gewhrleistet sein muss jedoch, dass
dieses Wissen zum einen kompatibel mit der Zielsprache ist und zum anderen, dass es

65 66
3.6 Der Kompetenzbegriff Tatschlicher Gebrauch von Sprache in uerungen in konkreten Situationen, wozu
auch Erscheinungen wie abgebrochene Konstruktionen, Zgerungsphnomene oder
Das Erlernen einer Sprache und die Kommunikationsfhigkeit insgesamt erfordern
Regelverste zu rechnen sind (Herbst 1991:18),
gewisse Kompetenzen. Der GER definiert in seinem kommunikativen Ansatz die
notwendigen Voraussetzungen und Kompetenzen fr Sprachanwendung bzw. Diese Definition nhert sich schon eher den Problematiken, denen Lerner ausgesetzt
kommunikativer Kompetenz. Im Fremdsprachenbereich wird in der Regel von den vier sind. Spricht man von Regelversten, so impliziert das Performanzfehler. Anders
klassischen Kompetenzen Leseverstehen, Hrverstehen, schriftlicher und mndlicher ausgedrckt ist das die nicht korrekte Umsetzung der Kompetenz hinsichtlich der
Ausdruck ausgegangen. Bolton (1982:55) unterscheidet an dieser Stelle zwischen Zielsprachennorm. Kompetenzfehler werden im GER als eine Erscheinung von
informationsentnehmender und informationsverarbeitender Kommunikationsfhigkeit. Lernersprachen betrachtet. Diese Interlanguages lassen demnach Zweifel aufkommen,
Die hier im Mittelpunkt stehende Kompetenz ist der schriftliche Ausdruck. Um schriftlich ob L2-Lerner im Sinne Chomskys (1965:3) schlielich als ideal speaker/listener in a
produktiv zu werden, muss zunchst die Aufgabenstellung rezipiert bzw. der completely homogeneous speech-community angesehen werden knnen.57
kommunikative Rahmen verdeutlicht werden (Bolton 1982:71). Das heit, wie bereits im Um den Schreibprozess in einer Fremdsprache zu aktivieren, wird das grundlegende
Pyramidenmodell erlutert, dass verschiedene Kompetenzen aktiviert werden mssen, Element Wissen nach Edmonson & House (1993:267 ff.) in deklaratives und prozedurales
die der Kategorie Wissen unterliegen. Es stellt sich folglich die Frage, worauf die Wissen eingeteilt. Dabei ist deklaratives Wissen das statische, sprachliche Wissen auf den
Schreibkompetenz letztlich beruht und wodurch sie definiert wird. Aus diesem Grund soll verschiedenen sprachlichen Beschreibungsebenen, welches folgendermaen differenziert
eine adquate Definition und Eingrenzung der Kompetenz schriftlicher werden kann:
Lernerproduktionen erarbeitet werden. Die vorausgesetzten Kompetenzen bei
implizites vs. explizites Wissen
Sprachprfungen des Goethe-Instituts beispielsweise sollen dokumentiert und zudem
diskutiert werden, indem kontrastiv dazu ein kompetenzorientiertes Curriculum bzw. eine Implizites bzw. explizites Wissen gibt an, inwieweit etwas unbewusst oder bewusst
Unterrichtsvorgabe des primrsprachlichen Unterrichts herangezogen wird. erworben wird.58 Sprachwissen wird in diesem Zusammenhang durch das
deklarative Wissen realisiert. Dabei ist das sprachliche Wissen eines Lerners nicht
Der Begriff Kompetenz (lat. competere - zu etwas fhig sein) definiert aus
die Kompetenz eines Muttersprachlers.
psychologischer Sicht in erster Linie die Fhigkeit eines Menschen, bestimmte Aufgaben
bzw. Anforderungen selbststndig auszufhren. Auf die Sprache bezogen, impliziert analysiertes vs. unanalysiertes Wissen
Kompetenz die Fhigkeit eines Sprechers, in seiner Muttersprache eine unbegrenzte
Die gnzliche oder partielle Einprgung sprachlicher Elemente findet sich in dem
Zahl von grammatischen Stzen zu erzeugen und zu verstehen sowie grammatische von
Begriffspaar analysiertes und nicht-analysiertes Wissen wieder.
ungrammatischen Stzen unterscheiden knnen; (unbewusstes) Wissen eines Sprechers
um die Regeln des Systems einer Sprache (Herbst 1991:18).. integriertes vs. nicht-integriertes Wissen

Weinert (2001:29) definiert den Kompetenzbegriff als die bei Individuen verfgbaren Inwiefern erworbenes Wissen bei verschiedenen Aufgabenbewltgungen verfgbar
oder durch sie erlernbaren kognitiven Fhigkeiten und Fertigkeiten, um bestimmte ist, definiert die Subkategorie integriertes/ nicht-intergriertes Wissen.
Probleme zu lsen, sowie die damit verbundenen motivationalen, volitionalen55 und automatisiertes vs. nicht-automatisiertes Wissen
sozialen Bereitschaften und Fhigkeiten, um die Problemlsungen in variablen
Situationen erfolgreich und verantwortungsvoll nutzen zu knnen. Auf dieser Definition Automatisiertes bzw. nicht-automatisiertes Wissen gibt zum Beispiel den
basiert das Deutsch-Modul im Kernlehrplan Nordrhein-Westfalens (KLP NRW)56, der hier Anstrengungsgrad bei der Sprachanwendung an.
wie bereits erwhnt, als Vergleichsgrundlage dienen soll, um die fr bestimmte
Textsorten erforderlichen Kompetenzen fr die Sprachprfungen des Goethe-Instituts
Diese Differenzierung des deklarativen Wissens zeigt Paralellen zu dem
und des TestDaf-Instituts zu diskutieren. Diese Kompetenzdefinition ist nichts Anderes,
Schreibprozessmodell auf, indem auf all die Faktoren eingegangen wird, die fr die
als die funktionale Verbindung von Wissen, Verstehen, Knnen und Wollen. Nach Klieme
schriftliche Lernerproduktion entscheidend sind (vgl. Pyramiden). Der GER fasst unter der
(2004:11) entwickeln sich Kompetenzen durch systematischen Aufbau, intelligente
Kategorie des deklarativen Wissens, welches zu den allgemeinen Kompetenzen zhlt, das
Vernetzung und variierende situative Einbettung von Wissen. Wie aus dem bereits
Weltwissen, das soziokulturelle Wissen und das interkulturelle Bewusstsein zusammen.
angefhrten und erweiterten Schreibprozessmodell von Hayes/Flower (1980) deutlich
Dabei wird den Benutzern des GER geraten, zu definieren, welche Unterkategorien des
wird, ist der Faktor Wissen die Basis fr jegliche Form der Kompetenz bzw. der
deklarativen Wissens von den Lernern auf den jeweiligen Niveaubeschreibungen erwartet
Performanz. Diese wird in unserem Zusammenhang als die Sprachverwendung definiert,
werden und welche man von ihnen einfordern kann (GER 2001:103ff.).
die aber zudem durch spezifische Prozesse und Strategien beschrieben ist, um die Regeln
der Kompetenz entsprechend zu verwenden (Kohn 1990:73): Wie die Sprachkompetenz unter Bercksichtigung dieser Faktoren berhaupt realisiert
werden kann, wird ber das prozedurale Wissen beantwortet. An dieser Stelle ist von

57 In diesem Sinne ist die Kompetenz eines Lerners nicht mit der eines Muttersprachlers vergleichbar, was dazu fhren sollte,
55 Als Volition wird in der Psychologie der Prozess der Willensbildung bezeichnet. www.wikipedia.de (Zugriff am 02.01.2008) dass die Bewertungskriterien (vgl. Kapitel 5) darauf achten sollten, welche Kompetenzen sie eigentlich messen wollen.
56 http://db.learnline.de/angebote/deutschunterrichtsentwicklung/module/teil-2.pdf , Zugriff am 01. November 2007 58 Krashen unterscheidet zwischen unbewusstem Spracherwerb und bewusstem Sprachlernen

67 68
dynamischem Wissen die Rede, durch welches das deklarative Wissen seine Anwendung thematische und kommunikative Ziele
findet. Prozedurales Wissen impliziert verschiedene Sprachrezeptions-,
gesammelte und geordnete Sachverhalte
Sprachproduktions- und Interaktionsverfahren, wie z. B. Kommunikationsstrategien
(Edmonson/House 1993:270). Der GER (2001:105ff.) definiert prozedurales Wissen als das metakognitive Wissen um die Prozessschritte des Schreibers
die Kombination aus praktischen und interkulturellen Fertigkeiten. Vervollstndigt sieht Auswahl angemessener Schreibstrategien
der GER die allgemeinen Kompetenzen durch zwei weitere Faktoren: die
persnlichkeitsbezogene Kompetenz und die Lernfhigkeit (s. Kapitel 2.2.1). Weinert Kenntnis geeigneter Textordnungsmuster
(2001) definiert verschiedene Faktoren, die den individuellen Ausbildungsgrad der Beherrschung spezieller Prozeduren (Planung, Gliederung)
Kompetenz zu bestimmen scheinen:

Motivation
Der Kernlehrplan NRW ist fr die Kompetenzerwartungen am Ende der Jahrgangsstufen
Erfahrung 6, 8 und 10 kompetenzorientiert. Ziel der definierten Kompetenzen ist es, dass sie den
Kern des erworbenen Wissens und Knnens bilden. Die im KLP definieren Kompetenzen
Handeln
fr den gymnasialen primrsprachlichen Unterricht der Klassen 5-10 basieren auf den in
Knnen der Grundschule erworbenen Kompetenzen und sollen eine Progression ber die
Verstehen Jahrgangsstufen aufzeigen.60 Diese fr den Deutschunterricht in Nordrhein-Westfalen
verbindlichen Fachkompetenzen beruhen auf den schulformbergreifenden
Wissen
Bildungsstandards der Kultusministerkonferenz (KMK), wodurch die Vergleichbarkeit der
Fhigkeit fachlichen Anforderungen in allen Schulformen der Sekundarstufe I gesichert werden
soll61.

Die erwarteten Kompetenzen werden in Zwei-Jahres-Intervallen zum Ziel gesetzt.


Das Ziel standardisierter Sprachzertifizierungsprfungen ist es, Sprachkompetenz zu
Dabei beschrnkt sich dieses Modell auf wesentliche Kenntnisse und Fhigkeiten. Fr die
messen. Das wird anhand der vier klassischen Fertigkeiten getan, fr welche Aufgaben
vorliegende Arbeit sind Aufgaben und Ziele des Deutschunterrichts, speziell des
konstruiert werden:
Schreibens von Textsorten von Interesse. Laut des Kernlehrplanes, soll am Ende der
Sekundarstufe I Sprache, sowohl schriftlich als auch mndlich, bewusst und differenziert
Hrversten Leseverstehen rezeptiv verwendet werden knnen. Die Schler sollen sach-, situations- und adressatengerecht
sprechen und schreiben und die Wirkung der Sprache einschtzen knnen. Sie sollen
Sprechen Schreiben produktiv ber unterschiedliche Schreibformen verfgen, deren Funktion kennen und mit ihrer Hilfe
ihre Argumentations- und Analysefhigkeiten entwickeln. Es ist aber ebenso wichtig,
Schreibformen kennen zu lernen, die die kreativen Anlagen entwickeln.62 Interessant
Tabelle12: Die klassischen Kompetenzen
hierbei ist die Realisierung all dieser Zielsetzungen fr das Fach Deutsch konkret und fr
die fcherbergreifende Funktion der Sprache.63 Die Idee diesen kompetenzorientierten
Rahmen anzufhren, besteht darin, herauszufinden, weshalb die Testanbieter von
Sprachprfungen im DaF-Bereich zum einen bestimmte Kompetenzen und zum anderen
Was das Hr- und das Leseverstehen angeht, so handelt es sich um rezeptive konkrete Textsortenformate fr den schriftlichen Ausdruck abverlangen. Das knnte in
Sprachleistungen, denn hier bedeutet Verstehen eine besonders aktive Ttigkeit. der Annahme begrndet liegen, dass auf ein derartiges primrsprachliches Curriculum
Mndlicher und Schriftlicher Ausdruck liegen den produktiven Sprachleistungen Bezug genommen wird, wo die Kompetenzen entsprechend der kognitiven Entwicklung
zugrunde. Wie im Vorfeld schon angedeutet, stellt sich meines Erachtens die Frage auf, und des Reifeprozesses der Schler aufeinander aufbauen.
ob diese klassischen Kompetenzen tatschlich separat und unabhngig voneinander
existieren knnen. Die im Mittelpunkt dieser Dissertation stehende Teilkompetenz ist die
schriftliche Lernerproduktion. Der KLP definiert Schreibkompetenz als eine
zielgerichtete Fhigkeit, Texte herzustellen, indem das Schreiben fortlaufend und
bewusst durch die folgenden Elemente gesteuert wird:59

60 http://db.learnline.de/angebote/kernlehrplaene/text.jsp?kap=4&doc=d-gy, Zugriff am 1. November 2007


61 http://db.learnline.de/angebote/kernlehrplaene/text.jsp?kap=3&doc=d-gy , Zugriff am 4. November 2007
62 http://db.learnline.de/angebote/kernlehrplaene/text.jsp?kap=2&doc=d-gy , Zugriff am 4. November 2007
59 http://db.learnline.de/angebote/deutschunterrichtsentwicklung/module/teil-2.pdf , S. 41 Zugriff am 1. November 2007, S. 63 Das ist insofern wichtig, als dass in den Sprachprfungen zum Beispiel fachspezifische Themen herangezogen werden, um
48 schreibproduktiv zu werden.

69 70
Die Kompetenz des Schreibens wird im Kernlehrplan als ein Prozess betrachtet. Die fr Texte Sie erkennen und Sie informieren, Sie verfassen unter Beachtung
die vorliegende Arbeit wichtigsten Punkte des Schreibprozesses dieses Rahmens sind64: schreiben bewerten Formen indem sie in einem unterschiedlicher Formen
appellativen funktionalen schriftlicher Errterung
Schreibens in Zusammenhang argumentative Texte. (Thesen
gem den Aufgaben und der Zeitvorgabe einen Schreibplan erstellen, sich fr die
Vorlagen und berichten (ber ein entwickeln, Argumente
angemessene Textsorte entscheiden und Texte ziel-, adressaten- und
verfassen einfache Ereignis, einen sammeln, nach Gewichtigkeit
situationsbezogen, ggf. materialorientiert konzipieren und gestalten
appellative Texte. ordnen; Argumente durch
Aufbau, Inhalt und Formulierungen eigener Texte hinsichtlich der Missstand in Form
(z. B. fr die Beispiele veranschaulichen,
Aufgabenstellung berprfen (Schreibsituation, Schreibanlass) einer Reportage)
eigene Auffassung Schlussfolgerungen ziehen; fr
Strategien zur berprfung der sprachlichen Richtigkeit und Rechtschreibung in einem Sie erklren eine eigene Auffassung mithilfe
anwenden Leserbrief in der Sachverhalte und wertender Akzentuierung
Schlerzeitung Vorgnge in ihren argumentieren, Argumente
werben) Zusammenhngen berlegt anordnen;
Sie entwickeln und differenziert. (z.B. Gegenargumente zurckweisen
Die Kompetenzerwartung Schreiben des Kernlehrplans ist unterteilt in die Kategorien beantworten die Bedeutung und (z. B. in einem Leserbrief
Schreiben als Prozess, Texte schreiben und produktionsorientiertes Schreiben. Die fr Fragen zu Texten Aufgabe von Sie nutzen Formen appellativen
vorliegende Arbeit relevanten Inhalte jeder Kategorie sollen anhand einer Tabelle und belegen ihre Organisationen, Schreibens bewusst und
aufgezeigt werden: Aussagen Manahmen und situationsangemessen. (z. B. fr
Sie formulieren Veranstaltungen, Vorlagen bzw. in Anlehnung an
Aussagen zu das Verhalten von Vorlagen werbende Texte
diskontinuierlichen Figuren) verfassen - Lektre eines
Ende der Ende der Ende der Jahrgangsstufe 10
Texten. (z. B. Sie gestalten Buches, eine
Jahrgangsstufe 6 Jahrgangsstufe 8
einfache Tabellen, appellative Texte Theaterveranstaltung; den
Schreiben Schreibzielsetzung Die Schlerinnen Die Schlerinnen und Schler Grafiken und verwenden appellativen Charakter eines
als Prozess und Anwendung und Schler beherrschen Verfahren dabei verschiedene Textes beschreiben, bewerten)
elementarer gestalten prozesshaften Schreibens (z. B. Prsentationstechnik Sie verfassen formalisierte
Methoden der Schreibprozesse Texte ziel-, adressaten- und en. (z. B. zu kontinuierliche/diskontinuierliche
Textplanung (z. B. zunehmend situationsbezogen, ggf. Umweltfragen, Texte und setzen
selbststndig. (z. B. schulischen diskontinuierliche Texte
Notizen, materialorientiert konzipieren;
den Text nach den Konflikten einen funktional ein. (z. B. Protokoll,
Stichwrter), strukturiert, verstndlich,
Normen der kritischen sachlicher Brief, Annonce,
Textformulierung sprachlich variabel und stilistisch
Sprachrichtigkeit Kommentar, einen Cluster, Mindmap, Grafiken,
und stimmig zur Aussage schreiben; Schaubilder, Statistiken in
berarbeiten, Aufruf verfassen)
Textberarbeitung. sprachliche Mittel einsetzen; Sie formulieren Referaten).
stilistische Varianten
erproben und Aufbau, Inhalt und Aussagen zu Sie kennen, verwenden und
Formulierungsent- Formulierungen hinsichtlich der diskontinuierlichen verfassen Texte in
scheidungen Aufgabenstellung berprfen; Texten und werten standardisierten Formaten. (z.
begrnden) Texte inhaltlich und sprachlich die Texte in einem B. Bewerbungsschreiben,
berarbeiten; Strategien der funktionalen Geschftsbrief, auch unter
berprfung der sprachlichen Zusammenhang an Nutzung diskontinuierlicher
Richtigkeit und Rechtschreibung Fragen orientiert Texte: Diagramme, bersichten
aus. (z. B. u. .)
anwenden; ber die notwendige
Diagramme,
fachspezifische Begrifflichkeit
bersichten,
verfgen; in gut lesbarer
Grafiken)
handschriftlicher Form und in
Sie kennen und
einem der Situation verwenden einfache
entsprechenden Tempo standardisierte
schreiben; Textformen. (z. B.
Antrge, Anfragen,
Anzeigen)
64 http://db.learnline.de/angebote/kernlehrplaene/text.jsp?kap=3&doc=d-gy , Zugriff am 4. November 2007

71 72
Produktions- Sie verfassen fachlichen Anforderungen ist sowohl im Unterricht als auch bei der Leistungsbewertung
orientiertes Texte nach altersgem und mit Bezug auf die Anforderungen der Schulformen zu konkretisieren. 67
Schreiben Textmustern
Der auf dem Schreibprozessmodell von Hayes/Flower beruhende Kernlehrplan definiert
neben den fr diese Arbeit interessanten und zu erwartenden Kompetenzen fr den
Tabelle 13: Die Kompetenzerwartung Schreiben nach dem Kernlehrplan NRW 65
schriftlichen Ausdruck den Anspruch an die Sprachreflexion. Hierbei geht es um die
Sprache als Kommunikationsmedium und um ihre Funktion. Die zu erwerbenden
sprachlichen Mittel und Kompetenzen auf den jeweiligen Jahrgangsstufen, die funktional
Diese Tabelle veranschaulicht die Kompetenzerwartungen des Kernlehrplanes NRW in unserem Zusammenhang zu sein scheinen, sollen in einer Tabelle zusammen gefasst
hinsichtlich des Schreibens als Prozess und als Text in den einzelnen Abstufungen. Das werden:
prozessorientierte Schreiben von Schlern im primrsprachlichen Unterricht geht von der Ende der Ende der Jahrgangsstufe 8 Ende der
Methodik elementarer Texplanung (Ende der Jahrgangsstufe 6) ber die selbstndige
Jahrgangsstufe 6 Jahrgangsstufe 10
Gestaltung eines Schreibprozesses (Ende der Jahrgangsstufe 8) ber zur Beherrschung
des Verfahrens prozesshaften Schreibens (Ende der Jahrgangsstufe 10). Anhand der Sprache als Mittel Erkennen der Erkennen verschiedener Kenntnis
Kompetenzen des Schreibprozesses zeigt sich folglich die Kompetenz, Texte zu der Verstndigung Abhngigigkeit der Sprachebenen und verbaler/nonverbaler
schreiben. Hierbei geht es um das Verfassen verschiedener Textsorten, die aufbauend Verstndigung von Sprachfunktionen in Kommunikations-
beherrscht werden sollen. Einen einfachen appelativen Text bzw. einen Leserbrief oder der Situation. mndlichen und schriftlichen strategien und
Aussagen zu diskontinuierlichen Texten zu verfassen, soll bereits am Ende der Erschlieen von Texten; Vergleichen und gezieltes Einsetzen.
Jahrgangstufe 6 geleistet werden knnen. Das Produzieren eines Leserbriefes begegnet uerungsabsichten Unterscheiden von Kenntnis verschiedener
uns in den hier diskutierten Prfungen erstmalig beim B2-Zertifikat des Goethe-Institus. einer sprachlichen Ausdrucksweisen und und grundlegender
Aussagen zu diskontinuierlichen Texten schriftlich zu bearbeiten, ist der Inhalt Form Wirkungsabsichten Textfunktionen
schriftlicher Aufgabenstellungen auf dem Niveau C1 des Goethe-Instituts und im TestDaF sprachlicher uerungen,
zu finden. Die Textsorte, die Muttersprachler im Sinne des Kernlehrplans bereits am Ende worber in eigenen Texten
der 6. Klasse beherrschen knnen mssen, erscheint erstmalig bei dem B2-Zertifikat des begrndet entschieden wird
Goethe-Instituts, wobei ab Herbst 2008 laut Prfungsordnung das 16. Lebensjahr nicht Sprachliche Wortarten erkennen Sicherer und funktionaler Kenntnisse in Bezug
mehr vorausgesetzt sein wird.66 Dennoch bleibt die Frage vllig unbeantwortet, welcher Formen und und unterscheiden Gebrauch von Wortarten; auf Funktion,
Schwierigkeitsgrad und welche Inhalte diesbezglich gegeben werden und ob Strukturen in und Funktion Verbflexionsformen, deren Bedeutung und
diesbezglich die Paralellen bereits zu der 6. Jahrgangsstufe gezogen werden knnen ihrer Funktion bestimmen; funktionaler Wert erkannt Funktion von Wrtern;
oder ob diese spter anzusiedeln sind (etwa am Ende der 8. Jahrgangsstufe), wo Kennen und wird; Bezeichnen und Bilden Beherrschen der
differenzierteres und funktionales Schreiben mehr im Mittelpunkt steht. Am Ende des Anwenden von komplexer Satzgefge; Verbflexionsformen
Moduls der nchsten zwei Jahrgangsstufen sollen bereits behandelte Textformen der Flexionsformen; Sichere Erschlieung und und deren Funktionen
vorherigen Etappe differenzierter bearbeitet werden knnen. Zum Beispiel sollen Beschreibung von korrekte Anwendung von und Anwendung beim
nunmehr nicht nur Aussagen zu diskontinuierlichen Texten formuliert, sondern zustzlich Satzstrukturen; Wortbedeutungen; Schreiben eigener
noch in einem funktionalen Zusammenhang ausgewertet werden. Diese differenziertere Untersuchen von Anwendung operationaler Texte; Differenzieren
Kompetenzerwartung und Bearbeitung einer schriftlichen Aufgabe wird also am Ende der Wortbildung; Verfahren der Satz- und und Erweitern der
8. Jahrgangsstufe angesetzt. Es ist jedoch der Umstand nicht geklrt, ob die Verfgen und Textstruktur syntaktischen
Prfungskandidaten das Verfassen derartiger Textformen auch in ihrem Anwenden von Kenntnisse zum
primrsprachlichen Unterricht erworben haben, um derartige Aufgabenformate operationalen Schreiben eigener
sinngem zu bearbeiten. Der Kernlehrplan rundet sich am Ende der 10. Jahrgangsstufe Verfahren Texte; Beherrschen
ab. Whrend appelative Texte in Form eines Leserbriefes nun auch argumentativ sprachlicher Verfahren
betrachtet werden sollen, erwartet man von den Schlern dieser Klassenstufe, dass sie
diskontinuierliche Texte nun auch funktional einsetzen. Der Komplexittsgrad der Sprachvarianten Unterscheidung Unterscheidung von Reflexion von
und Sprachwandel zwischen Sprachvarianten; Erkennen Sprachvarianten;
mndlichem und von Zusammenhngen Reflexion der eigenen
schriftlichem zwischen Sprachen und Sprache und ihre
65 Die Kompetenzerwartungen sind hier auf die Relevanz dieser Arbeit beschrnkt und zusammen gefasst. Der Kernlehrplan Sprachgebrauch; Nutzen zum Erlernen fremder Bedeutung fr das
NRW fr den primrsprachlichen Unterricht umfasst natrlich viel mehr Kompetenzerwartungen als die hier angefhrten.
Erkennen und Sprachen Erlernen von
66 Das Goethe-Institut Athen, als Beispiel angefhrt, hatte bislang eine Sonderregelung, die fr das Niveau B2 ein Mindestalter
von 15 Jahren ansetzte. Dieser Ausnahmezustand war meines Wissens aber in keinerlei Prfungsordnung oder
Bekanntmachung dokumentiert und gerechtfertigt. Die Altersbegrenzungen werden aber ab Herbst 2008 nun vllig
aufgehoben werden. 67 http://db.learnline.de/angebote/kernlehrplaene/text.jsp?kap=4&doc=d-gy , Zugriff am 15. November 2007

73 74
Nutzen Fremdsprachen An dieser Stelle besteht meines Erachtens eine Paralelle zu den von Testanbietern
verschiedener aufgestellten Bewertungskriterien hinsichtlich der schriftlichen Sprachproduktion, die im
stilistischer Ebenen; Kernkapitel dieser Dissertation angefhrt wird (Kapitel 5). Whrend die fr die
Sprache im sprachkommunikative Kompetenz sowohl die Kenntnis verbaler bzw. nonverbaler
Kontrast als Mittel Kommunikationsstrategien und das gezielte Einsetzen als auch die Kenntnis von
zur Erle rnung einer Textfunktionen erst am Ende der Jahrgangsstufe 10 fr den primrsprachlichen
Fremdsprache Unterricht angesetzt werden, findet sich dieses in den jeweiligen Sprachprfungen der
Niveaus B2/C1 in den oberen Deskriptoren mit den maximal zu erreichenden Punkten
Richtig Schreiben bervertieftes Weitgehende sichere Beherrschen von
eines Bewertungskatalogs wieder. Das fhrt aber meines Erachtens zu einer paradoxen
- Laut- Wissen der Laut- Anwendung des Wissens lautbezogenen
Lage, denn wie knnen im fremdsprachlichen Bereich jene Kompetenzen abverlangt
/Buchstabenebene Buchstaben- lautbezogener Regelungen, Regelungen
werden, die altersmig zeitgleich oder spter im primrsprachlichen Unterricht als
Zuordnung auch in schwierigen Fllen
Lernziel in den Mittelpunkt rcken?69
Richtig Schreiben Beherrschen von Verfgen ber weitere Sichere Verwendung
Weiterhin ist das Wissen ber Bedeutungen oder grammatische Strukturen eine
- Wortebene wortbezogenen wortbezogene Regelungen wortbezogener
unabdingliche Komponente der Sprachkompetenz. Diese Klassifikation ist nach Wienold
Regelungen und Regelungen
(1973:78ff.) nicht dagegen abgesichert, dass anhand ihrer in mechanischer Weise
deren Ausnahmen
bestimmte Kompetenzen gebt werden, ohne ein an Kommunikation orientiertes
Richtig Schreiben Kennen und Kennen und Beachten Beherrschen weiterer Lernziel, wie z. B. freie Interaktion mit Muttersprachlern, durchzusetzen. Es stellt sich an
Satzebene Beachten satzbezogener Regelungen satzbezogener dieser Stelle demnach die Frage, ob diese Form der Sprachkompetenz tatschlich
satzbezogener Regelungen ausreicht, dass man in einer Sprachprfung Werte erreicht, die aussagen, dass man eine
Regelungen Sprache gem der festgesetzten Fhigkeitstabellen70 auch tatschlich kann. In diesem
Zusammenhang ist fr Wilkinson (1971:115ff.) das Beherrschungsausma einer
Richtig Schreiben Korrektur und Kontrolle der Schreibung Korrektur und
Kompetenz von Bedeutung, welches in Korrelation zu dem anderer Kompetenzen steht.
- Fehlervermeidung mithilfe eines Wrterbuchs, Fehlervermeidung
Weitere einflieende Komponenten wie die soziolinguistische Kompetenz spielen im
Lsungsstrategien durch richtiges der Benutzung von mittels eines
Rahmen der Spracherlernung oder auch Sprachbeherrschung eine entscheidende Rolle.
Abschreiben, Textverarbeitungsprogammen Wrterbuchs,
Auch wenn ein Lerner beispielsweise den Plural im Deutschen einwandfrei beherrscht,
Sprech- und und der Fehleranalyse nach Computerprogrammen
bleibt dennoch ungeklrt, ob er wei, wie man sich zum Beispiel in bestimmten
Schreibproben, individuellen und selbstndiger
Situationen kommunikativ verhlt bzw. in dem Kulturkreis der Zielsprache
Fehleranalyse und Fehlerschwerpunkten Fehleranalyse
adressatengerecht ausdrckt. Da Normen und Verhaltensmuster nicht in Grammatiken zu
Wrterbcher
finden sind, bedarf es landeskundlicher Informationen, um die soziolinguistische
Kompetenz zu maximieren (vgl. Nodari 2002). Ein weiterer entscheidender Punkt, der
Tabelle 14: Die Kompetenzerwartung Sprachreflexion nach dem Kernlehrplan NRW 68 angesprochen werden sollte, ist die sprachlogische Kompetenz. Dieser Begriff ist geprgt
von Kohrenz und Komplexititt der Zielsprache. Komplexes Textverstndnis, Verfassen
kohrenter Texte oder Briefe im schriftlichen Ausdruck, oder im mndlichen Ausdruck zu
Das Kriterirum der Sprachreflexion verweist im Sinne dieser Arbeit auf verschiedene einem Thema Argumente finden und diese zu vertreten, definieren diese Art der
Aspekte. Zum einen wird ersichtlich, welche Anforderungen im primrsprachlichen Kompetenz. Man knnte die sprachlogische Kompetenz als eine Basiskompetenz
Deutschunterricht gestellt werden. Die verschiedenen Untergliederungen des Kriteriums betrachten, da erworbene Fertigkeiten der Muttersprache oft in die Zielsprache
Sprachreflexion definieren die unterschiedlichen Ebenen von Sprache. Sprache soll als transferiert werden. Ein Beispiel hierfr wre das Verfassen eines Leserbriefes fr das
Kommunikationsmedium aufsteigend insofern erschlossen werden, dass Sprachnormen, Niveau B2 (vgl. Pyramide in Kap. 3.4). Voraussetzung hierbei ist, dass man wissen sollte,
Sprachintentionen und Textfunktionen ihre Berechtigung finden. Die nchste Etappe will dass ein Leserbrief sachbezogen zu sein hat. Ob diese Textform in der Muttersprache der
die sprachlichen Formen und Strukturen funktional nher bringen, mit dem Ziel, diese Lerner denselben Normen folgt, kann nicht als gegeben betrachtet werden. Trotzdem
sicher und entsprechend der Kommunikationssituation anzuwenden. Eine weitere wird in der erstellten Prfungen (z.B. des Goethe-Instituts) verlangt, eine derartige
Unterkategorie der Sprachreflexion besteht darin, Sprachstile und -varianten zu Aufgabe zu erfllen. Kontrr dazu knnte man jetzt aber die berlegung anstellen, dass
unterscheiden. Richtig Schreiben bezieht sich hier auf die orthografischen Aspekte bzw. die Kritik nicht nur an den Testanbietern zu ben ist. Die Curricula bzw. Rahmenlehrplne
das Bild einer Sprache. der jeweiligen Lnder sollten derart erstellt sein, dass der Unterricht auf das Knnen
diverser Kompetenzen und schlielich die Bewltigung dieser in der Testsituation abzielt.

69 In der bis Herbst 2008 geltenden Prfungsordnung des Goethe-Instituts ist das Mindestalter fr das Ablegen einer Prfung
B2/C1 auf 16 Jahre gesetzt. In der neuen PO ist diese Regelung wie bereits angefhrt allerdings aufgehoben.
68 http://db.learnline.de/angebote/kernlehrplaene/text.jsp?kap=4&doc=d-gy , Zugriff am 15. November 2007 70 Hiermit sind die Can-Dos des GER gemeint

75 76
Weitere Grundbedingungen hierfr sind die ntige sprachliche Kompetenz, das Alter und
die damit verbundene Reife und schlielich soziolinguistische Normen, wie z.B. 4 Von der Testtheorie bis zur Testbewertung
Briefaufbau oder Anredeformeln, die es im Rahmen der gestellten Textsorte konkret
einzuhalten gilt. Spricht man des Weiteren von strategischer Kompetenz, so fasst man
darunter die Fhigkeit, Verstndigungsprobleme oder Erwerbsprobleme mit Hilfe von Im vierten Kapitel der vorliegenden Arbeit soll der Frage nachgegangen werden, was
Strategien zu lsen (Nodari 2002:12). Der Bereich der klassisch definierten Tests sind, was ihnen zugrunde liegt und sie charakterisiert, welchem geschichtlichen
Sprachkompetenz beinhaltet noch weitere Unterbereiche, die verschiedene Perspektiven Hintergrund sie unterliegen und welche Rolle die Disziplin der Testtheorien hinsichtlich
und Komponenten einer Sprache aufzeigen. Aus diesem Grund knnen die sprachlichen Tests bzw. Sprachtests und ihres Qualittsstandards einnimmt. Dazu sollen zunchst
vier Fertigkeiten im hier definierten Sinne meines Erachtens nicht ausreichen, um wichtige Begriffe der verschiedenen Testtheorien definiert und kontrastiv gegenber
Sprache zu begreifen und zu produzieren. Je nach Zielsetzung sollten die gestellt werden. Verschiedene Kriterien fr die Entwicklung, Auswahl und Bewertung
verschiedensten Kompetenzen der Prioritt entsprechend definiert werden. eines Tests sind Kernpunkt der Testtheorien. Die wichtigsten Anstze und
Auf dem Stand heutiger Sprachtests, die gem der vom GER definierten Niveaus Schlsselwrter werden die Basis und das ntige Verstndnis bereitstellen, um
Anwendung finden, werden die vier Fertigkeiten Leseverstehen, Hrverstehen, Schreiben Testerstellung, Testdurchfhrung und Testauswertung im engeren Sinne zu begreifen.
als Testinhalt verstanden. Dabei beachtet der GER (2001:103), dass Zentral ist die Frage, ob Tests die Zieleigenschaften oder auch -merkmale messen, das
Sprachverwendende und Sprachlernende eine Reihe von Kompetenzen einsetzen, um die heit inwiefern von Testvaliditt ausgegangen werden kann und wodurch diese letztlich
in kommunikativen Aufgaben und Aktivitten auszufhren. In Kapitel 2.1.1 und 2.1.2 gekennzeichnet ist. Auf diesem Hintergrund sollen die Standards der APA den
sind die ntigen Elemente und Komponenten zur Sprachverwendung im Sinne eines Bezugsrahmen bilden, um Prfverfahren samt ihren Gtekriterien zunchst generell und
handlungsorientierten Ansatzes bereits angefhrt worden. Darber hinaus wurden vom dann speziell zu diskutieren. Auerdem sollen sich die Standards der APA fr die
GER verschiedene Skalen entworfen, die zur Sprachverwendung bentigten Elemente Testentwicklung als notwendig erweisen. Abschlieend sollen im zweiten Teil dieses
beschreiben sollen. Somit ist vom GER ein Stufenkonstrukt entwickelt worden, welches Kapitels die dafr erforderlichen und erwarteten Kompetenzen, die das zu messende
eine bestimmte Sprachnorm vorgibt und die Korrektheit von Lernerproduktionen oder Merkmal in einer Testsituation ausmachen, in den Mittelpunkt gestellt werden.
gar Lernersprachen71 bestimmen soll. Diese nach Kohn (1990:68ff.) definierte
auenweltliche Perspektive definiert die objektiven Fehler eines Testkandidaten, wobei
die Korrektheit die Feststellung eines externen Beobachters ist. Die innenweltliche 4.1 Was ist ein Test72 ?
Ansicht ist demnach eine vollkommen subjektive Wahrnehmung oder das eigene
Korrektheitswissen des Lerners bzw. Prflings. Die Begriffsdefinition von Test hngt von dem jeweiligen Zweck ab. Oft werden die
Begriffe Test und Prfung weitgehend synonym verwendet.73 Wenn Unterschiede
vorgenommen werden, dann bezeichnet Test weniger formalisierte Testverfahren,
welche vor Ort konzipiert und durchgefhrt werden, Prfungen sind hingegen eher
formalisiert und standardisiert (vgl. Perlmann-Balme, 2001).74 Ein Test kann zum Beispiel
aus methodischer Sicht als ein Verfahren gekennzeichnet werden, das Aufschluss ber
einzelne Personen, Objekte und Situationen gibt. Kennzeichnend hierbei ist, dass die
Durchfhrung von Tests und Prfungen im Regelfall eine konkrete Absicht oder
Zielsetzung verfolgt (Wottawa 1980:11).

Eine klassische und relativ zeitlos ausgewhlte testtheoretische Definition ist die von
Lienert (1961:7), wobei deutlich wird, dass der Begriff Test als Fachbegriff mit
vielfltigen Bedeutungen verwendet wird:

72 Ich werde fr die Zwecke dieser Arbeit von Prfungen sprechen, wenn es um das Goethe-Institut und das TestDaF-Institut
geht, da es sich bei beiden Testanbietern um standardisierte Tests handelt. Dennoch wird in diesem Kapitel der Begriff
Test benutzt, wenn es generell um testtheoretische Fragen geht (vgl. Funote 1).
73 Dem Zweck dieser Arbeit entsprechend msste geklrt werden, ob es einen Unterschied zwischen einer Sprachprfung und
einem Sprachtest gibt. Nach dem Multilingual glossary of language testing terms versteht man unter einem Test die
Prozedur zur Feststellung der fremdsprachlichen Leistungsfhigkeit (1998:127). Auerdem werden zwei weitere
Bedeutungsvarianten angegeben. Zum einen der Test als Bezeichnung fr den Teil einer Prfung und zum anderen der Test
als informelles Prfverfahren. Der Bedeutungsumfang von Prfung ist enger, er deckt sich mit der ersten Variante von
Test, d.h. der Prozedur zur Feststellung der Leistungsfhigkeit oder des Kenntnisstandes von Personen durch mndliche
und/oder schriftliche Aufgaben. Das Erreichen einer Qualifikation (z.B. durch ein Zertifikat besttigt) oder der Zugang zu
einem Studium kann von dem Ergebnis abhngen (Multilingual glossary of language testingt terms, 1998:119).
74 Auf diese Unterscheidung trifft man auch beim fachlichen Sprachgebrauch. Dort unterscheidet man jedoch noch weitere
71 vgl. dazu die Interlanguagehypothese Bedeutungen von Test

77 78
Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder Die verwendeten Prfverfahren sollten wissenschaftlich begrndet sein, um
mehrerer empirisch abgrenzbarer Persnlichkeitsmerkmale mit dem Ziel einer mglichst systematisch, kontrollierbar und wiederholbar zu sein (Grubitzsch 1999:30). Die APA
quantitativen Aussage ber den relativen Grad der individuellen Merkmalsausprgung75. sieht den Test als einen evaluierenden Prozess an, der eine Verhaltensstichprobe abgibt
und mithilfe dessen man unter standardisierten und routinierten Prozessbedingungen
Routineverfahren beruhen somit auf Tests, die bereits hinreichend in der Praxis
bewertet (APA 2004:3). Ein Test sollte Aufschluss ber das Resultat und damit
angewendet und definiert worden sind. Wissenschaftlich ist ein Test dann, wenn er nach
verbundenen Faktoren der zu testenden Merkmalsausprgung des Testteilnehmers
bestimmten Regeln konstruiert bzw. entwickelt wurde und dadurch gewhrleistet ist,
geben. Zuletzt sollte ein Test als Indikator fr empirisch abgrenzbare Eigenschaften,
dass gezielte Aussagen ber Persnlichkeitsmerkmale, Fhigkeiten oder Fertigkeiten (z.
Verhaltensdispositionen, Fhigkeiten oder Kenntnisse verwendet werden (Lienert/Raatz
B. Sprachkompetenz) zunchst operationalisiert und schlielich formuliert werden
1994:1). Die APA unterscheidet den Begriff des Testens anhand verschiedener
knnen, um der Testtheorie zu entsprechen (Rost 1996:17). Durch die wesentlichen
Dimensionen. Dabei standardisiert ein Test den Prozess, bei dem Testteilnehmer auf
Bestimmungsstcke dieser Definition soll die Testdurchfhrung aller Testteilnehmer durch
einen Input reagieren und dieses des Weiteren bewertet wird. Dafr bentigt man laut
das Prfverfahren, das als hoch standardisiert gilt, vergleichbar gemacht werden
APA folgende Grundbedingungen, angefangen von der Materialaufbereitung bis hin zur
(Sommer 1971:192). Als Einwnde fr diese Theorie knnte man erheben, dass nicht
Standardisierung eines Tests (APA 2004:3):
immer nur quantitative, sondern auch qualitative Merkmalsausprgungen Ziel des
Testens sein knnen. Whrend quantitative Merkmale, die es zu messen gilt, Personen () the mode in which test materials are presented, the degree to which stimulus
anhand der entsprechenden Ausprgung des zu messenden Merkmals differenzieren, materials are standardized, the type of response format and the degree to which test
unterscheiden qualitative Merkmale hingegen ganze Gruppen voneinander (vgl. Norm- materials are designed to reflect or stimulate a particular context.
und Kriteriumsorientierung, Kap. 4.2).
Grotjahns Definition (2000:304) fasst den Test als jegliches Prfverfahren auf, das
Die APA hat Standards definiert und verffentlicht, um in erster Linie die Basis bzw. Individuen unter kontrollierten Bedingungen zu bestimmten Handlungs- und
den Referenzrahmen bereitzustellen und im Weiteren die Qualitt in der Testpraxis zu Verhaltensweisen veranlasst, die Rckschlsse auf existierende Persnlichkeitsmerkmale
bewerten. Grundlegendes Ziel dabei ist die Gewhrleistung der Kriterien fr den auf dem Stand bzgl. bestimmter Mastbe (Lehrziele) erlauben soll. Nach Schneewind
gesamten Testprozess. Dabei sind die fr bestimmte Bedingungen relevanten Standards (1969:211) sollte die Testtheorie, die sich mit dem Testen und Messen beschftigt,
vor der Testanwendung definiert. Die APA fhrt des Weiteren mehrere Indikatoren an, gesellschaftliche Bedingungen, formale Testerstellungsmethoden und -prinzipien und
die am Testprozess beteiligt sind. Die im Zusammenhang dieser Arbeit interessanten von schlielich den Testinhalt insgesamt bercksichtigen, um die Entwicklung standardisierter
der APA angefhrten Indikatoren sind: Testentwickler, Personen, die Tests vermarkten, Tests zu gewhrleisten. Diese werden zum Beispiel dadurch definiert, dass durch eine
Testbewerter und schlielich diejenigen, die entweder freiwillig oder notwendigerweise Standardisierungsstichprobe die Zielpopulation bestimmt wird (Schelten 1980:73). Somit
Tests ablegen. Die Standards sind fr die unterschiedlichen Indikatoren definiert, aber entstehen Normen, an denen die Leistungen oder Merkmalsausprgungen einzelner
zugleich beschreibt die APA die Schwierigkeit, ihnen die definierten Standards Testteilnehmer gemessen werden knnen.
zuzuordnen. Dennoch fokussiert sie in erster Linie auf die Verantwortung bestimmter
Was impliziert aber der Begriff des Messens? Die APA definiert in ihren Standards das
Indikatoren:
standardisierte Messen als Synonym zum Begriff Test. Standardisiertes Messen ist der
(...) the test development process, which focus primarily on the responsibility of test Referenzrahmen der entwickelten Standards und setzt sich folgendermaen zusammen
developers (), specific uses of applications, which focus primarily on responsibilities of (APA 2004:3):
test users () and the rights and responsibilities of test takers (APA 2004:2).
(...) measures of ability, aptitude, achievement, attitudes, interests, personality,
Die Standards basieren auf der Prmisse, dass alle Indikatoren des Testprozesses die cognitive functioning and mental health (...).
jeweils maximale Leistung erbringen sollten, damit von effektivem Testen die Rede sein
In diesem Zusammenhang sind Testpersonen die empirisch vorfindbaren Messobjekte,
kann:
die innerhalb dieser empirischen Beziehungen existieren. Diese mssen jedoch anhand
(...) that all participants in the testing process possess the knowledge, skills, and einer Messtheorie bzw. einer Testtheorie begrndet werden. Dabei soll unter anderem
abilities relevant to their role in the testing process, as well as awareness of personal and der Frage nachgegangen werden, wie zum Beispiel die Reaktion von Testteilnehmern auf
contextual factors that may influence the testing process (APA 2004:2). eine zu bewltigende Aufgabe mit dem zu messenden Kriterium zusammenhngt.
Hinsichtlich dessen definiert Rost (2004:21), dass sich die Testtheorie mit dem
Im Zusammenhang dieser Arbeit sollte demnach das adquate Wissen
Zusammenhang von Testverhalten und dem zu erfassenden psychischen Merkmal
psychometrischer Prinzipien, wie das der Validitt, von Testentwicklern und Ratern
beschftigt.
gegeben sein. Neben anderen Gtekriterien der Testtheorie soll insbesondere die
Relevanz der Validitt in Kap. 4.4.1 ausfhrlich angefhrt und kritisiert werden.

75 Diese Definition Lienerts lehnt sich an: Warren, H.C.: Dictionary of Psychology. Boston 1934.

79 80
4.2 Sprachtests: Intentionen und Ziele Leistungen nur dann zu erreichen, wenn das zu messende Kriterium schon im Vorfeld
festgesetzt ist. Anhand von kriteriumsorientierten Tests wird direkt ein Ziel definiert. Das
Die Entscheidung, in welchen sozialen Ort hinein ein Individuum mit einem bestimmten
Ziel ist in unserem Zusammenhang ein Kriterium, eine ganz bestimmte Kompetenz,
Testresultat klassifiziert wird, wird nicht eigens vom Test gefllt, denn nach Tenopyr
nmlich die Schreibkompetenz in der Fremdsprache, zu messen. Kriteriums- oder auch
(1981:1121) sind es nicht die Tests, die gegenber verschiedenen Gruppen
Kompetenzorientierung ist solange kein Synonym fr Prfungsorientierung, wie der
voreingenommen sind, sondern die Tester. Die Entscheidung der Tester, oder in
wahre Wert bzw. die wahre Kompetenz eines Prfungsteilnehmers nicht stabil als
unserem Sinne der Rater, wird hchstens vom Test vorbereitet. Die Existenz der
objektiv, valide und reliabel ermittelt wird, wenn also nicht von einem akkuraten Rating
Testsituation ist also eine Folge der Absicht, ber die Zuordnung zu sozialen Orten zu
ausgegangen werden kann. Insgesamt muss sich der Testentwickler einer
entscheiden. Cronbach (1980:103) fordert die Rechtfertigung des ganzen
standardisierten Sprachstandsprfung im Vorfeld ber seine Grundlage und die
Selektionssystems, nicht nur die des Tests. In diesem Sinne ist es ganz irrelevant,
Testabsicht bewusst sein. Er muss ein Modell der Sprachfhigkeit definieren, worauf er
welche Formen von Tests benutzt werden und nach welchen Testtheorien diese konzipiert
schlielich den Test aufbauen kann. Eine Basis fr die Definition der zu messenden
sind.
Kompetenzen stellt das kommunikative Kompetenzmodell des GER dar (vgl. Kap. 2.2.1,
Es wurde bereits definiert, was einen Test im generelleren Sinne ausmacht. Hinsichtlich Tabelle der Kompetenzen). Das Sprachfhigkeitsmodell, das zunchst von Bachman
der vorliegenden Arbeit muss nun der Frage nachgegangen werden, was ein (1990) definiert und von Bachman/Palmer (1996) leicht modifiziert wurde, ist bereits
Sprach(stands)test messen oder gar erfahren mchte. Jung (2001:221) definiert, dass exemplarisch angefhrt worden. In dieser Arbeit wird Bezug auf das vom GER definierte
man Sprachtests durchfhrt, um einen Einblick in die Sprachkompetenz einer Person Modell genommen, welches nach Grotjahn (2001:84) relativ detailliert die der
bzw. eines Lerners zu bekommen. Grotjahn (2000:304f.) hat den Testbegriff Verwendung und dem Erlernen von Sprachen zugrunde liegenden allgemeinen und
wissenschaftliches Routineverfahren der am Anfang dieses Kapitel initiierter Definition sprachbezogenen Kompetenzen beschreibt. Auf derartigen kommunikativen Modellen
Lienerts im Sinne formeller und informeller Sprachprfungen erweitert: basierend, entwickeln Testanbieter wie das Goethe-Institut und das Test DaF-Institut
demnach ihre Prfungen.76 Speziell im Vorfeld erarbeitete Prfungscurricula sollen
Unter Test soll jegliches Prfverfahren gefasst werden, das Individuen unter
folglich nicht mehr das Wissen an sich berprfen, sondern Aufschluss darber geben,
kontrollierten Bedingungen zu bestimmten Handlungs- und Verhaltensweisen veranlasst,
welche Kompetenzen und sprachlichen Handlungen von einem Prfungskandidaten
die Rckschlsse ermglichen sollen auf zugrunde liegende Persnlichkeitsmerkmale wie
erwartet werden. Dabei werden fr das Messen von Sprache bzw. das jeweilige
Sprachfhigkeit oder Wissenstrukturen, auf spezifische Fertigkeiten wie das Schreiben
Interlanguagestadium der Lerner die klassischen vier Kompetenzen berprft, um das
von fremdsprachigen Zusammenfassungen und/oder auf den Stand in Bezug auf einen
Kriterium der Reliabilitt zu erfllen (Wiedenmeyer 2006:56). Erwhnt sei an dieser
bestimmten Mastab, wie z.B. Lehrziele oder Leistung in einer Vergleichsgruppe.
Stelle auch das DIALANG-Projekt, das ein virtueller Sprachtest ist, der auf den
Diese Definition kann fr verschiedene Arten von Sprachtests und ihrem jeweiligen Kompetenzstufen des GER basierend Lernern die Mglichkeit bietet, ihre
Verwendungszweck stehen und Anwendung finden. Es gibt Sprachtests, die innerhalb Sprachkompetenz in den klassischen vier Fertigkeiten (LV, HV, SA, MA) zu berprfen.77
einer Gruppe vonstatten gehen und wobei diese den Bezugsrahmen bzw. die kollektive Wie kann Sprachkompetenz schlielich ermittelt bzw. gemessen werden? Unter 4.3.1
Norm bilden. Die Leistung einer Person wird also am Leistungsniveau der entsprechenden wird angefhrt, welche Itemarten ausgewhlt werden mssen, um nach der
Gruppe gemessen. Diese normorientierte Testart gibt lediglich Auskunft ber das Ranking Bedarfsanalyse und dem zugrunde liegenden kommunikativen Modell einen guten Test zu
innerhalb der Gruppe und sagt prinzipiell nichts darber aus, wie man hinsichtlich des zu erstellen, der allen testtheoretischen Gtekriterien sowohl hinsichtlich des Aufbaus als
messenden Kriteriums abgeschnitten hat. Der normorientierte Test kann je nach Gruppe auch der Bewertung gerecht wird. Diese Koppelung ist besonders wichtig. Geschlossene
variieren, anders ausgedrckt bekme man fr die gleiche Leistung in zwei Items implizieren beispielsweise eine prdestinierte Bewertung, d.h. es gibt einen
verschiedenen Gruppen unterschiedliche Bewertungen, da die Gruppe selbst den Mastab konkreten Lsungsvorschlag, auf den die Rater keinerlei Einfluss haben (knnen). Geht
festsetzt. Derartige Tests sind im Prinzip aussagelos, machen aber den Alltag in der es aber um offene Aufgabenformate, wie das beim schriftlichen Ausdruck der Fall ist, so
Schulpraxis aus (vgl. Glaboniat/Mller 2006). Lehrer stellen derartige informelle Tests ist das zu messende Kriterium auch ein Auftrag an die Rater selber. Es gibt dabei
zusammen, um einerseits den Lernerfolg und die Effektivitt des Unterrichts innerhalb keinerlei Lsungsvorschlge oder Anstze, die das Ratingverfahren vollstndig
einer bestimmten Periode definieren zu knnen und um andererseits daraus resultierend objektivieren knnten. Wie bei informellen Prfungen auch, bleibt den Ratern bei diesen
die curricularen Lehrinhalte weiterhin zu planen. Diese informelle Testerstellung und die Aufgabenformaten standardisierter Prfungen, die etwas Produktives erfordern, ein
von Lehrern angesetzten Bewertungskriterien sind im Sinne dieser Arbeit nicht von gewisser Bewertungsspielraum. Standardisierte Tests sollen aber international
Bedeutung und werden nicht weiter ausgefhrt werden. Zentrales Anliegen ist die vergleichbar gemacht werden, um allgemein gltige Aussagen ber den Sprachstand
Auseinandersetzung mit der Thematik formeller Tests. Diese gelten zunchst als bzw. die Struktur von Sprachkompetenz einer Person zu machen (vgl. Perlmann-Balme
standardisiert und haben im Gegensatz zu der oben erwhnten Testkategorie ein 2006/Glaboniat/Mller 2006).
gesetztes Kriterium als Mastab. Man spricht hierbei von einer kriterienbezogenen Norm.
Dabei wird keinerlei Rcksicht auf die interpersonellen Leistungen genommen. Der
Sprachstand wird daran gemessen, ob und inwieweit der Kandidat das zu messende
76 Das Goethe-Institut basiert seine Prfungen auf dem Modell der Kommunikationsfhigkeit von Bachman/Palmer, vgl.
Kriterium erfllt, um anhand dessen seine Sprachkompetenz zu erkennen (Vollmer Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 14
2003:273). Laut des GER (2001:30) ist die Transparenz und die Vergleichbarkeit von 77 http://www.goethe.de/Z/50/commeuro/c.htm Stand 20. 06. 2007

81 82
Weiterhin wird bei Sprachtests zwischen Performanz- und Kompetenztests beobachteten Verhalten eine latente Fhigkeit zugrunde liegt, die das Testverhalten
unterschieden. Wie in Kapitel 3 bereits angefhrt, ist die Performanz die Realisation der steuert.
Kompetenz. Demnach prfen Performanztests das Sprachoutput unter bestimmten
Man konnte bereits sehen, welchen Annahmen die KTT und die IRT zugrunde liegen.
Bedingungen und in bestimmten Situationen, whrend Kompetenztests eher als
Erstere nimmt an, dass sich der beobachtete Wert aus einem wahren Wert und einem
Sprachwissenstests bezeichnet werden knnten. Grotjahn (2000:322) beschreibt die
Fehlerwert zusammensetzt. Letztere geht davon aus, dass die Wahrscheinlichkeit einer
Modellierung zielsprachlicher Aufgaben und Verwendungssituationen durch Items und die
Reaktion der Testperson als eine Funktion aus der Fhigkeit der Testperson und der
Reaktion darauf als Performanztest. Hingegen liegt den Testaufgaben bei einem
Schwierigkeit der zu bearbeitenden Aufgabe dargestellt werden kann. Das in unserem
Kompetenztest ein konkretes Modell der beim Sprachgebrauch beteiligten Kompetenzen
Sinne wichtige kriteriumsorientierte Messen richtet sich nach der Frage, ob ein
zugrunde. McNamara (1996:43ff.) unterscheidet analytisch zwischen zwei verschiedenen
Testteilnehmer ein bestimmtes Kriterium erfllt hat oder nicht. In einem
Formen von Performanztests. Whrend die abgeschwchte Form die sprachliche
kriteriumsorientierten Test werden Testleistungen eines Testteilnehmers mit inhaltlich
Performanz in den Mittelpunkt stellt, definiert die starke Version eines Performanztests
genau definierten Zielen verglichen (vgl. auch Klauer 1987). Mithilfe statistischer
die Problemlsung und nicht die gezeigte Sprachleistung. Die starke Version eines
Verfahren und testtheoretischen Anstzen wird dann berprft, was und wie gut das
Performanztests kann meiner Ansicht nach aber die Raterobjektivitt in groen Mae
Kriterium getestet, gemessen und bewertet wird.
bezglich der Bewltigung der Aufgabenstellung einschrnken.
Interessant ist das Beispiel lehrzielorientierte Tests. Normorientierung definiert die APA
(2004:50) als norms (that) assist in the classification or description of examinees.
Kriterienorientiert sind der APA entsprechend die Tests, die sich nicht auf die Fhigkeiten
4.3 Verschiedene Anstze der Testtheorie
und Leistungen anderer Testteilnehmer, sondern auf die individuelle Leistung eines jeden
Es haben sich verschiedene testtheoretische Modelle herausgebildet, die eine Testteilnehmers hinsichtlich des zu messenden Kriteriums beziehen. Das aus dem
Verbesserung der Testentwicklung anstreben. Whrend die klassische Testtheorie Griechischen stammende wird als das Ma zur Bewertungs- bzw.
annimmt, dass sich der beobachtete Wert aus dem wahren Wert und dem Fehlerwert Meinungsbildung definiert. Demnach kann man fr die Zwecke dieser Arbeit weitere
zusammensetzt, geht die probabilistische oder auch stochastische Testtheorie davon aus, spezielle Bedeutungen ergnzen. Ein Kriterium kann ein zu erreichendes Lehrziel, ein
dass die Wahrscheinlichkeit der Reaktion einer Testperson funktional aus ihrer Fhigkeit Leistungskontinuum oder ein Leistungsstandard sein, der gewissen Normen unterliegt.
und der Aufgabenschwierigkeit entsteht. Diese zwei und ein weiterer alternativer Nach Vollmer (2003:273) mssen kriteriumsorientierte Tests idealnormiert sein, denn
testtheoretischer Ansatz sollen im Folgenden vorgestellt und der APA gegenber gestellt das Ziel dieser Leistungsmessung ist die Erfassung der Leistung im Rahmen eines
werden. Dabei wird auf die im Rahmen dieser Arbeit wichtigsten Aussagen eingegangen, definierten Aufgabenbereichs und von auen rekurriertem Kriterium (im hiesigen Sinne
wobei aber die Standards der APA den Bezugsrahmen bilden. die Kompetenz im schriftlichen Ausdruck).

ber 95% aller Tests auf dem Markt werden anhand der Skalierungsmethode der
Itemanalyse der Klassischen Testtheorie (KTT) entwickelt. Dabei macht die Klassische
Testtheorie weniger Aussagen darber, ob eine Beziehung zwischen dem Verhalten der 4.3.1 Das Itemuniversum
Testperson und der latenten Merkmale besteht. Sie fasst eher Annahmen ber erzielte Will man ein bestimmtes Merkmal mithilfe eines Tests messen, so sollte man zunchst
Messwerte zusammen. Das Resultat einer Messung im Sinne der KTT wird von eruieren, ob ein derartiger Test bereits existiert. Sollte dies nicht der Fall sein, kann mit
Messfehlern berlagert, die unter anderem mit der Itemauswahl zu tun haben (vgl. Kap. der Planung einer eigenen Testkonstruktion begonnen werden. Laut APA (2004:37) wird
4.3.1). Die Weiterentwicklung der Klassischen Testtheorie findet sich im Begriff der die Testentwicklung vom Testzweck und dem zu messenden Konstrukt gelenkt:
Modernen Testtheorie wieder. Mittels statistischer Prfungen sollen Modellgltigkeiten in
Erfahrung gebracht werden. Whrend das deterministische Testmodell der KTT dem The process of developing educational and psychological tests commonly begins with
Alles-oder-Nichts-Prinzip unterliegt, d.h. der Testkandidat lst eine Aufgabe bzw. ein a statement of the purpose(s) of the test and the construct or content domain to be
Item oder nicht, basieren probabilistische Testmodelle, wie z.B. die Item Response measured.
Theorie auf einem Wahrscheinlichkeitsprinzip. In diesen testtheoretischen Modellen geht Dabei bercksichtigen die Standards sowohl Inhalt, Format, Testkontext und potentielle
man davon aus, dass die Wahrscheinlichkeit einer bestimmten Reaktion auf die Konsequenzen der Testanwendung, als auch konkrete Bedingungen der Testanleitung
festgesetzten, einzelnen Items von einer testunabhngigen latenten Dimension abhngig und der Bewertungskriterien. Die Definition eines Testzwecks fhrt laut APA erst dann
ist. Beobachtetes Verhalten definiert hier nur einen Indikator fr ein latentes Merkmal, zum Produkt Test, wenn folgende vier Phasen bercksichtigt werden (APA 2004:37):
auf dessen Ausprgungsgrad geschlossen werden soll. Dieses Modell basiert folglich auf
der Annahme eines latenten Kontinuums, auf dem jeder eine bestimmte Ausprgung
aufweist (vgl. Mller 1999). Somit wird die Wahrscheinlichkeit einer manifesten Reaktion
in Abhngigkeit von der Ausprgung des latenten Merkmals einer Person beschrieben
(Embretson/Reise 2000:46f.). Rost/Spada (1982:60) definieren diesbezglich, dass dem

83 84
delineation of the purpose(s) of the test and the scope of the construct or the Es erweist sich als schwierig, produzierte schriftliche Aufgaben zu standardisieren.
extent of the domain to be measured Derartige Itemformen bilden den Rahmen fr die Kritik ihrer Konstruktion und der Ihnen
zur Verfgung stehenden Bewertungskriterien. Das offene Itemkonstrukt des
development and evaluation of the test specifications
schriftlichen Ausdrucks wird in Kapitel 5 ausfhrlich und anhand von konkreten
development, field testing, evaluation, and selection of the items and scoring Konzepten und existierenden Kriterienkatalogen von Testanbietern fr den DaF-Bereich
guides and procedures analysiert und beurteilt, sodass die so genannten und in Kap. 4.4 beschriebenen
assembly and evaluation of the test of operational use Gtekriterien wie Objektivitt, Reliabilitt und Validitt ihre Gltigkeit beibehalten
knnen.
Die erste Phase besteht demnach darin, das Testkonstrukt als erstes deutlich zu
beschreiben und zu definieren. Im zweiten Schritt muss das Konstrukt auf einen Test hin Gute Items knnen durch inhaltliche Kriterien definiert werden. Sie sollten die
spezifiziert werden, damit es gemessen werden kann. In diesem definierten wesentlichen Aspekte des zu messenden Kriteriums erfllen. Abschlieend ist ein gutes
Geltungsbereich oder auch Referenzrahmen muss im Sinne der Thematik dieser Arbeit Item von seiner speziellen, konkreten und wirklichkeitsnahen Gestaltung abhngig
der Frage nachgegangen werden, was alles im schriftlichen Ausdruck des Niveaus B2 (Lienert 1961:38). Den probabilistischen Testtheorien entsprechend existiert fr jedes
bzw. C1 gefordert wird. Der nchste Schritt besteht nach der Definition der KTT darin, Item ein so genannter kritischer Wert, ab dem ein Item als gelst gilt. Die
Items zu entwerfen, mit denen das Konstrukt berprft werden kann. Diesen Schritt Itemcharakteristik wird in diesem Sinne nicht deterministisch definiert (Wottawa
nennt die APA Testspezifizierung (APA-Standard 3.2:43): 1980:46ff.). Sie ist hier die Funktion, die jedem Wert auf dem latenten Kontinuum eine
Lsungswahrscheinlichkeit zuordnet. Probabilistisch existieren bestimmte
The purpose(s) of the test, definition of the domain, and the test specifications should Grundannahmen fr die Itemcharakteristik. Zum einen lsst sich eine Person hinsichtlich
be stated clearly so that judgements can be made about the appropriateness of the ihrer Fhigkeit, ein bestimmtes Item zu bewltigen, durch den so genannten
defined domain for the stated purpose(s) of the test and about the relation of items to Personenparameter auf einer eindimensionalen Skala charakterisieren. Unabhngig
the dimensions of the domain they are intended to represent.
davon, ob der latente Fhigkeitswert qualitativ oder quantitativ ist, muss er anhand
Darin ist aber nicht nur die Definition der Items, sondern sind zudem Faktoren wie beobachtbarer Variablen geschtzt werden, um zum Beispiel das Kontinuum zu
Norm- oder Kriteriumsorientierung enthalten, welche wie folgt definiert werden (APA- bestimmen.
Standard 3.4:43): Tests mssen den Kriterien der Objektivitt, der Reliabilitt und der Validitt gerecht
The procedures used to interpret test scores, and, when appropriate, the normative or werden (vgl. Lienert 1961/Lienert/Raatz 1998). Das kann aber nur dann erreicht werden,
standardization samples or the criterion used should be documented. wenn auch seine Items diese Qualitten besitzen. Objektiv ist ein Item, wenn es unter
den Ratern bereinstimmung darin gibt, ob eine Lsung, in unserem Sinne eine
Das ist insofern wichtig, denn normorientierte Werte wrden an Populationswerten
schriftliche Lernerproduktion, richtig oder falsch ist. Von einem reliablen Item spricht
gemessen und eingestuft (qualitativ), whrend kriteriumsorientierte Werte an dem zu
man dann, wenn es auch bei Wiederholung auf die gleiche Art und Weise vom
messenden Kriterium festgemacht werden und die individuelle Kompetenz widerspiegeln
Testteilnehmer gelst wird. Natrlich muss man an dieser Stelle bedenken, dass sich ein
(quantitativ). Anders ausgedrckt, sollte die Produktion jedes einzelnen Testteilnehmers
zu messendes Kriterium, konkret die schriftliche Kompetenz in der Fremdsprache, nach
mithilfe der Aufgabenstellung im schriftlichen Ausdruck B2/C1 der Kompetenz
einer bestimmten Periode sowohl verbessert als auch verschlechtert haben kann. Das
entsprechend abgebildet werden.
Sprachniveau kann entweder fossilieren, zurck gehen oder sich verbessern.78 Die
Items werden fr Testzwecke definiert. Ein Item ist die kleinste Einheit eines Tests, die Validitt eines Items ist im Sinne der Trennschrfen zu verstehen. Dabei wird
das interessierende Kriterium inhaltlich reprsentiert (z.B. Aufgabe fr den schriftlichen Trennschrfe als ein zentrales Gtekriterium fr Items betrachtet, das zwischen guten
Ausdruck). Eine Menge von Items macht demnach den Test aus. Items knnen in den und schlechten Testteilnehmern bzw. ihren Merkmalsausprgungen trennt (Lienert
verschiedensten Formen auftreten, d.h. ihre Intention bzw. ihr Zweck kann variieren. 1961:36, Rost 2004:369). Im Unterpunkt Itemanalyse wird noch nher auf diese und
Items definieren die Art und Weise, in der die Bearbeitung einer Testaufgabe erfolgt. andere Itemkennwerte eingegangen.
Die Testentwickler sollen die Items so zusammenstellen, dass sie den Anforderungen
der Testspezifizierung im Sinne der APA gengen. Die ausgewhlten Items sollten sowohl
gut durchfhrbar, objektiv auswertbar als auch so beschaffen sein, dass die Subjektivitt
des Bewerters so stark wie mglich begrenzt und auch die Testkonomie bercksichtigt
wird (Lienert 1961:22). Die fr die vorliegende Arbeit zentralen Aufgabenformate sind
offen bzw. frei, wobei keine Alternativen vorgegeben sind. Derartige Itemgestaltungen
erfassen eine groe Breite des zu messenden Konstrukts. Die Antwort bzw. Reaktion auf
dieses Aufgabenformat kann mithilfe des Aufgabeninputs (auch Legende genannt)
realisiert werden. Gegen die Benutzung bzw. der teilweisen bernahme der Legende ist
meines Erachtens aber nichts einzuwenden, wenn dies situations- und kontextspezifisch 78 Inwieweit die Reliabilitt einer gestellten Aufgabe auch fr das offene Aufgabenformat geltend gemacht werden kann, wird
sich im 5. Kapitel der vorliegenden Arbeit herausstellen.
passiert.
85 86
4.3.1.1 Itemrevision In dieser Phase der Testerstellung gilt es zu klren, ob die Items der Testabsicht
entsprechen. Es wird der Frage nachgegangen, welche Items entweder von allen oder
Nachdem fr die Itemkonstruktion verschiedene Quellen zur Hilfe herangezogen wurden,
von niemandem gelst wurden, denn genau derartige Items lassen keinen Rckschluss
mssen die Items nun berdacht werden. Bei der Itemrevision soll unter anderem auf
auf die dem Lsungsverhalten unterstellte Kompetenz der Testperson zu, da es scheint,
sprachliche Verstndlichkeit und klaren Formulierungen geachtet werden. Die Items
dass alle Testteilnehmer die Aufgabe gleichermaen behandelt haben (Grubitzsch
werden laut APA nach ihrer Qualitt, Klarheit und dem Mangel an Mehrdeutigkeit
1999:133). Verschiedene Itemkennwerte berprfen Items nach verschiedenen Kriterien.
berarbeitet und neu formuliert. Der Testentwickler ist schlielich verantwortlich, wenn
Die Schwierigkeit eines Items differenziert in der KTT lediglich zwischen hohen und
es um die Gewhrleistung der Testspezifizierung geht (APA 2004:39). Der Standard 3.6
niedrigen Merkmalsausprgungen. Dabei ist der Schwierigkeitsindex die
des Kapitels Test Development and Revision definiert (APA-Standard 3.6:44):
Wahrscheinlichkeit, mit der ein bestimmtes Item innerhalb der Eichstichprobe gelst
The type of items, the response formats, scoring procedures, and the test wird. Wird ein Item von vielen gelst, so ist sein Schwierigkeitsgrad eher leicht.
administration procedures should be selected based on the purposes of the test, the Demgegenber gilt ein Item, das von wenigen gelst wird, als eines schwierigen Niveaus.
domain to be measured, and the intended test takers. To the extent possible, test Was die Itemschwierigkeit in der probabilistischen Testtheorie betrifft, so spricht man von
content should be chosen to ensure that intended inferences from test scores are equally Aufgabenmerkmal, wenn jedes Item auf einer latenten Dimension einen bestimmten
valid for members of different groups of test takers. The test review process should latenten Wert hat.
include empirical analyses and, when appropriate, the use of expert judges to review
Dass das Kriterium der Trennschrfe von erheblicher Bedeutung ist, betonte bereits
items and response formats. The qualifications, relevant experiences, and demographic
Ziehen (1897), der Prinzipien und Methoden der Intelligenzprfung definierte (Lienert
characteristics of expert judges should also be documented.
1961:8). Trennschrfe ist ein Indikator dafr, wie gut ein einzelnes Item das gesamte
Gute Verstndlichkeit und Eindeutigkeit der Items richtet sich immer nach der Testergebnis reprsentiert. Ein trennscharfes Item soll leistungsfhigere von
Zielpopulation, was eine notwendige Voraussetzung ist (Lienert 1961:60ff.). In Bezug auf leistungsschwcheren Testteilnehmern trennen knnen. Hierbei gibt der
die hier vorliegende Arbeit sind die Regeln der Itemerstellung und revision und folglich Trennschrfekoeffizient Auskunft darber, ob ein einzelnes Item oder gar der gesamte
der Gewhrleistung der Inhaltsvaliditt (s. 4.4.1.1) insofern von Bedeutung, als die Test in der Lage ist, die Spreu vom Korn zu trennen. Die Trennschrfe gibt also an,
daraus entstehende Aufgabentypologie und ihre Formulierung entscheidend fr das inwieweit die Menge der Lsungen ber alle Items identisch bleibt und wird demnach als
Verstndnis der Aufgabe und folglich ihrer Bearbeitung sind (siehe Kapitel 5). Aus die Korrelation zwischen Item- und Testscore79 definiert. Testpersonen, die einen hohen
diesem Grunde sollte folgender Standard nicht unbercksichtigt gelassen werden (APA- Wert in einem Item erzielt haben, sollten auch in den anderen Testitems hohe Werte
Standard 3.7:39): erbringen. Dadurch wrde die Homogenitt der Items gewhrleistet werden. Balancierte
The procedures used to develop, review and try out items, and to select items from Items, d. h. mit mittlerer Schwierigkeit, besitzen die grte Trennschrfe. Items, deren
the item pool should be documented. If the items were classified into different categories Schwierigkeitsgrade klein oder gro sind, sind weniger trennscharf, denn es ist
or subtests according to the test specifications, the procedures used for the classification offensichtlich, welche Verteilungen entstehen wrden. Bei der Frage wie stark alle Items
and the appropriateness and accuracy of the classification should be documented. das gleiche Merkmal messen, bezieht man sich auf die Homogenitt (Grubitzsch
1999:136). Dabei wird unterschieden zwischen der Homogenitt pro Item und der
Homogenitt des Tests. Itemhomogenitt heit nach Rost (2004:100), dass alle Items
dieselbe latente Variable ansprechen. Homogen sind die Tests, deren Items zwar keine
4.3.1.2 Itemanalyse
identischen jedoch hnliche Merkmalsfacetten reprsentieren. Heterogene Tests hingegen
Die letzte Phase der Testkonstruktion ist schlielich die Itemanalyse, welche zur besagen, dass Items unterschiedliche Merkmalsfacetten erfassen.
Erhhung der Reliabilitt und Validitt beitrgt, indem nicht adquate Items
Die Folge der Itemanalyse ist die Itemselektion, wo man verschiedenartig vorgehen
ausgeschlossen werden (Lienert 1961:67ff.). Die APA betont, dass fr diese Phase der
kann. Selektiert man inhaltlich, so bercksichtigt man die Anschaulichkeit, den
Testkonstruktion das angewandte testtheoretische Modell explizit angegeben werden
theoretischen Hintergrund, den Aufgabentyp und andere inhaltsgleiche Items. Erfolgt die
sollte (APA-Standard 3.9:44):
Auswahl statistisch, dann eliminiert man Items z.B. aufgrund ihrer niedrigen
When a test developer evaluates the psychometric properties of items, the classical Trennschrfe.
or item response theory (IRT) model used for evaluating the psychometric properties of
Die hier angefhrten Itemkennwerte charakterisieren einen Test von seinen Items her.
items should be documented. The sample used for estimating item properties should be
Ausschlaggebend fr einen Test sind zudem verschiedene Gtekriterien, die im
described and should be of adequate size and diversity fort he procedure. The process by
Folgenden angefhrt werden. Gtekriterien geben Aufschluss darber, ob ein
which items are selected and the data used for item selection, such as item difficulty,
konstruierter Test die ntigen Qualitten aufweist. Man unterscheidet klassisch zwischen
item discrimination, and/or item information, should also be documented. When IRT is
Haupt- und Nebengtekriterien. Die Begriffe seien im Folgenden aus verschiedenen
used to estimate item parameters in test development, the item response model,
Perspektiven beleuchtet und entsprechend definiert.
estimation procedures, and evidence of model fit should be documented.

79 Score wird im Sinne eines Werts gebraucht.

87 88
Eignen sich alle Aufgaben zur guten Messung des Sprachstandes im schriftlichen
Ausdruck? Wird zustzlich noch etwas Anderes gemessen? (vgl.
4.4 Testtheorien und Gtekriterien Konstruktvaliditt)

Es wurden bereits die Rahmenbedingungen fr Testkonstruktion, Testdurchfhrung und Was wrde man messen, wenn man die Aufgaben anders stellen wrde? Knnte
Testbewertung beschrieben und definiert. Testtheoretische Anstze und der man zwei parallele Tests erstellen, die austauschbar wren? (vgl. Reliabilitt)
Referenzrahmen der APA versuchen die Entwicklung und den Gebrauch von Tests zu
Ist jeder Testteilnehmer ber den Verlauf und die Bewertung des Tests informiert?
evaluieren. Worin bestehen aber die praktischen Probleme, die zur Beschftigung mit
(vgl. Durchfhrungsobjektivitt)
Testtheorien fhren? Um diese Frage beantworten zu knnen, sei zunchst ein Beispiel
aus der Schulpraxis angefhrt: Ist dieser Test fr alle Testteilnehmer gleichermaen fair? (vgl. Fairness)

Ein DaF-Lehrer mchte eine Klassenarbeit im schriftlichen Ausdruck in Form eines Ist die angesetzte Zeit fr diesen Test ausreichend? (vgl. Praktikabilitt)
persnlichen Briefes zur berprfung des Sprachstandes schreiben lassen. Bei der
Planung dieses Tests tauchen pltzlich diverse technische und praktische Grundprobleme
Nachdem der Begriff des Tests bereits definiert und erweitert wurde, kann man an
auf, da ihm leider das Grundwissen ber Formen der Testerstellung und
dieser Stelle nunmehr, nach der Betrachtung der Problematik bei der Testerstellung, der
Leistungsmessung fehlt (vgl. Bolton/Perlmann-Balme 2006). Der Lehrer stellt sich, in der
Frage nachgehen, was denn einen guten Test, eine gute Testkonstruktion und folglich
Funktion des Testentwicklers und Testanwenders, sowohl Fragen bezglich der
eine gute Bewertung auszeichnet. Was wird vorausgesetzt, damit von einem guten Test
Durchfhrungsobjektivitt des Tests und des Aufgabenformats als auch der Bewertung im
ausgegangen werden kann? Der Deutschlehrer in unserem Beispiel hat vermutlich schon
nachhinein. Zunchst einmal sollte sich der Testentwickler darber klar sein, dass ein
eine Vorstellung darber, was er bei seinen Schlern testen will, ist sich aber ber die
Testaufbau nicht nur Aufgabenerstellung impliziert. Um von einer guten Testkonstruktion
korrekte Testerstellung, die Qualitt der Messmethode bzw. des Tests und der Einhaltung
auszugehen, mssen verschiedene, auch retrospektive oder formale, Aspekte bedacht
bzw. Existenz der testtheoretischen Gtekriterien weder im Klaren noch bewusst.
werden. Ob auf den Unterricht, das Lernziel, den Testaufbau, den Lerneffekt oder das
Verhalten der Aufsichtsperson bezogen, alle diese Aspekte mssen, um einen objektiven, Ein guter Test hat als erstes den Anspruch objektiv, zuverlssig und gltig zu sein.
validen, reliablen und neben anderen Kriterien fairen Test zu erhalten, bedacht und Diese drei und weitere Kriterien sollten sich aus der Sicht der KTT sptestens nach der
entsprechend eingehalten werden. Wrden die folgenden Fragestellungen bei einer Itemselektion ergeben, sodass das entwickelte Testkonstrukt entweder beibehalten oder
Testkonstruktion nicht aufkommen oder bercksichtigt werden, dann wre im Sinne des revidiert werden kann. Die als Hauptgtekriterien eines Tests geltenden
GER zum einen das Kriterium der Transparenz und Vergleichbarkeit zu anderen Tests Schlsselkonzepte Objektivitt, Reliabilitt und Validitt bedingen sich logisch. Zunchst
(vgl. Glaboniat/Mller 2006) und zum anderen die von der APA definierte werden die Hauptgtekriterien auf der APA und den Standards basierend definiert
Testspezifizierung nicht gegeben: werden. Das Kriterium der Validitt stellt fr diese Arbeit das wichtigste Kriterium dar,
denn die Thematik verlangt die Beantwortung der Frage, ob die Bewertungskriterien
schriftlicher Lernerproduktionen valide sind. Es folgen anschlieend die Kriterien
Welche Kompetenzen will man im schriftlichen Ausdruck messen bzw. prfen, um Reliabilitt und Objektivitt. Weitere Kriterien, ber die es in der Literatur
eine valide Aussage ber den Sprachstand80 der Schler zu bekommen? (vgl. Unstimmigkeiten bezglich ihrer Rangordnung und Wichtigkeit gibt (vgl. Tschirner 2001),
Konstruktvaliditt) sollen im Sinne der Thematik dieser Arbeit aufgezeigt werden.
Sind die Prfungsteile ausreichend und entsprechend formuliert, um die zu
messende Kompetenz abzudecken? (vgl. Konstruktvaliditt)

Knnen anhand der erzielten Testwerte Aussagen ber den Grad der zu 4.4.1 Validitt
messenden Kompetenz gemacht werden? (vgl. Konstruktvaliditt) Laut APA ist Validitt the most fundamental consideration in developing and evaluating
Sind die Aufgabenformate und deren Schwierigkeit der Kompetenzen und tests (APA 2004:9). Validitt soll angeben, wie zuverlssig ein Test das misst, was er
Strategien adquat? (vgl. Konstruktvaliditt) vorgibt zu messen. Auf die vorliegende Arbeit bezogen heit dies, dass auch tatschlich
das zu testende Kriterium schriftlicher Ausdruck gemessen werden soll. Der GER definiert
Soll jede Aufgabe einen Punktwert bekommen? Wie gewichtet man die ein Beurteilungs- bzw. Messverfahren dann als valide, wenn nachgewiesen werden kann,
Punkteverteilung? (Inhaltsvaliditt) dass die Information des im jeweiligen Kontext gemessenen Kriteriums eine genaue
Ist der Inhalt der gestellten Aufgabe fr die Reprsentation des gesuchten Abbildung der Kompetenz eines Prflings ist (GER 2001:172). Testziele mssen demnach
Kriteriums ideal ausgewhlt? (vgl. Inhaltsvaliditt) klar definiert sein und das in Abhngigkeit zur spezifischen Testverwendung (Grotjahn
2000:312). Die APA definiert den Validierungsprozess folgendermaen (APA 2004:9):
80 Zu beachten ist, dass mithilfe eines Tests zum schriftlichen Ausdruck lediglich Aussagen zur schriftlichen Kompetenz
The process of validation involves accumulating evidence to provide a sound scientific
gemacht werden knnen, nicht aber zur mndlichen Kompetenz, da ein derartiger Test dafr gar nicht sensitiv ist. Dieser
Fehler wird hufig gemacht, z.B. bei Einstufungstests, die reine Grammatiktests sind und von denen man dann auf das basis for the proposed score interpretations.
Niveau der Lerner schlieen will.

89 90
Dabei sollen sich die bereit gestellten Bewertungsprinzipien auf das zu messende 4.4.1.1 Arten des Validittsbeweises
Kriterium beziehen. Der Anwendungsbereich der Bewertungskriterien muss in diesem
Die APA definiert Validitt im Gegensatz zur klassischen Testtheorie nicht nach der Art
Sinne beschrieben und explizit auf das zu messende Kriterium bezogen und eingegrenzt
sondern nach den verschiedenen Definitionsanstzen. Im Folgenden sollen die
werden. In diesem Zusammenhang betont die APA explizit die Wichtigkeit eines
wichtigsten Validittsbegriffe im Sinne dieser Arbeit aus verschiedenen Blickwinkeln
Referenzrahmens, der anzeigen soll, wie Testwerte zu verstehen sind (APA 2004:9):
betrachtet werden.
The detailed description provides a conceptual framework for the test, delineating the
Die nach der klassischen Testtheorie definierte Inhaltsvaliditt soll angeben, ob der
knowledge, the skills, abilities processes, or characteristics to be assessed. The
Inhalt der ausgewhlten Items das zu messende Kriterium grundstzlich und erschpfend
framework indicates how the representation of the construct is to be distinguished from
erfasst. Der APA entsprechend wird das Inhaltsspektrum eines Tests folgendermaen
other constructs and how it should relate to other variables.
aufgefasst (APA 2004:11):
Whrend im Sinne der APA die Validierung die beabsichtigten Bewertungen bezglich
Test content refers to the themes, wording, and format of the items, tasks, or questions
ihres Gebrauchs untersttzen soll, soll der konzeptuelle Referenzrahmen anzeigen, wie
on a test, as well as the guidelines for procedures regarding administration and scoring.
die Testwerte, hier die schriftlichen Lernerproduktionen, zu bewerten sind. Dabei kann es
natrlich zu Revisionen kommen, wenn zum Beispiel wichtige Aspekte des schriftlichen Testinhalt wird von der APA also viel weiter gefasst, als es der klassische
Ausdrucks auf Niveau B2/C1 nicht einbezogen wurden und das Kriterium dadurch testtheoretische Ansatz tut. Dennoch sollten sich Testinhalt und Testzweck im Rahmen
unterreprsentiert ist. Entsprechendes gilt fr ein berreprsentiertes Konstrukt. des schriftlichen Ausdrucks auf den Niveaus B2/C1 decken. Dabei hngt die
Diesbezglich wird Konstruktirrelevanz von der APA folgendermaen definiert (APA Angemessenheit des Testinhalts laut APA mit den Schlussfolgerungen der Testwerte
2004:10): zusammen. Der Testinhalt kann das Prfungsziel schriftliche Kompetenz mehr oder
weniger bercksichtigen. Aus diesem Grund sollte die Bewertung der Testleistung eines
() refers to the degree to which test scores are affected by processes that are
Prflings im Sinne der APA sowohl den bercksichtigten als auch den nicht
extraneous to its intended construct.
bercksichtigten Inhalt (the content neglected and the content addressed) mit
Die Bewertung einer schriftlichen Lernerproduktion kann folglich durch Komponenten einbeziehen (APA 2004:12). Als wichtig erweist sich in diesem Zusammenhang fr die
beeinflusst werden, die nichts mit dem zu messenden Kriterium gemein haben. Aus APA ebenso der Umfang, in dem die adquate bzw. nicht adquate
diesem Grund sollte der Validierungsprozess sorgfltig durchgefhrt werden, um Konstruktreprsentation Vor- und Nachteile bei Testteilnehmern auslsen kann (APA
mglichen Verzerrungen und Fehlbewertungen auszuweichen. Das 5. Kapitel wird 2004:12):
aufzeigen, dass die Revision der Bewertungskriterien fr den schriftlichen Ausdruck
() construct underrepresentation or construct-irrelevant components may give an
B2/C1 im Sinne der APA Teil des Validierungsprozesses ist. Zu untersuchen ist in diesem
unfair advantage or disadvantage to one or more subgroups of examinees.
Zusammenhang jedoch, inwiefern die revidierten Bewertungskriterien dem
Validittsbeweis gengen, welcher als the joint responsibility of test developer and test Nach der KTT gibt die so genannte Konstruktvaliditt den Grad der Przision an, mit
user (APA 2004:11) zu betrachten ist. der ein Kriterium gemessen wird. Die APA nennt diesen Validittsbeweis Evidence based
on consequences of testing. Es werden Hypothesen hinsichtlich des zu messenden
Die Validitt eines Tests ist im Sinne dieser Arbeit eng mit den Lehrzieldefinitionen
Kriteriums aufgestellt, die anhand der Testwerte Besttigung finden sollen. Wenn sich die
gekoppelt, die wiederum mit den Modellen des Fremdspracherwerbs und den Strukturen
Konstruktvaliditt nicht besttigt, d.h. sie nicht gewhrleistet ist, dann knnen Schlsse
von Sprachkompetenz interagieren (Vollmer 2003:274).
gezogen werden, wie: das Konstrukt bzw. das Kriterium ist nicht existent bzw. hat
In der Tradition der Testtheorie ist Validitt ein Oberbegriff, der verschiedene keinerlei empirische Bedeutung. In diesem Fall wrde der Test alles Andere als das zu
Auslegungen und Formen zulsst, welche nach dem Verwendungszweck oder dem messende Konstrukt messen und wre demnach konstruktirrelevant. Das Kriterium wre
methodischen Vorgehen unterschieden werden. Die verschiedenen Validittskonzepte, die unterreprsentiert, d.h. wichtige Dimensionen wrden gnzlich fehlen (vgl. Messick
Aufschluss ber die Validitt verschiedener Formen von Schlussfolgerungen geben, 1989). Es ist folglich absolut notwendig, das zu messende Kriterium und den Testinhalt
werden sehr inflationr verwendet (APA 2004:11). Die berarbeitung der Standards aus sorgfltig zu berdenken und zu berarbeiteten. Die Inhaltsanalyse muss, auch auf der
dem Jahre 1985, die uns aktuell vorliegt, bezieht sich weniger auf das Differenzieren klassischen Testtheorie basierend, erkennen lassen, welches Merkmal erfasst werden
verschiedener Validittsarten, als um Arten des Validittsbeweises (APA 2004:11): soll.

To emphasize this distinction, the treatment () does not follow traditional In vorliegender Arbeit geht es um den schriftlichen Ausdruck auf den
nomenclature. Niveaubeschreibungen B2 und C1. Der Inhalt dieses Subtests variiert dabei sowohl
innerhalb der Niveaus, als auch unter den Testanbietern, wie man im 5. Kapitel sehen
Die traditionellen Validittsarten, die einer Nomenklatur folgen, sollen im folgenden
wird. Es wird ein Input vorgegeben, auf den man unter Bercksichtigung gegebener
den verschiedenen Definitionsanstzen des Validittsbeweises der APA gegenbergestellt
Informationen schriftlich reagieren soll. Folglich wird ein konkreter Ausschnitt der
werden.
Kompetenz hinsichtlich des Schreibens verlangt. Der Inhalt der Aufgabe bezieht sich auf
eine bestimmte Thematik, die man bearbeiten soll. Der geforderte Wortschatz ergibt sich
demnach aus dem Thema oder der Aufgabenstellung. Die Kann-Beschreibungen des GER

91 92
wollen Aufschluss darber geben, was man auf welcher Stufe knnen muss bzw. soll (vgl. Die erstrangige und zentrale Frage dieser Arbeit ist, wie gut die Bewertungskriterien
Kapitel 2.2.1). Diesbezglich definiert die APA im Kapitel Validity folgenden Standard definiert sind, so dass Bewertungen als valide betrachtet werden knnen. Sowohl die
APA-Standard 1.6:18): Bewertungskriterien als auch die Rater, die diese umsetzen, mssen dem
Validittsbeweis gerecht werden. Durch den Validittsbeweis der internen Struktur eines
When the validation rests in part on the appropriateness of test content, the procedures
Tests soll der APA entsprechend Aufschluss darber gegeben werden, ob die
followed in specifying and generating test content should be described and justified in
Wechselbeziehung zwischen Testitems und anderen Testkomponenten mit dem zu
reference to the construct the test is intended to measure or the domain it is intended to
messenden Kriterium (hier: schriftlicher Ausdruck) und den bereit gestellten
represent. If the definition of the content sampled incorporates criteria such as
Bewertungskriterien bereinstimmen. Es kann durchaus sein, dass der von der APA
importance, frequency, or criticality, these criteria should also be clearly explained and
definierte konzeptuelle Referenzrahmen verschiedene Komponenten testet, diese aber
justified.
trotzdem das Kriterium der Homogenitt erfllen. In unserem Fall werden schriftliche
Laut dieses Standards sollte die Beziehung zwischen Aufgabenformat und der Lernerproduktionen anhand von verschiedenen Kriterien, wie z.B. Inhalt oder
schriftlichen Kompetenz, die ermittelt werden soll, verdeutlicht werden. Dieterich Ausdrucksfhigkeit fest gemacht. Die Summe dieser und anderer Komponenten impliziert
(1973:99ff) spricht an dieser Stelle von reprsentativer Validitt und drngt zur folglich die Kompetenz im schriftlichen Ausdruck. An dieser Stelle knnte man die
Forderung, dass ein gegebener Test das zu erfassende Kriterium im gesamten Unterscheidung zwischen holistischen und analytischen Bewertungsprozessen anfhren
Bedeutungsumfang oder in seiner Reprsentativitt wiedergibt. Es geht folglich darum, (APA 2004:38):
ob die gestellten Aufgaben auch tatschlich das abverlangen, was man als Zielsetzung
Both of the procedures require explicit performance criteria that reflect the test
versteht. In Kapitel 5 wird errtert, inwiefern die gesetzten Bewertungskriterien
framework.() Under the analytical scoring procedure, each critical dimension of the
tatschlich das zu messende Kriterium bzw. eine erwartete Kompetenz in diesem Sinne
performance criteria is judged independently, and separate scores are obtained for each
abbilden knnen. Der Standard 3.14 hlt es fr eine notwendige Voraussetzung die
of these dimensions in addition to an overall score. Under the holistic scoring procedure,
Bewertungskriterien gerade fr den schriftlichen Ausdruck explizit zu machen (APA-
the same performance criteria may implicitly be considered, but only one overall score is
Standard 3.14:46):
provided.
The criteria used for scoring test takers performance on extended-response items
Der analytische Ansatz zeigt Strken und Schwchen eines Testteilnehmers auf,
should be documented. This documentation is especially important for performance
whrend der holistische Ansatz auf eine allgemeine Bewertung ausgerichtet ist.
assessments, such as scorable portfolios and essays, where the criteria for scoring may
Unabhngig von diesen beiden unterschiedlichen Bewertungsanstzen sieht die APA die
not be obvious to the user.
Item- und Bewertungsentwicklung jedoch als einen integrierten Prozess an (APA
Die APA hlt des Weiteren die Beobachtung der Performanzstrategien bzw. der 2004:39). Im 5. Kapitel wird zu sehen sein, ob sich der Validittsbeweis der internen
Antwortprozesse von Testteilnehmern fr eine gute Beweisquelle hinsichtlich der Struktur behaupten kann und welche Bewertungsanstze die einzelnen Testanbieter
Kriteriumsdefinition. Whrend einerseits diese Art des Validittsbeweises dazu beitragen bevorzugen. Dabei soll der Standard 3.22 des Kapitels Test Development and Revision
kann, die Bewertungsunterschiede zwischen Testteilnehmern zu hinterfragen, hngen die nicht auer Acht gelassen werden (APA-Standard 3.22:47):
Bewertungen andererseits jedoch von den Ratern ab. Die zentrale Frage und Aufgabe des
Procedures for scoring and, if relevant, scoring criteria should be presented by the test
Validittsbeweises ist in diesem Fall, den Bereich einzugrenzen, in dem die Rater in ihrer
developer in sufficient detail and clarity to maximize the accuracy of scoring. Instructions
Bewertung konsistent sind. Es stellt sich dementsprechend die Frage, inwieweit und wie
for using rating scales or for deriving scores obtained by coding, scaling, or classifying
Rater die zur Verfgung stehenden Bewertungskriterien anwenden. Dabei muss jedoch
constructed responses should be clear. This is especially critical if tests can be scored
ebenso sicher gestellt werden, dass die Bewertungskriterien nicht durch andere uere
locally.
Faktoren beeinflusst werden. Der folgende Standard definiert sehr deutlich (APA-
Standard 1.7:19): Auch in diesem Zusammenhang versucht die APA den Validittsbeweis zu erbringen
und unterscheidet zwischen convergent und discriminant evidence. Der konvergente
When a validation rests in part on the opinions or decisions of expert judges, observers,
Beweis wird insofern geliefert, wenn die Beziehung zwischen Testwerten und
or raters, procedures for selecting such experts and for eliciting judgements or ratings
verschiedenen Messungen hnliche Konstrukte festsetzt. Gegenstzliches ist bei dem
should be fully described. The qualifications, and experience, of the judges should be
Diskriminanzverfahren zu erwarten. Als hilfreich knnen sich gem der APA
presented. The description of procedures should include any training and instructions
verschiedene Messverfahren entpuppen, wenn es darum geht, Testwerte zu erstellen.
provided, should indicate whether participants reached their decisions independently, and
Eine weitere und hufig benutzte Methode, um Validitt zu ermitteln, zeichnet sich
should report the level of agreement reached. If participants interacted with one another
dadurch aus, dass man sich zur berprfung dieser eines Auenkriteriums bedient. Die in
or exchanged information, the procedures through which they may have influenced one
der KTT definierte Kriteriumsvaliditt, von vielen Autoren auch empirische Validitt
another should be set forth.
genannt,81 vergleicht also, ob sich die Messungen des vorausgesetzten latenten

81 Diese Validierungsmethode der KTT wird anhand von Testwerten ermittelt. Daraus folgt oftmals der Begriff empirische
Validitt

93 94
Kriteriums mit denen des manifesten Auenkriteriums decken. Eine derartige Im Fall einer kriterienbezogenen Validitt kann deshalb hufig auf eine
Validierungsmethode bedingt die Validitt sowohl des latenten als auch des manifesten berprfung der Objektivitt und Reliabilitt verzichtet werden
Kriteriums. Die APA gibt bezglich dieses Validittsbeweises folgende Definition (APA
Ein Test mit ausreichender Validitt und einer geringen Reliabilitt hat
2004:13):
ausgezeichnete Verbesserungschancen, da sich die Reliabilitt und damit
Evidence based on relationships with other variables addresses questions about the zugleich die kriterienbezogene Validitt zumeist testtechnisch leicht erhhen
degree to which these relationships are consistent with the construct underlying the lsst (z.B. durch Aussondern und Hinzufgen von Aufgaben)
proposed test interpretations.
Ein Test mit geringer Validitt und hoher Reliabilitt eignet sich zwar zur
Validitt kann des Weiteren auch unter Beweis gestellt werden, wenn man der Differenzierung zwischen Individuen, jedoch nur sehr bedingt zur Vorhersage
fundamentalen Frage nachgeht, wie genau Testwerte die Kriteriumsleistung voraussagen. des jeweiligen Kriteriums (Test und Kriterium messen nur sehr bedingt das
In der KTT bedient man sich in dieser Hinsicht der Begriffe der prognostischen Validitt Gleiche). Die kriterienbezogene Validitt eines solchen Tests kann nur ber eine
und der bereinstimmungsvaliditt82. Die APA sieht diese Differenzierung als eine inhaltliche berarbeitung verbessert werden
Methode an, um das Verhltnis zwischen Test und Kriterium zu definieren (APA
Um eine zufrieden stellende kriterienbezogene Validitt zu erreichen, muss nicht
2004:14):
nur der Test, sondern auch das Kriterium hinreichend objektiv und reliabel sein
A predictive study indicates how accurately test data can predict criterion scores that
are obtained at a later time. A concurrent study obtains predictor and criterion
information about the same time. Des Weiteren werden auch einige der mir im Zusammenhang dieser Thematik am
wichtigsten erscheinenden Nebengtekriterien vorgestellt werden, um einen globalen
Whrend bei der prognostischen Validitt das manifeste Kriterium zu einem spteren
berblick der Testtheorie und was es zu bercksichtigen gilt, zu gewhrleisten.
Zeitpunkt berprft wird, knnen latentes und manifestes Kriterium mittels der
bereinstimmungsvaliditt gleichzeitig ermittelt werden. Was die Beweisfhrung der Das Kriterium der Objektivitt geht der Frage nach, wie unabhngig das Testresultat
Validitt insgesamt angeht, so wre es erstrebenswert, dass man sie generalisieren von der Testsituation und dem Testbewerter bzw. Rater ist. Anders ausgedrckt sollte
knnte. Der Anspruch, Validittsbeweise universell zu machen, kann meines Erachtens der Test unter anderen Umstnden jedoch mit denselben Testteilnehmern zum gleichen
auf die heutige Testerstellung und insbesondere die Testbewertung im DaF-Bereich Resultat fhren. Verschiedene Rater wrden in diesem Fall bei exakt denselben Personen
bezogen, insofern nicht realisiert werden, als dass es Faktoren gibt, die inkonsistent sind. das gleiche Ergebnis erlangen. Die Unabhngigkeit der Ergebnisse vom Anwender soll
durch eine weitgehende Standardisierung von Durchfhrung, Auswertung und
Interpretation erreicht werden (Kranz 2001:4). Testentwickler versuchen genau
festzulegen, auf welche Weise und unter welchen Bedingungen die einzelnen Aufgaben
4.4.2 Objektivitt, Reliabilitt und Nebengtekriterien
gestellt werden, wie die Reaktionen darauf zu bewerten sind und welche Aussagen
Die Hauptgtekriterien Objektivitt und Reliabilitt, die in der Testtheorie neben der aufgrund der vorliegenden Resultate ber das zu messende Kriterium zu treffen sind. Ein
Validitt existieren, sollen im Weiteren synoptisch angefhrt werden, da sie fr das Ziel Test wird also konzipiert, um Aussagen ber den Testteilnehmer und nicht ber den
dieser Arbeit, die Validitt der Bewertungskriterien zu untersuchen, eine eher Rater zu machen. Objektivitt kann auch als Standardisierung des Testablaufs und seinen
untergeordnete Rolle spielen. Dennoch besteht zwischen den drei Gtekriterien eine Phasen definiert werden. Ingenkamp (1985:34) bemerkt dazu: Wenn wir bei einem
logische Beziehung (Rost 1996:33). Zur Einschtzung der empirischen Validitt ist es Messergebnis nicht mehr unterscheiden knnen, wie weit es Merkmale des Gemessenen
wichtig zu wissen, dass die Objektivitt einen Einfluss auf die Reliabilitt hat und dass die oder des Messenden kennzeichnet, wenn wir annehmen mssen, dass ein anderer
Reliabilitt wiederum eine Obergrenze fr die empirische Validitt darstellt. Dies Beobachter zu einem ganz anderen Ergebnis gekommen wre, dann knnen wir aus
bedeutet, dass ein wenig objektiver und wenig reliabler Test nicht gleichzeitig valide sein diesem Messergebnis keine Aussagen und Folgerungen ableiten, die von ber den Zufall
kann. Dieser wichtige Sachverhalt wird von Praktikern hufig bersehen. Umgekehrt hinausgehender Bedeutung sind.
bedeutet eine hohe Objektivitt und Reliabilitt keineswegs, dass der entsprechende Test
Im Folgenden sollen die einzelnen Phasen des testdiagnostischen Prozesses aufgezeigt
auch valide ist, d.h. das erfasst, was er erfassen soll:
werden, welche unter Einhaltung der Vorschriften das Kriterium der Objektivitt erhhen
(Lienert/Raatz 1998:8). Es wird hufig zwischen Durchfhrungsobjektivitt,
Die Objektivitt und Reliabilitt sind notwendige, jedoch nicht hinreichende Auswertungsobjektivitt und Interpretationsobjektivitt unterschieden (Ingenkamp
Voraussetzungen fr eine zufrieden stellende Validitt 1985:34ff, Lienert/Raatz 1998:8). Die so genannte Durchfhrungsobjektivitt betrifft die
Bedingungskonstanz in der Testdurchfhrung. Diese wird dann gewhrleistet, wenn der
Ein Test kann kriterienbezogen nicht valider als reliabel sein Testteilnehmer nach den vorgegebenen Testanweisungen relativ autonom die Aufgaben
Sowohl die Paralleltest- als auch die Retestreliabilitt knnen nicht hher sein bearbeiten kann. Das standardisierte Testmaterial und die einheitliche Anweisung
als die innere Konsistenz und die Auswertungs- und Durchfhrungsobjektivitt mssen in diesem Sinne gleichermaen gut und schnell von den Testteilnehmern erfasst
werden (Schelten 1997:125). Eine standardisierte Testdurchfhrung knnte durch
82 Die englischen Bezeichnungen dafr sind predictive validity und concurrent validity unvorhersehbare Fragen der Testteilnehmer bezglich der Aufgabenbearbeitung

95 96
erschwert werden. Derartige Fragen wren zwar zu beantworten, jedoch so, dass keine Die Reliabilitt eines Tests soll so hoch wie mglich sein. Sie wird zudem von der
ber die standardisierten Instruktionen hinausgehenden Hilfestellungen in den Antworten Objektivitt in der Form beeinflusst, dass sie nicht hher sein kann als die Objektivitt.
enthalten sind. Die in Fragestellung der Durchfhrungsobjektivitt knnte durch Reliabilitt kann auerdem aufgrund uerer Faktoren wie Konzentrationsschwierigkeiten
standardisierte Testanweisungen vermieden werden. Die oberste Regel fr die oder Ermdungserscheinungen beeintrchtigt werden. Verschiedene Mglichkeiten zur
Gewhrleistung der Durchfhrungsobjektivitt ist, die gegebenen Anweisungen genau Reliabilittsschtzung sollten bereits whrend der Testentwicklung bercksichtigt werden
einzuhalten. (vgl. Raatz 2001). Dennoch reicht es nicht aus, nur die Messgenauigkeit eines Tests
unter Beweis zu stellen. Dieser muss sich auch als valide erweisen. Da Reliabilitt immer
Um von Auswertungsobjektivitt zu sprechen, sollte das Auswertungsergebnis eines
auch eine Voraussetzung der Validitt ist, kann aus der Reliabilitt einer Messung auch
Tests unabhngig davon sein, welche Person den Test auswertet. Es muss genau
ein Ma fr deren Validitt abgeleitet werden.
angegeben werden, was und wie zu bewerten ist. Der Grad der Auswertungsobjektivitt
hngt auerdem von den Itemformen ab. Whrend bei geschlossenen Aufgabenformaten Es gibt in der Literatur Uneinigkeit darber wie die Rangfolge bestimmter Kriterien zu
die Auswertungsobjektivitt leicht eingehalten werden kann, rufen offene Aufgabentypen sein hat. Das im Zusammenhang mit dieser Arbeit wichtigste Kriterium ist das der
(hier: schriftlicher Ausdruck) einen Mangel an Auswertungsobjektivitt hervor. Die Validitt. Ich habe die anderen zwei Kardinalkriterien bereits definiert. Um das
Auswertungsobjektivitt sollte in derartigen Fllen an vor der Bewertung zu testtheoretische Konstrukt abzurunden, sollen die Nebengtekriterien Fairness,
operationalisierenden Kriterien gebunden sein, um sowohl technische Eigenschaften als Normierung, konomie und Ntzlichkeit angefhrt werden.
auch die subjektive Testbewertung vor Fehlerbehaftung zu schtzen. Die so genannte
Zwischen dem Kriterium der Fairness und dem Begriff der Validitt besteht meines
Signierobjektivitt (Rost 1996:39) bezieht sich in unserem Zusammenhang auf die
Erachtens ein enger Zusammenhang. Da Tests interpersonell sind, kann das Kriterium
Objektivitt bei der Kodierung schriftlicher Lernerproduktionen. Da der subjektive
der Fairness sehr leicht beeinflusst werden. Ein Beispiel dafr wre die unerlaubte
Ermessensspielraum eines Raters dabei gro ist, mssen bereits im Vorfeld
Interaktion zwischen Testleitern und Testteilnehmern. Die APA behandelt in diesem
Bewertungskriterien aufgestellt werden, die bestimmte Richtlinien vorgeben (Birkel
Zusammenhang in Kapitel 7 Fairness in testing and test use die Thematik, dass die
1976:43), um dadurch sowohl die Interpretationsobjektivitt als auch die Validitt zu
faire Behandlung aller Testteilnehmer nicht nur die faire Betrachtung des Tests als
gewhrleisten (Bolton 1982:113). Die Interpretationsobjektivitt83 ist zwar schwieriger zu
Ganzes, sondern auch des Zwecks und seiner Bewertung impliziert. Ein bereits
erreichen, jedoch entscheidend fr die Testvaliditt. Um Interpretationsobjektivitt
angefhrtes Beispiel waren die Sprachtests ohne Fachbezug, wobei der Einfluss der
handelt es sich, wenn verschiedene Rater aufgrund desselben Testwerts zu den gleichen
Vorkenntnisse eine geringe Rolle spielt und der Testfairness gerecht werden.
Testresultaten gelangen, ohne den Einfluss individueller Interpretationen. Lienert
Testteilnehmer sollten demnach vergleichbare oder gleiche Mglichkeiten haben, um ihre
(1961:14) definiert sie als vollkommen und zugleich trivial, wenn es sich um normierte
Kompetenz testen zu lassen. Dass Testwerte verschiedener oder gleicher Testteilnehmer
Leistungstests handelt. Die vllige Interpretationsobjektivitt ist gerade im schriftlichen
in verschiedenen Tests vergleichbar gemacht werden sollen, beschftigt das etwas
Ausdruck schwer erzielbar. Erhhen lsst sich die Interpretationsobjektivitt zum
pragmatischere Kriterium der Normierung (Rost 1996:41). Die so genannte
Beispiel dadurch, dass zu dem vorgelegten Test Normen angegeben sind. Somit wrde
Standardisierung87 erfolgt mittels statistischer Verfahren, in denen der individuelle
die Beurteilung aufgrund des gelegten Mastabes nicht mehr der Subjektivitt des Raters
Testwert in Relation zu den Leistungen der Zielpopulation beurteilt werden kann
ausgesetzt sein.84
(Grotjahn 2000:317). Von Bedeutung ist Standardisierung besonders bei formellen Tests,
Ein weiteres Hauptgtekriterium der Testtheorie ist die Reliabilitt. Diese wird als die wie die in Kapitel 5 untersuchten des Goethe-Instituts und des TestDaF-Instituts.
Messprzision sowohl stabiler als auch instabiler Merkmale definiert, wobei das passende
Das Nebengtekriterium konomie ist wichtig in Bezug auf die leichtere,
Messinstrument ermittelt werden muss. Reliabilitt ist anders ausgedrckt der Grad der
unkompliziertere Erstellung und Handhabung eines Tests (Lienert/Raatz 1998:12). Ein
Genauigkeit, mit dem der Test ein bestimmtes Merkmal misst, abgesehen davon, ob der
konomischer Test sollte zum Beispiel mit so wenig wie mglichen Items eine
Test auch das misst, was er vorgibt zu messen (Lienert/Raatz 1998:9). Um die
Merkmalsausprgung erschlieen lassen. Eine Rolle hierbei spielen Testlnge und
Reliabilitt eines Tests abzuschtzen, werden korrelationsstatistische Methoden
dementsprechende Bearbeitungszeit, bentigtes Material, Art der Testdurchfhrung und
angewendet,85 da sich die Varianz des wahren Wertes bzw. der tatschlichen Kompetenz
die zeitsparende Bewertung.
empirisch nicht ermitteln lsst.86 Dabei soll festgestellt werden, in welchem Ausma
Testergebnisse miteinander unter den verschiedensten Umstnden bereinstimmen Nach dem Ntzlichkeitsprinzip usefulness von Bachman/Palmer (1996:17ff.) ist
knnen. konomie die Relation zwischen zur Verfgung stehenden Ressourcen (z.B. ein Rater)
und den bentigten Ressourcen (Grotjahn 2001:107ff.).88 Unter dem Begriff der
Praktikabilitt verstehen sie einen vernnftigen Zusammenhang zwischen Aufwand und
83 Anmerkung: Diese Form der Objektivitt knnte unseres Erachtens auch als eine Form der Validitt betrachtet werden
Ergebnissen einer Prfung. In diesem Zusammenhang muss die Prfung selbst zum einen
84 In Kapitel 4.8.1/4.8.2 setzt sich mit dem Rating und dem Raterverhalten auseinander
eine vernnftige Lnge haben und zum anderen sollte der Aufwand, der fr die Prfung
85 Die statistischen Messverfahren Testwiederholungsreliabilitt, Paralleltestreliabilitt, Testhalbierungsreliabilitt und interne
Konsistenz werden im Rahmen vorliegender Dissertation nicht nher ausgefhrt werden, da sie den Rahmen sprengen
wrden 87 Standardisierung definiere ich nicht als einen statistischen Begriff, sondern als die adquate Durchfhrung, Auswertung und
86 Das Gtekriterium Reliabilitt basiert auf den Axiomen der Klassischen Testtheorie. Die Genauigkeit einer Messung wird Interpretation eines Tests, wobei die testtheoretischen Gtekriterien ihre Geltung haben mssen
folglich spezifiziert als der Anteil der Abweichung (Varianz) des wahren Wertes an der Gesamtabweichung (Gesamtvarianz) 88 Ntzlichkeit kann nach Bachman/Palmer durch Reliabilitt, Konstruktvaliditt, Authentizitt, Interaktivitt, Rckwirkung und
der Messung Praktikabilitt definiert werden.

97 98
und zugleich fr die Bewertung zu betreiben ist, nicht unzumutbar hoch sein. Bei der sich im Unterricht und im weiteren Sinne in der Gesellschaft wider, was schlielich eine
Frage, wann ein Test als ntzlich gilt, gibt es auseinander gehende Meinungen bezglich Gewhrleistung der Testvaliditt bedeutet (Wiedenmeyer 2006:30).
der Definition. Es muss zunchst ein Bedarf an einen Test existieren. Ist diese
Voraussetzung erfllt, dann kann die Ntzlichkeit entsprechend hoch oder niedrig sein.
Bachman/Palmer (1996:17) betonen in ihrem Modell, dass die wichtigste berlegung bei
der Testentwicklung der beabsichtigte Nutzen ist und daraus resultierend das Kriterium Fazit
der Ntzlichkeit als das wichtigste Testgtekriterium zu betrachten ist. Von hoher Haupt- bzw. Nebengtekriterien tragen alle zur Testentwicklung, Testdurchfhrung und
Ntzlichkeit ist bei Lienert/Raatz (1998:13) dann die Rede, wenn es keinen quivalenten Testauswertung bei. Im folgenden 5. Kapitel soll ausgefhrt werden, inwieweit die
Test gibt, der das zu messende Kriterium messen kann. Genau an dieser Stelle ist aber Bewertungskriterien beim schriftlichen Ausdruck und deren Umsetzung diesem Prinzip
der Einwand und die berechtigte Frage einzubringen, ob denn die verschiedenen von unterliegen knnen. Notwendigerweise wird der Frage nachgegangen werden mssen,
Testanbietern formulierten Tests im Rahmen von Sprachstandsprfungen fr das Niveau ob entwickelte und existierende Tests tatschlich durch die zu messenden Fhigkeiten
B2 und C1 als quivalente Tests betrachtet werden knnen. Der GER soll die Basis bereit oder Merkmale beurteilt werden oder ob den gesellschaftlichen Anforderungen, in
stellen, dass Niveaus und Kompetenzen vergleichbar gemacht werden sollen. Werden unserem Fall der Sprachzertifizierungsprfungen gem des Modells des GER,
aber Eigenschaften oder Merkmale von zahlreichen Tests evaluiert, dann hat der sich in entsprochen werden muss. Aus diesem Grund erscheint es zunchst sinnvoll, nach der
der Entwicklung befindliche Test keine Ntzlichkeit. Bachmann/Palmer (1996:18) Art des zu erfassenden Merkmals zu unterscheiden, d.h. die Tests zu klassifizieren. Man
definieren in ihrem Modell das Gtekriterium der Ntzlichkeit aus der Summe weiterer muss an dieser Stelle die Frage nach dem Hintergrund stellen, auf dem Tests erstellt
sechs Gtekriterien bestehend: worden sind, ob sie die ntigen testtheoretische Bedingungen erfllen und was letztlich
ihre Prfungsintention ist.

Ntzlichkeit =
Reliabilitt+Konstruktvaliditt+Authentizitt+Interaktivitt+Effekt+Praktikabilitt
4.5 Rater und Ratingverfahren
Whrend im Folgenden verschiedene Thesen bezglich der Rater und der Ratingverfahren
Diese kollektive Definition ist in dem Sinne zu verstehen, dass bei ihrer Einhaltung aufgestellt werden, soll versucht werden zu verdeutlichen, welche Faktoren die
folgende Prinzipien gelten wrden. Hier gilt es die Gesamtntzlichkeit eines Tests und Subjektivitt der Rater minimieren, sodass Raterurteil und Testergebnis gekoppelt
nicht die Komponenten der Ntzlichkeit wie z.B. die Reliabilitt zu maximieren. Es ist des bleiben knnten. Die Reflexion der Bewertungskriterien ist insofern wichtig, als man von
Weiteren zu betonen, dass das Kriterium der Ntzlichkeit und das angemessene einer Gewhrleistung der Gtekriterien sprechen kann, um den tatschlichen
Gleichgewicht unter den ihr zustehenden Kriterien nur in bestimmten Testsituationen Sprachstand eines Prfungskandidaten innerhalb einer standardisierten Prfung eruieren
definiert werden knnen. Authentizitt definiert in diesem Modell die Charakteristika zu knnen.
eines Items als genuine, authentische Situationsaufgaben (Grotjahn 2000:318).
Authentizitt der Items kann zum Beispiel durch aktuelle reale Berichte gewhrleistet
werden. Dieses Gtekriterium knnte durch kommunikativ relevante Situationen im
4.5.1 Ratingverfahren
Rahmen eines handlungsorientierten Ansatzes ebenso Aufschluss ber Lernerkompetenz
und pragmatisch angemessenem sprachlichen Verhalten auerhalb der Testsituation Nachdem ein Test inhaltlich mit den analogen Items ausgestattet worden ist und den
geben (Apeltauer 1987:129). Die Interaktivitt, die nach Bachman/Palmer ebenso Teil Testgtekriterien und den jeweiligen Standards zur Testdurchfhrung zu gengen
des Oberbegriffs Ntzlichkeit ist, kann als das Ausma und die Art der Wechselwirkung scheint, muss nun das entsprechende Werkzeug fr die Testbewertung bearbeiteter
zwischen den Testaufgaben und den im Hinblick auf das zu messende Konstrukt Items im Sinne der kommunikativen Kompetenz beispielhaft zur Verfgung gestellt
relevanten kognitiven Merkmalen der Kandidaten betrachtet werden, wobei als werden. Ratingverfahren bieten die Mglichkeit, aus Beobachtungen einen Messwert zu
Merkmale die sprachliche Kompetenz, thematisches Wissen und affektive Schemata zu ermitteln. Einem Ratingverfahren unterliegen zunchst verschiedene Elemente, damit es
definieren sind (Bachman/Palmer 1996:25ff.). Die Wirkung eines Test auf die Makro- und im Sinne der Gtekriterien existieren kann. Als erstes steht das zu messende Kriterium
die Mikroebene soll das Unterkriterium Effekt beschreiben. Makroebene schliet die im Mittelpunkt. Allein dieses Merkmal soll entscheidend fr das richtige Ratingverfahren
Gesellschaft und das Erziehungssystem ein, whrend die Mikroebene durch Individuen bzw. fr seine Reliabilitt sein. Wichtiger entpuppt sich aber die Genauigkeit der
definiert wird. Dieses Kriterium gilt als erfllt, sobald aus Testergebnissen Konsequenzen Entscheidungen, die getroffen werden, denn es sind nicht nur die Messungen die valide
bezglich Prfungsverlauf und Leistungsevaluation gezogen werden (Grotjahn sein mssen, sondern genauso die daraus abgeleiteten Schlussfolgerungen. Anders
2001:108). Praktikabilitt eines Tests heit, er soll durchfhrbar sein. Nach ausgedrckt: Wie genau ist eine Entscheidung x auf einer festgesetzten Skala y? Das
Bachman/Palmer (2006) ist der konomische Faktor eine Eigenschaft dieses hngt zum einen von der Validitt des betreffenden Kriteriums im betreffenden
Unternebenkriteriums. Das Nebengtekriterium Ntzlichkeit, das von Bachman/Palmer Situationskontext und von der Validitt der gesetzten Bewertungskriterien und zum
(2006) aus 6 Funktionen besteht, spielt bei der Testbewertung eine entscheidende Rolle. anderen von der Reliabilitt und Auswertungsobjektivitt der Rater ab (GER 2001:172).
Authentizitt und Interaktivitt sind wichtige Faktoren fr die Testpersonen. Das spiegelt Eckes (2004) thematisiert in diesem Zusammenhang in seinem Aufsatz, dass das

99 100
Problem bei der Messung eines Kriteriums anhand von Ratingskalen oftmals durch die Wie im 5. Kapitel zu sehen sein wird, mssen die Kriterienkataloge samt ihren
unzureichende Interraterreliabilitt gekennzeichnet ist. Die APA definiert in dieser Sache Deskriptoren fr das offene Aufgabenformat des schriftlichen Ausdrucks sehr eng
(APA-Standard 3.22:2004): gestrickt sein, um die Subjektivitt der Rater auf das Mindeste zu reduzieren. Theoretisch
betrachtet wrde das keine Probleme bereiten, die Deskriptoren so weit zu fchern bzw.
Procedures for scoring and, if relevant, scoring criteria should be presented by the test
zu objektivieren, dass der Willkr der Rater kein Raum gelassen wrde. Praktisch
developer in sufficient detail and clarity to maximize the accuracy of scoring. Instructions
wrde das aber zweierlei Nachteile mit sich bringen: Einerseits bestnde die Gefahr, dass
of using rating scales or of deriving scores obtained by coding, scaling, or classifying
man den Bezug zum theoretischen Ausgangsbegriff bzw. Kriterium aus den Augen
constructed responses should be clear. This is especially critical if tests can be scored
verliert und gerade dadurch eine Leistung oder ein zu messendes Kriterium dem Rater
locally.
verfllt. Andererseits vermerkt auch der GER, dass mehr als 4-5 Kategorien zur
Prozeduren mssen also fr die Bewertung und deren Kriterien durch den kognitiven berlastung menschlicher Rater fhren knnen und dass psychologisch
Testentwickler detailliert und przise prsentiert werden, um die Genauigkeit des Ratings betrachtet 7 Kategorien die Obergrenze bilden (GER 2001:187). Zudem kommen noch
zu maximieren und ebenso mssen Instruktionen zur Benutzung der Ratingskalen klar die Urteilsfehler hinzu, die als Mangel an Interraterreliabilitt definiert werden knnten
gemacht werden. In dem Standard 3.23 geht es darum, dass der Prozess der Auswahl, (vgl. Hoyt 2000). Damit das Ergebnis einer Messung (hier: die des schriftlichen
des Trainings und der Qualifizierung der Rater durch den Testentwickler dokumentiert Ausdrucks) einerseits nicht nur von der Beschaffenheit und der subjektiven Interpretation
werden sollten und dass das Trainingsmaterial (...) und der Prozess des Ratertrainings der benutzten Skala und andererseits von der subjektiv geprgten Raterwahrnehmung
aus einem Ausma der Zustimmung zwischen den Ratern resultieren sollte, sodass des zu messenden Kriteriums abhngt, muss eine objektive Umgebung geschaffen
bewertet werden kann, wie der Testentwickler es ursprnglich vorgesehen hat. Die werden, die keinerlei Ausweichmglichkeiten zulsst und die Objektivitt der Bewertung
Bewertungsreliabilitt und das Motivationspotential sollten evaluiert und durch garantiert (Eckes 2004:488f.).
verantwortliche Leitungspersonen der Trainingseinheit dokumentiert werden. Die
Es gibt verschiedene Skalentypen, die je nach Perspektive fr die Beurteilung
Originalversion lautet (APA-Standard 3.23:2004):
herangezogen werden. Ich habe unter Kapitel 2.1.2 bereits die Skalendifferenzierung von
The process for selecting, training, and qualifying scores should be documented by the Alderson (1991) vorgestellt. Die hier wichtigste und von ihm definierte
test developer. The training materials, such as the scoring rubrics and examples of test beurteilerorientierte Skala sollte fr Konsistenz im Ratingprozess stehen (vgl. North
takers responses that illustrate the levels on a score scale, and the procedures for 1993). Eines der Ziele dieser Arbeit ist es herauszufinden, inwieweit dies realisierbar ist.
training scorers should result in degree of agreement among scorers that allows for the Fr die Bewertungsskalen des schriftlichen Ausdrucks unterscheiden wir aber zunchst
scores to be interpreted as originally intended by the test developer. Scorer reliability zwischen holistischer und analytischer Beurteilungsskala, ohne auf ihre statistische
and potential drift over time in raters scoring standards should be evaluated and Gegebenheit und Grundlage einzugehen. Einerseits geht man der Frage nach was
reported by the person(s) responsible for conducting the training session. beurteilt werden soll. Dabei zielt die holistische Beurteilung darauf ab, ein globales Urteil
Die APA besteht demnach darauf, dass Testentwickler sowohl Prozesse, Materialien, zu erhalten. Es wird auf die intuitive Kompetenz der Rater vertraut, um verschiedene
konkrete Richtlinien und Ratertrainingsmanahmen bereitstellen um Tests zu bewerten, Aspekte zu gewichten und folglich eine Gesamtsituation wahrzunehmen. Der Beurteiler
als auch auf deren Kontrolle bezglich Korrektheit des ganzen Ratingprozesses. vergibt die Punktwerte danach, wie die Gesamtwirkung der schriftlichen Arbeit bewertet
wird. Bei diesem Bewertungsverfahren werden die Punktwerte nicht auf verschiedene
In wechselseitiger Beziehung stehen das zu messende Kriterium, die dafr formulierte Kriterien fr den schriftlichen Ausdruck verteilt, aber natrlich werden auch hier
Skala und schlielich die Rater, die man als Realisatoren des Ganzen betrachten knnte.
bestimmte Kriterien bercksichtigt. Von Bedeutung ist hierbei, wie genau seine
Damit ein Rater eine zu messende schriftliche Lernerproduktion bewerten kann, mssen Bewertung ausfllt, also bestanden vs. nicht bestanden, Zuordnung der Niveaustufe
ihm Instruktionen gegeben werden. Diese Instruktionen mssen operationalisiert des GER, Punktwert usw.. Es ist demnach dem Rater berlassen, welche Interpretation
werden. Anders ausgedrckt, mssen so genannte Deskriptoren einerseits angeben, was er dem zu messenden Kriterium zuweist und schlielich seinem Urteil zugrunde legt
und andererseits wie das schriftliche Konstrukt zu messen ist (Langer/Schulz 1974:17). (Langer/Schulz 1974:21). Der analytische Ansatz hingegen hat den Anspruch der
Die Frage im Zusammenhang vorliegender Dissertationsthematik lautet demnach: Wie
Bewertung verschiedener Aspekte des zu messenden Kriteriums. Eine einzelne Aufgabe,
operationalisiert man geschriebene Sprache auf den Niveaus B2/C1? Wie ist diese
z. B. einen Leserbrief zu verfassen, wird also anhand mehrerer Kategorien beurteilt. Es
Kompetenz zu definieren, um die Objektivitt zu sichern und sich den wahren Werten wird zunchst das zu messende Kriterium definiert und dann versucht anhand von
von Sprachlernern zu nhern? Die produktive Schreibkompetenz knnte sicher eine Deskriptoren die zugehrigen Facetten in ihren Abstufungen zu beschreiben (GER
ganze Liste von Merkmalen mit sich fhren, die sie charakterisieren soll. Welche Aspekte
2001:185). Dabei scheint ein wesentlicher Anhaltspunkt die hierarchische Anordnung
sind aber die wichtigsten, um beispielsweise Urteilsfehler auszuschlieen, die die
bzw. Gewichtung der einzelnen Facetten und ihren Ausprgungsgraden zu sein vom
Interraterreliabilitt senken wrden? Eckes (2004:489) stellt in diesem Kontext die Grundlegendsten zum Spezielleren (Langer/Schulz 1974:160). An dieser Stelle sei aber
Fragestellung auf, inwieweit ein detailliert ausgearbeiteter Kriterienkatalog nebst nochmals darauf hingewiesen, dass menschliche Rater nur mit einer begrenzten Anzahl
intensiven Schulungen von Beurteilern im konsistenten Gebrauch der Kriterien bei der
von Deskriptoren umgehen knnen (Langer/Schulz 1974:29).
Beurteilung von schriftlichen Sprachleistungen zu einer zufrieden stellenden
Urteilsgenauigkeit verhelfen wrde.

101 102
4.5.2 Deskriptorenuniversum 4.5.3 Der menschliche Rater
Deskriptoren sollten so objektiv wie mglich, zunchst global, dann fein und nach Rater gelten als das Exekutivorgan von Ratingverfahren bzw. von definierten
Komplexitt aufgestellt werden, um eine Merkmalsausprgung zu definieren (North Bewertungskriterien. Setzen wir diese als valide voraus, wie das die einzelnen
1993:32). Dabei sollten die zur Beschreibung der Niveauzuweisung der einzelnen Testanbieter wohl bei ihren standardisierten Prfungen tun, dann ist die Frage berechtigt,
Kriterien benutzten Begriffe klar, unmissverstndlich und przise sein. Alderson welche Voraussetzungen Rater auf dieser Basis erfllen mssen, um die Validitt
(1991:82) fragt zurecht kritisch: Is some more than a few but fewer than several or beizubehalten. Man sollte sich sehr grndlich mit der Frage auseinandersetzen, wie die
considerable or many and how many is many? 89. Deskriptoren, die vage entsprechende Selektion von Ratern vorgenommen werden sollte und ob nur dieses
Definitionen beinhalten, knnen, wie wir noch im 5. Kapitel bei den Bewertungskatalogen Faktum den Zweck der internen Validitt erfllt. Deshalb erscheint es zunchst sinnvoll,
der einzelnen Testanbieter bemerken werden, verschiedene Interpretationen bei Ratern eine Art Idealprofil eines menschlichen Raters zu erstellen. Man kann nur Vermutungen
hervorrufen (vgl. Trim 1978). Sie sollten daher weder zu allgemein noch zu speziell in darber anstellen, welchen Hintergrund die von den Testanbietern ausgewhlten Rater
ihrer Formulierung sein (Langer/Schulz 1974:52). Weir (2005:2ff) hlt die Definition der haben. Mglicherweise handelt es sich um Lehrkrfte aus dem Fremdsprachenbereich. Ist
auf dem GER beruhenden Deskriptoren fr nicht konsistent und nicht transparent, um dem so, kann dies sowohl positive als auch negative Auswirkungen auf die Bewertung
Tests auf diesem Hintergrund zu entwickeln. Deskriptoren sollten konkrete Aufgaben einer sprachlichen Leistung haben. Versetzt man sich in die Lage einer Lehrperson, kann
beschreiben. Es wurde bereits erwhnt, dass die Deskriptoren, die die Schreibfertigkeit man davon ausgehen, dass gerade der grammatische, syntaktische oder auch der
beschreiben, vom GER nicht empirisch kalibriert, sondern lediglich durch eine morphologische Bereich zum Augenmerk wird. Auf der anderen Seite hat man als
Kombination von Elementen aus anderen Skalen erstellt wurden (GER 2001:67). Lehrkraft durch jahrelange Erfahrung das Privileg, einen besseren Einblick in
textlinguistische Facetten, Fehler und Verstndlichkeit eines geschriebenen Lernertextes
Fr Clark (1985:348) sind Deskriptoren nichts Anderes als die Beschreibung
zu haben. Nichtsdestotrotz sollte als erstes konkret definiert werden, welchen Anspruch
erwarteter Werte des zu messenden Kriteriums, die auf einem hypothetischen Konstrukt
man an die Rater hat. Auf die Thematik dieser Arbeit bezogen bedeutet dies, in welche
eines Kontinuums platziert sind und keine Garantie dafr sein knnen, dass ein
Rolle Rater hinsichtlich der Sprache und ihrer Bewertung schlpfen mssten. Rater
angesetztes Kriterium auf der gewhlten Skala anhand dieser Deskriptoren akkurat und
sollten ber mindestens zweierlei Kompetenzen verfgen. Zum einen sollten sie die
valide ermittelt werden kann. Deskriptoren drfen entscheidende Informationen, die
eigene L1 aus der Sicht der L2 sehen knnen (Fremdsprachenkompetenz) und zum
unabdinglich fr die Bewertung sind, nicht auslassen. Die Gestaltung der Deskriptoren
anderen sollten sie Test- und Bewertungskompetenz aufweisen.
soll die Ratersubjektivitt soweit es geht minimieren (vgl. Alderson 1991). Des Weiteren
drfen sich keine berschneidungen zwischen den Beschreibungen der einzelnen Hinsichtlich der Wahrnehmung und Denkweise der Rater ist von Vaughan (1991:116)
Unterkriterien ergeben, so dass nicht normgerechte Produktionen falsch bzw. doppelt eine empirische Forschung betrieben worden, die zum Resultat kam, dass Rater keine
zugeordnet wrden (die so genannte Doppelsanktionierung) (Apeltauer 1987:186). tabula rasa seien. Daraus folgt, dass man eine gnzliche Minimierung der Subjektivitt
Demnach muss jedes einzelne Unterkriterium genauestens definiert sein, so dass nicht nicht erreichen kann, denn Rater verfgen ebenso ber Weltwissen,
normgerechte schriftliche uerungen von allen Ratern ausschlielich der Hintergrundinformationen, Erwartungen, Werte, Sensibilitt und weiteren Faktoren (vgl.
entsprechenden Kategorie zugeordnet werden. North (1996) stellt fest, dass die Wolfe/Feltovich 1994). In diesem Sinne drften Rater nichts Anderes knnen, als das
Formulierung von Deskriptoren normorientiert ist, denn es wird immer Bezug auf andere angesetzte Niveau der zu prfenden Sprache - schlicht: sie mssten doch eine tabula
Deskriptoren bzw. Stufen genommen. Demnach sind Deskriptoren keineswegs als rasa sein! Es sei ein Beispiel angefhrt, um dieses Paradoxon zu verdeutlichen:
selbstndig zu betrachten.90 Im zentralen Kapitel sollen die Bewertungskriterien der Angenommen ein Rater, der fr die Bewertung des schriftlichen Ausdrucks in Athen lokal
einzelnen Niveaustufen unterschiedlicher Testanbieter analysiert werden, indem die eingesetzt wird, beherrscht die Muttersprache der Prfungskandidaten, demnach
Definitionen der einzelnen Kategorien und folglich ihrer Deskriptoren anhand ihrer Griechisch. Wre sein Verstndnis gegenber fehlerhaften uerungen (z.B.
Eindeutigkeit und folglich ihrer Validitt untersucht und kritisiert werden sollen. Interferenzen) nicht bereits dadurch beeinflusst, dass er Griechisch kann? Dieser
Umstand knnte ihn zu einer milderen und damit subjektiveren Einschtzung der
schriftlichen Lernerproduktion verleiten. Der Grund knnte darin bestehen, dass er keine
Beeintrchtigung beim Rezipieren erfhre und dadurch Fehler latent blieben. Er wrde
also auf der Grundlage der Kontrastivhypothese unbewusst den Einfluss der
Muttersprache rezipieren, der aber sein Verstndnis und den Lesefluss nicht stren
wrde. Welche Vorkehrungen knnten in diesem Sinne getroffen werden, sodass
Eindrcke von den Ratern objektiv aufgefasst werden? Nach Wolfe & Feltovich (1994)
haben Eindrcke eines Raters weder mit dem realen Text noch mit den Eindrcken
anderer Rater etwas gemein.91 Sicherlich versucht man das Problem der Subjektivitt
von Ratern und folglich ihren Urteilen anhand verschiedener Methoden wie zum Beispiel
89 Alderson, J.C. (1991a): Bands and Scores. In: Alderson, J.C:/North, B. (eds.): Language Testing in the 1990s. Modern
English Publications/British Council. London. Macmillan. S. 71-86
90 North, B. (1996): Language Proficiency Descriptors. Presentation at the Language Testing Research Colloquium in Tampere, 91 Wolfe, E.W./Feltovich, B. (1994): Learning to rate essays: a study of scorer cognition. Report presented at the annual
Finland in 1996. meeting of the American Educational Research Association in New Orleans, LA, 4.-8. April 1994

103 104
Prferschulungen oder Workshops in den Griff zu bekommen. Sowohl das Goethe- Der Bewertungsstil kann allgemein betrachtet milder oder strenger bzw. objektiver oder
Institut92 als auch das TestDaF-Institut93 scheinen der professionellen Schulung von subjektiver sein. Zudem knnen verschiedene Ratingfehler registriert werden, die die
Ratern sowohl mit Hilfe der Materialbereitstellung als auch des Fortbildungsangebots Inter- und Intraraterreliabilitt minimieren. North (1993) fhrt in seinem Aufsatz The
einen groen Platz einzurumen, um sowohl die Intra- als auch die Interraterreliablitt, development of descriptors on scales of language proficiency drei klassische Ratingfehler
d.h. die Konsistenz zwischen verschiedenen Ratern und bei einzelnen Rater selber, zu an: den Halo-Effekt, die Zentraltendenz und die Strengevariation. Dabei wird der Halo-
maximieren (vgl. Lumley/McNamara 1993). Die Raterinkonsistenz knnte mit Effekt entweder als der Transfer von Urteilen einer holistschen Bewertung auf spezielle
normorientierten Tests verglichen werden, da dort die Leistung einer Person im Hinblick Kategorien oder zwischen zwei Kategorien oder als der Einfluss einer Textproduktion A
auf das dortige Kontinuum definiert wird und in Wahrheit keine Aussage ber den auf Textproduktion B usw. verstanden. Arras/Grotjahn (2002:69) sprechen in diesem
tatschlichen wahren Wert machen kann. Lunz/Stahl (1990) stellen in diesem Zusammenhang von seriellem Effekt. Unter Zentraltendenz versteht man das
Zusammenhang fest, dass Rater ihre eigenen Standards haben, die sie schwer ablegen Raterverhalten dahingehend, dass mehrheitlich Werte des mittleren Bereichs fr
knnen. Was Ratertraining und ihre Effektivitt bezglich der Operationalisierung von Leistungen vergeben werden. Das knnte in der unbewussten Annahme der Rater
Raterverhalten oder Raterstrenge betrifft, beschreibt Eckes (2008:155): begrndet liegen, Bewertungsfehler wrden durch die Streuung im mittleren Bereich
vermieden werden. Strengevariation zeichnet sich durch die konsistente Tendenz eines
Research on rater effects in language performance assessments has provided ample
Raters aus, hher oder niedriger im Vergleich zu anderen Ratern zu bewerten
evidence for a considerable degree of variability among raters. Building on this research,
(Wilson/Case 1997:4ff). In diesem Zusammenhang verwendet das TestDaF-Institut
I advance the hypothesis that experienced raters fall into types or classes that are clearly
beispielsweise das computerbasierte Programm FACETS, das auf einem statistischem
distinguishable from one another with respect to the importance they attach to scoring
Verfahren beruht, das so genannte Multifacetten-Raschmodell von Linacre (1989), um
criteria. To examine the rater type hypothesis, I asked 64 raters actively involved in
unter anderem den Strengekoeffizienten der Rater zu ermitteln. Daneben wird mit
scoring examinee writing performance on a large-scale assessment instrument to
diesem Programm versucht, weitere Aspekte, wie zum Beispiel die Fhigkeit einer
indicate on a four-point scale how much importance they would attach to each of nine
Person, die Schwierigkeit des Items bzw. des Kriteriums oder die Eigenschaften des
routinely used criteria. The criteria covered various performance aspects, such as
Raters, zu ermitteln (vgl. Lumley/McNamara 1993). Was die Fhigkeit der Person betrifft,
fluency, completeness and grammatical correctness. In a preliminary step, many- facet
so sollten leistungsstrkere Personen hhere Bewertungen und leistungsschwchere
Rasch analysis revealed that raters differed significantly in their views on the importance
niedrigere Bewertungen erhalten. Schlielich werden die Eigenschaften des Raters
of the various criteria. A two-model clustering technique yielded a joint classification of
hinsichtlich seiner strengen bzw. milden Bewertung qualitativ ermittelt, denn dieser
raters and criteria, with six rater types emerging from the analysis. Each of these types
Faktor entpuppt sich als einflussreich (Eckes 2004:492f). Es sei ein Beispiel angefhrt:
was characterized by a distinct scoring profile, indicating that raters were far from
Nimmt man den Fall, dass zwei Rater gleichen Strengeprofils schriftliche
dividing their attention evenly among the set of criteria. Moreover, rater background
Lernerproduktionen korrigieren und folglich bewerten. Sind beide als mild in ihrer
variables were shown to partially account for the scoring profile differences. The findings
Bewertung einzustufen, dann wrden die Textproduktionen bessere Resultate und
have implications for assessing the quality of large-scale rater-mediated language
Bewertungen erzielen, als wenn das Raterduett ein strenges Profil htte. Eckes
testing, rater monitoring, and rater training.
(2004:488f) thematisiert in seiner Arbeit Facetten des Sprachtestens: Strenge und
In Raterschulungen sollten also Klarheit hinsichtlich der Kriterien und ihrer Anwendung Konsistenz in der Beurteilung sprachlicher Leistungen sowohl die Inter- als auch die
im Rahmen der definierten Skala geschaffen werden (vgl. Lunz/Stahl 1990). Es geht Intraraterreliabilitt, die er anhand von Fallbeispielen belegt und stellt diesbezglich die
demnach um die Stabilisierung der Intraraterreliabilitt statt um die Beseitigung von Frage nach den Leistungen von Prfungskandidaten, bedingt durch die jeweiligen
verschiedenen Strengeprofilen zwischen Ratern (vgl. Eckes 2008). Insgesamt sollten die Ratingverfahren. Dabei unterscheidet er zwischen traditionellen und dem auf dem
angefhrten Probleme bercksichtigt werden, um die Frage Messen Skala und Rater Multifacetten-Raschmodell basierenden Ratingverfahren. Unter traditionell versteht Eckes
wirklich das, was sie messen sollen? beantworten zu knnen. Es handelt sich hier um die klassische Drittkorrektur und das arithmetische Mitteilungsverfahren. Diese
ein zweidimensionales Problem. Auf der einen Seite existiert die Skala, die dem Rater als werden als traditionell betrachtet, da die ermittelten Daten von Ratern unmittelbar
Instrument dienen soll, und auf der anderen Seite geht es um den Rater, den man als eingeschtzt werden. Im Gegensatz dazu bietet die Alternative der Multifacetten-
das letzte Glied in der Kette betrachten knnte, das fr die Gewhrleistung der Korrektur unter Bercksichtigung verschiedener Facetten Aussagen darber, ob es sich
Testvaliditt verantwortlich ist. Ein Rater kann aber in seiner Bewertung eines Textes um faire Bewertungen handelt oder nicht.
nicht besser sein, als die zugrunde liegenden Bewertungskriterien (Skala). In diesem Fall
Weiterhin kann der Frage nachgegangen werden, inwieweit denn eine exakt und
wrde er mit einem Mastab bewerten, der nicht vorgegeben ist. In diesem Sinne sagt
objektiv erarbeitete Bewertungsskala die Urteilsgenauigkeit von Ratern gewhrleisten
die Reliabilitt der Ratingskala nmlich nichts ber ihre Validitt aus. Die Qualitt der
knnte (vgl. Eckes 2004/Eckes 2008). Es gibt noch weitere Faktoren, die das nicht
Bewertungskriterien ist somit vllig irrelevant, denn Rater werden individuell dadurch
adquate Bewerten untersttzen. Mdigkeit oder Erschpfung knnen sich ebenso
gekennzeichnet, dass sie einen bestimmten Bewertungsstil aufweisen (vgl. Huot 1993).
subjektiv auf das nicht adquate Bewerten der erzielten Leistung eines
Prfungskandidaten auswirken wie die falsch verstandene Absicht der gesetzten
92 Information aus einem Gesprch am 14.12.2006 mit Frau Dr. Michaela Perlmann-Balme, Testentwicklung Goethe-Institut Bewertungskriterien oder die Handschrift eines Prflings (vgl. Wilson/Case 1997).
Mnchen
Standardisierte Prfungen und deren Resultate sagen laut Kritiker von
93 www.testdaf.de Zugriff am 01.07.2007, unter der Rubrik Seminare und Workshops

105 106
Leistungsstandards wenig darber aus, ob die erzielten Werte unabdinglich einem in der 5 Umsetzung definierter Bewertungskriterien94
Realsituation gleichen Wert zugewiesen wrden (vgl. Perlamann-Balme 2006). Hauptziel
sind jedoch in jedem Fall standardisierte Sprachtests, auf den testtheoretischen
achdem die theoretischen Grundlagen in den vorangegangenen Kapiteln beschrieben
Gtekriterien basierend, zu gestalten. Testanbieter fr Sprachstandstests, wie das
worden sind, werden in diesem Kapitel die zentralen Fragestellungen dieser Dissertation
Goethe-Institut oder das TestDaF-Institut, versuchen durch Qualittssicherung den
diskutiert und analysiert. Die fr den schriftlichen Ausdruck erstellten Prfungsformate
mittlerweile lnderbergreifenden Ansprchen des Europarats gerecht zu werden.
einzelner Testanbieter und Lernerreaktionen fr die Niveaustufen B2 und C1 werden
Pragmatisch betrachtet muss man jedoch an dieser Stelle die Frage aufstellen, was die
zunchst separat aufgezeigt. Dabei soll verdeutlicht werden, worauf diese genau abzielen
durch Bewertungsverfahren erzielten Werte bedeuten. Um valide Aussagen ber die
und ob Prfungskandidaten den Aufgabenstellungen entsprechend reagieren. Weiterhin
Sprachkompetenz eines Testteilnehmers machen zu knnen, muss der Einfluss
werden die jeweiligen und der Niveaustufe entsprechenden Bewertungskriterien
leistungsirrelevanter und konstruktirrelevanter Faktoren so weit wie mglich minimiert
angefhrt, beschrieben und dokumentiert. Abschlieend werden die Lsungsvorschlge
werden.
schriftlichen Ausdrucks von Prfungsteilnehmern zunchst der Aufgabenstellung
gegenber gestellt und darauf bezogen betrachtet, um schlielich die originalen
Bewertungen in Beziehung zu den Bewertungskriterien und schlielich zu den
Lernerproduktionen zu setzen. Hilfestellungen sollen die Standards der APA sein, um die
eventuell aufkommenden Mngel und unkonkreten Definitionen der Bewertungskriterien
zu begrnden. Die kritische Betrachtungsweise soll in Verbindung mit alternativen
Lsungsvorschlgen dazu beitragen, die Kriterienkataloge und die Vorgehensweisen bei
Bewertungen schriftlicher Lernerproduktionen neu zu berdenken.

5.1 Das B2-Zertifikat des Goethe-Instituts

Das B2-Zertifikat des Goethe-Instituts ist eine neu erstellte Prfung, die weltweit
erstmals im Herbst 2007 zur Anwendung gekommen ist.95 Inhalt dieser Prfung sind die
klassischen Kompetenzen Leseverstehen, Hrverstehen, schriftlicher und mndlicher
Ausdruck. In einer 190-mintigen schriftlichen Gruppenfhrung sind die Prfungsteile
Leseverstehen, Hrverstehen und schriftlicher Ausdruck von den Testteilnehmern zu
bearbeiten. Der mndliche Ausdruck erfolgt in einer 15-mintigen Paarprfung bzw. einer
10-mintigen Einzelprfung.96 Insgesamt sind maximal 100 Punkte zu erzielen, wobei die
Bestehensgrenze bei 60% liegt. Im Falle des Bestehens dieser Prfung haben die
Prfungsteilnehmer, laut des Goethe-Instituts nachgewiesen, dass sie die berregionale
deutsche Standardsprache fr ihre persnlichen Belange im privaten, gesellschaftlichen,
akademischen und beruflichen Leben einsetzen knnen. Die Kann-Beschreibungen fr
die Stufe B2 des GER, welche die selbstndige Sprachverwendung charakterisiert, sind
folgende:97

94
Im Vorfeld sollte erwhnt werden, dass whrend der Zeit, in der diese Dissertation verfasst wurde, die Bewertungskriterien
fr die neuen Prfungen des B2- und C1-Zertifikats des Goethe-Institus verschiedene Fassungen durchlaufen haben. Die
Grundlage, die Validitt der Bewertungskriterien zu untersuchen, zu diskutieren und gegebenenfalls Vorschlge zu ihrer
Verbesserung zu machen, bilden schlielich die aktuellen Bewertungskriterien des Goethe-Instituts und die des TestDaF fr
die Niveaus B2/C1
95 www.goethe.de
96 Goethe-Zertifikat B2 Modellsatz 100707, S. 1
97 Goethe-Zertifikat B2 Modellsatz 100707, S. 1

107 108
Verstehen von komplexer gesprochener Standardsprache am Telefon und in Aufgabe Prfungsziel Textsorte Aufgabentyp Punkte
Radiosendungen und dabei zu konkreten und abstrakten Themen die
1 Selektive Gesprch oder Raster mit 10
Hauptinhalte und fr sich relevante Informationen entnehmen

Hrverstehen
Informationsentnahme Nachricht auf Lcken
Eine Bandbreite von verschiedenen Texten verstehen Anrufbeantworter
Klar strukturierter Ausdruck in Briefen ber komplexe Sachverhalte und 2 Entnahme von Radiosendung Multiple-Choice 15
Korrigieren fehlerhafter Briefe Hauptaussagen und (z.T. monologisch) (dreigliedrig)
Klar strukturierte mndliche Darstellungen zu allgemeinen Themen sowie zu Einzelheiten
Themen aus dem eigenen Interessengebiet

Aktive Beteiligung an informellen Diskussionen innerhalb vertrauter Kontexte Tabelle16: Kompetenz Hrverstehen im B2 Zertifikat des Goethe-Instituts
und dabei Stellung nehmen und die eigenen Standpunkte darlegen und
vertreten

Im folgenden soll das Goethe-Zertifikat B2 tabellarisch hinsichtlich der zu prfenden Aufgabe Prfungsziel Textsorte Aufgabentyp Punkte
Kompetenzen, der jeweiligen Prfungsziele, der Textsorten, der Aufgabentypen und der 1 Produktion: Statement Text und drei 12, 5

Ausdruck
Punkteverteilung angefhrt werden:98 Leitpunkte
Monologisches
Aufgabe Prfungsziel Textsorte Aufgabentyp Punkte Sprechen zu einem
1 Selektive Krzere Artikel, Zuordnung 5 Thema
Informationsentnahme Anzeigen u.a.
Leseverstehen,

2 Interaktion: Gesprch Drei Fotos und 12, 5

Mndlicher
2 Entnahme von Artikel, Sachtext Multiple-Choice 5 drei Leitpunkte
Diskussion der Vor-
Hauptaussagen und u.a. (dreigliedrig) und Nachteile eines
Einzelheiten Vorschlags und
3 Erkennen von Stellungnahme, Alternativ- 5 Aushandeln einer
Meinungen oder Kommentar u.a. antwort Entscheidung
Standpunkten

4 Syntaktisch oder Bericht u.a. Lckentext (mit 10 Tabelle17: Kompetenz mndlicher Ausdruck im B2 Zertifikat des Goethe-Instituts
semantisch korrekte offenen Lcken)
Textergnzung

Aufgabe Prfungsziel Textsorte Aufgabentyp Punkte


Tabelle15: Kompetenz Leseverstehen im B2 Zertifikat des Goethe-Instituts
1 Berichten, Leserbrief Freies Schreiben 15

Schrifticher Ausdruck, 80
informieren, nach Vorgabe
vergleichen, von 4
Ratschlge geben, Leitpunkten
Meinungen uern

2 Erkennen und Formeller Brief Korrektur lesen 10


korrigieren von
morphologischen,
syntaktischen und
semantischen Fehlern

Tabelle18: Kompetenz schriflicher Ausdruck im B2 Zertifikat des Goethe-Instituts

98 Goethe-Zertifikat B2 Modellsatz 100707, S. 2

109 110
Der fr diese Arbeit als wichtigster und zentral geltender Teil einer Prfung ist die Sagen Sie,
schriftliche Lernerproduktion. Der schriftliche Ausdruck beim B2-Zertifikat des Goethe-
- mit welchen der erwhnten Erziehungsmanahmen Sie persnlich (nicht) einverstanden
Instituts besteht aus zwei Teilen. In der ersten Aufgabentypologie wird von den
sind.
Prflingen ein Leserbrief gefordert. Es werden den Prflingen zwei Themen zur Auswahl
bereit gestellt, wobei eines davon zu bearbeiten ist. Beim zweiten Teil der Fertigkeit - ob Kinder frher strenger erzogen wurden.
schriftlicher Ausdruck handelt es sich um die Korrektur eines fehlerhaften formellen
- welche Vorschlge fr die Kindererziehung Sie machen mchten.
Briefes. Mittelpunkt der Betrachtung ist der schriftliche Ausdruck, da die Bewertung
offener Aufgabenformate hier von Interesse ist. - wer fr die Erziehung der Kinder zustndig ist.

Hinweise:
5.1.1 Aufgabenstellung fr den schriftlichen Ausdruck im B2-Zertifikat
Vergessen Sie bitte nicht Anrede und Gru.
des Goethe-Instituts
Die Adresse der Internetredaktion brauchen Sie nicht anzugeben.
Die Aufgabenstellung des ersten Teils der textproduktiven Kompetenz in einer B2-
Prfung des Goethe-Instituts besteht darin, einen Leserbrief zu einem Thema und nach Bei der Beurteilung wird u.a. darauf geachtet,
Vorgabe von vier Inhaltspunkten zu schreiben. In einer Beispielskala des GER fr die
ob Sie alle vier angegebenen Inhaltspunkte bercksichtigt haben,
schriftliche Produktion B2 allgemein wird die Kann-Beschreibung folgendermaen
definiert: Kann (...) klare, detaillierte Texte zu verschiedenen Themen aus seinem/ihrem wie korrekt Sie schreiben,
Interessengebiet verfassen und dabei Informationen und Argumente aus verschiedenen wie gut Stze und Abschnitte sprachlich miteinander verknpft sind.
Quellen zusammenfhren und gegeneinander abwgen (GER 2001:67) . Um dieses
Knnen zu realisieren, wird eine so genannte Legende als Input gegeben, wobei es sich
um eine Zeitungs- oder Internetmeldung handeln kann. Ein Original-Modellsatz aus den Schreiben Sie etwa 180 Wrter.
Trainingsmaterialien fr Prfende des Goethe-Instituts99 soll einen Einblick geben, wie
eine Aufgabenstellung zur schriftlichen Lernerproduktion aussehen kann 100:
Goethe-Zertifikat B2 Prfertraining 090707 Seite 6

Aufgabe 1B Dauer: 65 Minuten


Anhand des angefhrten Modellsatzes des Goethe-Instituts wird ersichtlich, was einem
Im Internet lesen Sie folgende Meldung: Prfungskandidaten genau vorgelegt wird. Oben rechts auf dem Kandidatenblatt wird die
Zeitdauer 65 Minuten fr die Bearbeitung dieser Aufgabe vorgeschlagen. Insgesamt
Groe Mehrheit der Deutschen fr strengere Kindererziehung
dauert der SA 80 Minuten, wobei das Goethe-Institut 15 Minuten fr den 2. Teil des
Fr Kinder brechen schlechte Zeiten an: 62 Prozent der Deutschen finden, dass die schriftlichen Ausdrucks vorschlgt. Der Prfungskandidat ist aber in seiner eigenen
lieben Kleinen wieder strenger erzogen werden sollten. Nur 31 Prozent sind einer Zeiteinteilung vllig frei und kann die ihm zur Verfgung stehende Zeit individuell
Umfrage unter 1.000 Befragten zufolge mit den derzeitigen Erziehungsmethoden organisieren. Die situative Einbettung des Arbeitsauftrags Im Internet lesen Sie folgende
zufrieden, wie der Fernsehsender RTL am Samstag mitteilte. Mit 95 Prozent sprachen Meldung verweist den Prfling eindeutig darauf, dass er den Text zunchst lesen und
sich die meisten Befragten dafr aus, dass Kinder Pflichten wie Aufrumen und Einkaufen folglich rezipieren muss. Es stellt sich dennoch die Frage, ob auf die formale Richtigkeit
erfllen sollten. 87 Prozent finden, dass Kinder regelmig ber ihre Schularbeiten hingewiesen wird oder ob dies zu den erforderlichen Kompetenzen gehrt, die
berichten sollten und 56 Prozent waren dafr, Kindern das Kaugummikauen in der Schule vorausgesetzt werden. In diesem Sinne geben die Standards der APA Hilfestellung, indem
zu untersagen. Dagegen fanden nur 14 Prozent den Vorschlag gut, Kinder in eine darauf verwiesen wird, dass die Anweisungen zur Bearbeitung der Aufgaben so detailliert
Schuluniform zu stecken. sein sollten, dass Testteilnehmer so darauf reagieren knnen, wie der Testentwickler
dieses vorsieht (APA 2004:39). Die Aufgabenstellung muss demnach insofern rezipiert
werden, dass die darin enthaltenen Informationen entnommen werden, um die
Schreiben Sie als Reaktion auf diese Meldung an die Online-Redaktion.
geforderten vier Inhaltspunkte entsprechend zu bearbeiten. Der Testkandidat msste
anhand des Schlsselsatzes Reaktion auf diese Meldung an die Online-Redaktion den
konkreten Arbeitsanweisungen Folge leisten knnen. Es stellt sich hier zunchst und
erstrangig die Frage nach dem Verstndnis der zugrunde liegenden Aufgabe, um diese
berhaupt bewltigen zu knnen. Das Gerst der Aufgabenstellung und anleitung muss
99 www.goethe.de/intern, Goethe-Zertifikat B2 Prfertraining 090707 so gut beschaffen sein, um von einer Gewhrleistung der fairen Bedingungen hinsichtlich
100 Das ist nicht das Originallayout. Die Arbeitsanweisung wird im Original anders prsentiert, sodass die Reihenfolge nicht als
vorgegeben erscheint.

111 112
des Testprozesses sprechen zu knnen. Der Arbeitsauftrag muss folglich fr alle 5.1.2 Bewertungskriterien fr den schriftlichen Ausdruck fr das B2-
gleichermaen verstndlich sein, um Performanz unter Beweis zu stellen. Zertifikat des Goethe-Instituts
In der neu erstellten Prfung B2 des Goethe-Instituts wird am Seitenende der Im Folgenden soll die Bewertungsskala fr das B2-Zertifikat angefhrt, beschrieben und
Aufgabenstellung unter Hinweise101 erlutert, was bei der Aufgabenbewltigung zu analysiert werden:
beachten ist. Es wird darunter vermerkt, dass Rater in derartigen Aufgabenformaten
darauf achten werden, ob alle gestellten Inhaltspunkte bearbeitet wurden und wie
korrekt und kohrent das schriftliche Konstrukt letztlich ist. Es muss verdeutlicht werden, KRITERIUM I
ob es sich bei dem korrekten Schreiben um den richtigen Ausdruck oder um die korrekte 3 Punkte 2,5 Punkte 2 Punkte 1 Punkt 0 Punkte
syntaktische, grammatische, orthografische und morphologische Sprachverwendung Inhaltliche
Vollstndigkeit
handelt. Wenn das gerade fr die Rater nicht explizit und ersichtlich ist, dann kann dies
zu falschen Bewertungen bzw. Bewertungsgewichtungen fhren. Zu erwhnen wre
schlielich, dass kein eindeutiger Hinweis bezglich des Kriteriums Ausdrucksfhigkeit zu Inhaltspunkte schlssig Alle Inhaltspunkte Drei Zwei Inhaltspunkte Thema verfehlt
finden ist. Es wird lediglich vermerkt, dass bei der Bewertung darauf geachtet wird, wie und angemessen Inhaltspunkte Inhaltspunkte sind nur
dargestellt ansatzweise
korrekt man schreibt. Wie korrektes Schreiben zu verstehen ist, soll in der folgenden
behandelt, an
Diskussion aufgegriffen und erlutert werden.
mehreren
Vordergrndig muss aber zunchst das zu messende festgesetzte Kriterium oder auch Stellen unklar
Konstrukt und die darauf aufbauenden Bewertungsanleitungen nach APA ganz klar KRITERIUM II
beschrieben und definiert werden (APA-Standard 1.2:2004): 4 Punkte 3 Punkte 2 Punkte 1 Punkte 0 Punkte
Textaufbau+Kohrenz
The test developer should set forth clearly how test scores are intended to be
interpreted and used. The population(s) for which a test is appropriate should be clearly Gliederung des Textes
Liest sich sehr Liest sich noch Stellenweise Aneinanderreih durchgngig
delimited, and the construct that the test is intended to assess should be clearly Konnektoren,
flssig flssig guter Aufbau, ung von Stzen unlogischer
described. Kohrenz
an einigen ohne Text
Ob optimale Bewertungskriterien fr das Testkonstrukt zu finden sind, ist eine zentrale Stellen erkennbare
Frage innerhalb der Diskussion in diesem Kapitel. Aus diesem Grund werden im sprunghaft Gliederung
Folgenden zunchst die als analytische Skala aufgestellten Bewertungskriterien KRITERIUM III
angefhrt, dann zunchst separat diskutiert, um schlielich die mithilfe dieser Kriterien 4 Punkte 3 Punkte 2 Punkte 1 Punkt 0 Punkte
Ausdrucksfhigkeit
bewerteten Lernerproduktionen kritisch zu betrachten. Ziel dabei ist es,
Verbesserungsvorschlge hinsichtlich potenzieller Schwachstellen und unklarer Wortschatzspektrum
Deskriptorendefinitionen anzufhren. Sehr gut und Gut und Stellenweise gut In ganzen In groen
Wortschatz-
angemessen angemessen und Passagen nicht Teilen vllig
beherrschung
angemessen angemessen unverstndlich

KRITERIUM IV
4 Punkte 3 Punkte 2 Punkte 1 Punkt 0 Punkte
Korrektheit

Morphologie
kaum feststellbare Einige deutliche Einige Fehler, Unzhlige Unzhlige
Syntax
Fehler Fehler, die das die den Fehler, die das Fehler, die das
Orthografie, Verstndnis Leseprozess Verstndnis Verstndnis
Interpunktion aber nicht stellenweise erheblich stren unmglich
beeintrchtigen behindern machen

Tabelle 19: Bewertungskatalog fr das B2- Zertifikat des Goethe-Instituts

101 Siehe Modelsatz des GI

113 114
Diese analytische Bewertungsskala besteht aus vier Kriterien, die aber nicht die gleiche
Gewichtung haben. Whrend das Kriterium der inhaltlichen Vollstndigkeit 20% der Der Begriff oder die Definition angemessen, wodurch im gleichen Zuge die Darstellung
Gesamtbewertung ausmacht, decken die Kriterien Textaufbau/Kohrenz, des Kriteriums der inhaltlichen Vollstndigkeit geprgt wird, bedeutet laut Langenscheidt
Ausdrucksfhigkeit und Korrektheit jeweils 26,666667 % der maximal zu erreichenden den Gegebenheiten, Umstnden entsprechend = adquat.105 Werden also die
15 Punkte. Auerdem ist die Verteilung zwischen den einzelnen Punkten unter den vier erforderlichen Inhaltspunkte schlssig und angemessen dargestellt, dann mssen sie in
Kriterien nicht einheitlich. Interessant ist der Umstand, dass wenn eins der vier Kriterien diesem Sinne logisch, berzeugend und den Gegebenheiten entsprechend bearbeitet
mit 0 Punkten bewertet wird, kein Ausgleich durch die anderen Kriterien zu erzielen ist. worden sein. Es geht hier also um eine allgemein-kognitive Komponente des Schreibens,
Mit anderen Worten wird dann die gesamte Lernerproduktion mit 0 Punkten bewertet, 102 wie ein Lerner in seinem Kopf Themen, Dinge u.. strukturieren kann. Die inhaltliche
obwohl die Gewichtung der einzelnen Kriterien nicht einheitlich ist. Das erscheint mir als Vollstndigkeit impliziert in der hier definierten Form, dass die Inhaltspunkte zum einen
ein sehr wichtiger Punkt, der hinsichtlich der tatschlichen Sprachkompetenz eine logisch, berzeugend und folgerichtig und zum anderen adquat bearbeitet werden.
zentrale Rolle innerhalb der Diskussion darstellt. Meines Erachtens msste es sich jedoch bei diesem Kriterium, das vielleicht durch die
Klassifizierung einer allgemeinen Komponente die niedrigste Gewichtung hat, lediglich
Anhand dieses Rasters von Bewertungskriterien sollen Rater die schriftlichen Arbeiten
um die thematische Bearbeitung der Inhaltspunkte handeln. So knnte der
unabhngig und separat voneinander korrigieren.103 Im Folgenden sollen die einzelnen
Oberdeskriptor dann auch benannt werden. Denn nur unter diesem Nenner wre z.B. der
Kriterien der analytischen Bewertungsskala separat dokumentiert und untersucht
letzte Deskriptor Thema verfehlt (0 Punkte) gerechtfertigt.
werden. Es ist erstrebenswert, Verbesserungsvorschlge fr die Definition der
Deskriptoren zu liefern, um dem Gtekriterium der Validitt so nah wie mglich zu Es wird also in dieser Bewertungsskala nicht ersichtlich, was das Kriterium der
kommen. inhaltlichen Vollstndigkeit genau zu messen vorgibt. Das Definitionsproblem, das sich
aus der nicht eindeutigen Formulierung bezglich der angesetzten und zu bearbeitenden
Punkte ergibt, stellt demnach die Validitt in Frage. Die Definition alle Inhaltspunkte
schlssig und angemessen dargestellt fungiert hier als Oberbegriff fr die einzelnen
5.1.2.1 Kriterium: Inhaltliche Vollstndigkeit
Abstufungen und Punktebewertungen. Darber hinaus werden die ersten drei
KRITERIUM I Deskriptoren (3 Punkte, 2,5 Punkte und 2 Punkte) sehr knapp formuliert, offensichtlich
3 Punkte 2,5 Punkte 2 Punkte 1 Punkt 0 Punkte
jedoch immer auf diesen Oberdeskriptor bezogen. Weiterhin sind die Intervalle zwischen
Inhaltliche
den Punkteabstufungen nicht gleichmig, das heit dass zwischen den ersten drei
Vollstndigkeit
Deskriptoren im 0,5-Takt gestaffelt wird, whrend die bergnge vom dritten zum
vierten und zum letzten Deskriptor im 1-Punktetakt abfallen. Interessant ist bei diesen
Inhaltspunkte Alle Drei Zwei Inhaltspunkte Thema
Intervallen auch der Umstand, dass, wenn zwei der vier Inhaltspunkte bearbeitet
schlssig und Inhaltspunkte Inhaltspunkte Inhaltspunkte sind nur verfehlt
angemessen ansatzweise
werden, also 50% des Arbeitsauftrags, es nur zu einem Punkt Abzug kommt. Dies
dargestellt behandelt, an bedeutet mathematisch ausgedrckt, dass obwohl die Lernerproduktion nur zur Hlfte
mehreren den Arbeitsauftrag erfllt hat, es nur zu einer Bewertungsminderung von 33, 33 %
Stellen unklar kommt.

Wenn alle Inhaltspunkte schlssig und angemessen dargestellt werden, bekommt man
Tabelle 20: Inhaltliche Vollstndigkeit im B2 Zertifikat gem dieses Kriteriums die maximale Punktzahl (3 Punkte). Whrend man zwei von drei
Punkten dafr bekommt, dass man zwei von vier Inhaltspunkten auf schlssige und
angemessene Art und Weise bearbeitet hat, lautet die nchste und vorletzte
Die inhaltliche Vollstndigkeit bezieht sich auf die korrekte Bearbeitung der Deskriptorendefinition Inhaltspunkte sind nur ansatzweise behandelt, an mehreren
Inhaltspunkte, die dem Prfling vorgegeben sind. Bereits der oberste Stellen unklar. Zunchst msste man an dieser Stelle definieren, was der Begriff
Definitionsdeskriptor ist derart formuliert, dass es zu einer subjektiven Raterbewertung ansatzweise ausdrckt. Man knnte den Begriff ansatzweise durch das Synonym in
fhren kann. Es stellt sich die Frage was die Begriffe schlssig oder angemessen geringem Mae106 ersetzen, dennoch msste geklrt werden, woran sich das Ma der
implizieren und wie ein Korrektor diese stringente Anweisung zu verstehen hat. Schlssig inhaltlichen Vollstndigkeit insgesamt festmachen bzw. bestimmen lsst. Unter Hinweise
wird auf der CD-ROM Langenscheidts wie folgt definiert: 104 wird der Prfling nur darber informiert, dass er darauf achten soll, ob alle vier
angegebenen Inhaltspunkte bercksichtigt worden sind. Es wird auer der erwarteten
logisch und berzeugend = folgerichtig -> eine Argumentation, ein Beweis Textlnge (ca. 180 Wrter) nichts bezglich der Textdichte impliziert und vorgegeben.
Auerdem wird nicht explizit gemacht, worauf sich die Unklarheit der
Inhaltspunktebearbeitung bezieht. Auch dieser Teil des Deskriptors scheint sich eher auf
102 Goethe-Zertifikat B2 Modellsatz 100707, S. 31
103 www.goethe.de/intern, Goethe-Zertifikat B2: Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707,
S. 8 105 Langenscheidt: e-Growrterbuch Deutsch als Fremdsprache. 2003 Langenscheidt KG Berlin und Mnchen. (CD-ROM)
104 Langenscheidt: e-Growrterbuch Deutsch als Fremdsprache. 2003 Langenscheidt KG Berlin und Mnchen. (CD-ROM) 106 Langenscheidt: e-Growrterbuch Deutsch als Fremdsprache. 2003 Langenscheidt KG Berlin und Mnchen. (CD-ROM)

115 116
den subjektiven Eindruck eines Raters verlassen zu wollen. Interessant und von Die nchste Frage, die sich stellt ist, wer und unter welchen Bedingungen Aussagen
Bedeutung ist ebenso die Tatsache, dass die Mglichkeit ausgelassen bzw. nicht gegeben ber die inhaltliche Angemessenheit einer Lernerproduktion macht. Eine Entscheidung
worden ist, lediglich einen Leitpunkt schlssig und angemessen bearbeitet zu haben. Von darber zu treffen, ob jemand die gestellten Aufgaben inhaltlich angemessen oder auch
der Definition des vierten Deskriptors Inhaltspunkte sind nur ansatzweise behandelt, an adquat bearbeitet hat, scheint zunchst eine subjektive Wahrnehmung der Rater zu
mehreren Stellen unklar ist der bergang zum letzten und kritischsten Deskriptor sein. Die APA definiert in diesem Zusammenhang den Standard 3.20. Sobald die
Thema verfehlt (0 Punkte) daher sehr abrupt. Selbst wenn ein Prfungskandidat die Realisierung der Anleitungsbedingungen zwischen den Testteilnehmern variieren kann
Leitpunkte nicht im Sinne der Aufgabe bearbeitet hat, dennoch Anrede, Einleitung, mssen die erlaubten Variationen in den Anleitungsbedingungen identifiziert und
Hauptteil, Schluss und Gru textsortengerecht erfllt hat, sollte dies nicht einem leeren dokumentiert sein. Meines Wissens sind in den Prfungsunterlagen des Goethe-Instituts
Blatt bzw. einer Themaverfehlung gleichgesetzt werden. Die Thematik der Textsorte fr das B2-Zertifikat keine mglichen Variationen definiert oder dokumentiert. Lediglich
findet aber nicht in diesem Kriterium sondern im zweiten so genannten Textaufbau und am Seitenende des Arbeitsauftrags wird unter Hinweise auf in der Bewertung beachtende
Kohrenz seine Anwendung. Diesbezglich tragen Anrede, Einleitung, Schluss und Punkte, die es einzuhalten gilt, verwiesen. Dass Rater weltweit stndig und immer wieder
Gruformel nicht dazu bei, ob das Thema erfllt wurde oder nicht. In diesem Kriterium trainiert werden, ist ein nicht zu ignorierender Fakt. Aus internen Quellen ist mir
geht es lediglich um die Bearbeitung der erforderten Inhaltspunkte, die vom Prfling ein durchaus bekannt, dass das Goethe-Institut das Prfertraining und was zudem noch dazu
bestimmtes thematisches Output erwarten. Fraglich bleibt lediglich, ob die erwartete gehrt sehr ernst nimmt und alles Erdenkliche unternimmt, um dem gerecht zu werden.
Textlnge (180 Wrter) sich nicht auch durch die textsortenspezifischen Teile Natrlich kann man davon ausgehen, dass dem Goethe-Institut die hier zur Diskussion
zusammensetzt. Ich will diesen Umstand an dieser Stelle jedoch vllig unbercksichtigt und Kritik gestellten Schwachstellen der Bewertungskriterien durchaus gelufig sind und
lassen und die Einteilung und die Inhalte der Kriterien als gegeben akzeptieren. dass gerade solche Probleme, wie was ist angemessen und ab wann ist ein Thema
verfehlt immer wieder an unzhligen praktischen Beispielen trainiert werden.
Die Problematik der Themaverfehlung ist weiterhin ein zweischneidiges Thema.
Einerseits bezieht sich dies lediglich auf die Bearbeitung der Inhaltspunkte und nach Die Gefahr, dass bereit gestelltes Inputmaterial fr die schriftliche Produktion
diesen Deskriptorendefinitionen ist die Bearbeitung lediglich eines Inhaltspunktes eine bernommen wird, ist nicht auszuschalten. Natrlich scheint dieses aufgrund des
Themaverfehlung, denn ansonsten ist diese Option nirgendwo aufgefhrt. Interessant ist Aufgabenformats sehr schwierig zu sein. Aus diesem Grund muss bewusst gemacht
an dieser Stelle zu hinterfragen, warum es nur um die Annahme geht, dass es Schreiber werden, dass nicht immer von einer absoluten und autonomen Sprachkompetenz die
gibt, die mindestens zwei Inhaltspunkte bearbeiten knnen, was nicht ausschliet, dass Rede sein kann. Trotzdem ist die Gefahr gegeben, dass das schlielich resultierende
Chaos produziert wird. Der Fall, dass es Schreiber gibt, die sich lediglich ber einen schriftliche Konstrukt als der individuelle Ausschnitt der Schreibkompetenz gedeutet,
Inhaltspunkt schriftlich uern, bleibt vllig unbercksichtigt. Zum anderen werden das interpretiert und schlielich bewertet werden wird. Dabei werden unter anderem die
unterschiedliche Profil und die kognitive Reife der Prfungskandidaten nicht allgemeinen Kompetenzen Teil dieses schriftlichen Produktionsabschnittes, obwohl die
bercksichtigt und dadurch wird die Prdikatenvergabe Thema verfehlt bereits subjektiv. Thematik, die fr die verschiedenen Prfungskandidaten sowohl aus einem gelufigen
Zur Verdeutlichung mchte ich an dieser Stelle ein Beispiel anfhren: oder unbekannten Sachbereich stammt, keine sprachliche Gre ist. Dennoch wirkt sich
diese auersprachliche Komponente im Sinne der Handlungsorientierung jedoch ohne
Ein 15jhriger Prfling soll einen Leserbrief auf ein Input schreiben, dessen Thematik
Bercksichtigung der Interessengebiete und der Wissensbestnde auf die Bewertung
aber nichts mit seinen Interessen und seinem Allgemeinwissen zu tun hat. Kann ber
einer schriftlichen Lernerproduktion aus.
eine Vielzahl von Themen, die ihn/sie interessieren, klare und detaillierte Berichte
schreiben lautet eine der Kann-Beschreibungen fr das Referenzniveau B2. Wenn sich Es ist meines Erachtens aber nichts dagegen einzuwenden, wenn das bereit gestellte
das GI nach dem GER richtet, dann sollte dieser Deskriptor Bercksichtigung bezglich Inputmaterial von Prfungskandidaten sprachlich modifiziert werden kann und nicht
der Forderung finden. Bis zum Herbst 2008 galt noch die Prfungsordnung des Goethe- lediglich bernommen wird. Das prozedurale Lernen umfasst Strategiewissen und
Instituts, wobei sich die Prfung an Erwachsene und Jugendliche, die mindestens 16 dessen Anwendung. Wenn ein Lerner aufzeigen kann, dass er in seiner schriftlichen
Jahre alt sind, richtet.107 Wie bereits erwhnt fallen ab Herbst 2008 weltweit die Produktion das Inputmaterial adquat und entsprechend einbindet, so ist aus meiner
Alterbegrenzungen weg. Dennoch bin ich der Meinung, dass Testanbieter sich in jedem Sicht nichts dagegen einzuwenden. Ganz im Gegenteil kommen hier Lernerstrategien
Fall ber die Alterunterschiede der Kandidaten, ihre Interessengebiete und schlielich zum Vorschein, die Teil des Lernens ausmachen.
ber die Qualitt und den Inhalt des entsprechenden Outputs bewusst sein mssen. Das
Goethe-Institut ist dennoch bemht, laufend neue Prfungsstze zu entwickeln und zu
verffentlichen, um mglichst bald einen ausreichenden Fundus zu haben, aus dem dann
das durchfhrende Institut die geeigneten Themen fr die Prfungsklientel auswhlt.108
Das ist in jedem Fall eine notwendige Voraussetzung, um die inhaltliche Bearbeitung und
ihre faire Bewertung gem dem zu prfenden Niveau zu gewhrleisten.

107 www.goethe.de/athen>Prfungen>Goethe-Zertifikat B2 bzw. C1. Zugriff am 13.06.2007


108 Aus einem Gesprch, das ich am 25. Februar 2008 mit Mitarbeitern des Goethe-Instituts Mnchen gefhrt habe

117 118
5.1.2.2 Kriterium: Textaufbau und Kohrenz sprunghaft bleiben knnen, whrend andererseits er/sie bei relativ guter Grammatik
eine Reihe von Konnektoren und anderen Mitteln der Textverknpfung anwenden kann,
um seine/ihre Ausfhrungen zu einem klaren, zusammenhngenden Text zu verbinden,
KRITERIUM II wobei thematische bergnge dabei auch noch sprunghaft bleiben knnen.
4 3 2 Punkte 1 Punkte 0 Punkte
Textaufbau+Kohrenz Punkte Punkte Hingewiesen sei an dieser Stelle auf die Verweise in der zweiten globalen Kann-
Beschreibung, wobei zum einen auf schriftliche Texte und zum anderen auf die
Gliederung des
Liest sich Liest sich Stellenweise Aneinanderreihung durchgngig Beherrschung der Grammatik verwiesen wird. Es wird zwar auf die Textgliederung
Textes
sehr noch guter von Stzen ohne unlogischer verwiesen, abgesehen jedoch von den syntaktischen Eigenschaften der Konnektoren
Konnektoren,
flssig flssig Aufbau, an erkennbare Text kann dies in ihrer textlinguistischen Funktion zu finden sein. Definiert ist demnach weder
Kohrenz
einigen Gliederung im Oberbegriff noch in den einzelnen Deskriptoren, dass Textaufbau auch die Einhaltung
Stellen von Textsorten einschliet. Im von mir als Pyramide abgewandelten
sprunghaft Schreibprozessmodell von Hayes/Flower (1980) beinhaltet die Komponente Wissen auch
das Textsortenwissen (vgl. Kap. 3.4). Des Weiteren sollte in den Deskriptoren explizit
gemacht werden, wie Konnektoren zu bewerten sind, folglich deutlich voneinander
Tabelle 21: Textaufbau und Kohrenz im B2 Zertifikat
abgegrenzt werden, so dass es nicht zu doppelten Bewertungen bzw.
Doppelsanktionierungen hinsichtlich dessen kommt. Es ist meines Wissens in den mir zur
Das Kriterium Textaufbau und Kohrenz hat eine Gewichtung von 26,66 %. Die Verfgung gestellten Materialien nichts darber dokumentiert, wie dieser
maximal zu erreichende Punktzahl betrgt 4 Punkte und fllt im 1-Punkte-Takt innerhalb Doppelbewertung aus dem Weg gegangen werden kann, d.h. der Anspruch der Kohrenz
der Deskriptoren ab. Dieses Kriterium definiert sich in der endgltigen Fassung der knnte sich durch kohsive Mittel problemlos im Unterpunkt Syntax der Kategorie
Bewertungsskala fr das B2-Zertifikat des Goethe-Instituts nunmehr eigenstndig Korrektheit wieder finden. Die Begriffe Kohrenz und Kohsion sind unter
anhand zwei zusammenhngender Unterpunkte und es kann davon ausgegangen textlinguistischen Gesichtspunkten bereits erlutert worden. Wenn einer bestimmten
werden, dass dieses neu hinzugekommene autonome Kriterium neben den Kriterien Satzfolge Kohrenz nicht immer zugesprochen werden kann, dann sollte zum Beispiel die
Ausdrucksfhigkeit und Korrektheit ebenbrtig da steht: so genannte Konzessivitt bereits an der Textoberflche in Form von Kohsionsmitteln
markiert werden.
Gliederung des Textes
Eine Lernerproduktion erlangt die volle Punktzahl 4, wenn sich die Textproduktion sehr
Konnektoren, Kohrenz
flssig liest. Es gilt zu klren, ob Lesefluss als universell definiert werden kann und
welche Konnektoren und Redemittel ihn mehr oder weniger beeinflussen. An dieser Stelle
stellt sich die Frage, ob Lesefluss nur an Syntax und an Morphologie festgemacht werden
Der GER hat fr dieses Kriterium auf der Niveaustufe B2 zwei Kann-Beschreibungen,
kann. Was ist mit dem Lesefluss im Beispielssatz Farblose grne Vorstellungen schlafen
die es charakterisieren sollen (GER 2001:125):
ruhig, weil der Schnee die Milch weggeschmolzen hat, der das syntaktische und
morphologische Kriterium vollkommen deckt, aber kein Sinngehalt registriert werden
Kohrenz und Kohsion kann? Es ist zudem nicht offensichtlich und ersichtlich, wann Textaufbau etwas ber das
geprfte Niveau aussagt oder anders ausgedrckt an welchen kohrenten Mitteln man
Kann verschiedene Verknpfungswrter sinnvoll verwenden, um inhaltliche den Kompetenzbereich B2 festmachen kann. Ich behaupte an dieser Stelle, dass eine gut
Beziehungen deutlich zu machen. gegliederte und aufgebaute schriftliche Textproduktion des B1-Niveaus auf diesem
Kann eine begrenzte Anzahl von Verknpfungsmitteln verwenden, um seine/ihre Bewertungsraster Platz finden wrde, gerade wenn geeignete kohrente Mittel fr den
uerungen zu einem klaren, zusammenhngenden Text zu verbinden; lngere Textaufbau bentzt wrden, die den Lesefluss, abgesehen von einem nicht zu
Beitrge sind mglicherweise etwas sprunghaft. enkodierenden Schriftbild, nicht im Geringsten behinderten. Sicherlich darf an dieser
Stelle nicht unbercksichtigt gelassen werden, dass das jeweilige Aufgabenformat eine
Die Kann-Beschreibung der GER-Skala fr dieses Kriteriums ist derart bergreifend,
entscheidende Rolle spielt und dass das Goethe-Institut diesbezglich die Aufgaben bzw.
dass sie die ersten drei vom Goethe-Institut verwendeten Deskriptoren fr die Bewertung
die Tasks dem Anspruch der jeweiligen Niveaus entsprechend formuliert. Ziel ist es
dieses Kriteriums einschliet, das heit den Bereich vier (4) bis einschlielich zwei (2)
sicherlich, dass die Aufgaben das elizitieren, was intendiert und bewertet werden will.
Punkten. Konkreter versucht Profile die globale Kann-Beschreibung der schriftlichen
Produktion dieses Kriteriums fr die deutsche Sprache speziell auf zwei Ebenen Interessant ist in diesem Zusammenhang ebenso die Frage, ob die Verwendung
folgendermaen zu definieren (Glaboniat et al. 2005:156, 165): Einerseits Kann er/ sie verschiedener sprachlicher Verknpfungen als Unterscheidungsmerkmal zwischen den
in seinen/ihren schriftlichen Texten eine Reihe von Konnektoren und anderen Mitteln zur Niveaus B1 und B2 fungieren knnen. Whrend sprachliche Verknpfungen (z.B.
Textverknpfung anwenden, um seine/ihre Ausfhrungen zu einem klaren, lexikalische oder strukturelle Beziehungen) einem Text Struktur verleihen und folglich die
zusammenhngenden Text zu verbinden, wobei thematische bergnge aber noch Textoberflchenstruktur ausmachen, sind auersprachliche Faktoren dafr

119 120
verantwortlich, dass die Texttiefenstruktur bzw. die Sinnzusammenhnge erkannt werden 5.1.2.3 Kriterium: Ausdrucksfhigkeit
und folglich von Kohrenz gesprochen werden kann (vgl. Linke/Nussbaumer/Portmann-
Tselikas 2004).
KRITERIUM III
In der von Profile angefhrten Kann-Beschreibung bezglich des Textaufbaus und der 4 Punkte 3 Punkte 2 Punkte 1 Punkt 0 Punkte
Ausdrucksfhigkeit
Kohrenz fr Niveau B2 wird von der Mglichkeit gesprochen, dass auf diesem Niveau die
thematischen bergnge sprunghaft bleiben knnen. Diese Einschrnkung wird im Wortschatz-
Bewertungsraster dieses Kriteriums erst im dritten Deskriptor, der 50% der maximal zu spektrum Sehr gut Gut und Stellenweise In ganzen In groen
erreichenden Punktzahl (2 Punkte) vergibt, definiert. Es knnen in diesem Fall dennoch und angemessen gut und Passagen Teilen vllig
Wortschatz-
angemessen angemessen nicht unverstndlich
passende kohrente Mittel eingesetzt worden sein, obwohl Rater selber eine beherrschung
angemessen
Sprunghaftigkeit registrieren wrden. Auch an dieser Stelle stellt sich erneut die Frage,
ob alle Rater diese Sprunghaftigkeit registrieren wrden. Die Gliederung und der
Zusammenhang eines Textes haben jedoch nichts mit dem Verstndnis zu tun, sofern Tabelle 22: Ausdrucksfhigkeit im B2 Zertifikat
kohrente Mittel textlinguistisch fungieren.
Das Kriterium zur Bewertung des schriftlichen Ausdrucks auf B2-Niveau hat zunchst
Einen Punkt bekommt eine Lernerproduktion, wenn Stze ohne erkennbare Gliederung eine Reduzierung seiner Gewichtung erfahren. Von einst in der Erprobungsfassung 40%
aneinandergereiht sind. Auch hier stellt sich die Frage nach dem wer etwas erkennt oder bewegt sich die Ausdrucksfhigkeit nun auf der gleichen Gewichtungsschiene
auch nicht. Mit Null Punkten wird ein durchgngig unlogischer Text gewertet. In Kap. 3.4 (26,666667%) wie das zuvor behandelte Kriterium Textaufbau und Kohrenz und das im
habe ich bereits Bezug auf die textlinguistische Definition Text genommen. Im vierten Folgenden noch aufgefhrte Korrektheitskriterium. Bei diesem Kriterium soll das
Deskriptor, der 1 Punkt vergibt, ist im Gegensatz zum letzten Deskriptor, der die Vergabe Wortschatzspektrum und die Wortschatzbeherrschung untersucht werden. Zunchst gilt
von Null Punkten beschreibt, nicht die Rede von Text. Bei der Definition des vorletzten zwischen den Begriffen Wortschatzspektrum und Wortschatzbeherrschung zu
Deskriptors, dass Stze ohne erkennbare Gliederung aneinandergereiht sind, stellt sich differenzieren. Das Wortschatzspektrum scheint sich auf die Variation und die Vielfalt des
die Frage, ob von einem Text gesprochen werden kann. Um die so genannte Wortschatzes in Form von kontextbezogenen Registern zu beziehen, welcher dann in der
Texttiefenstruktur festzustellen, mssen die lineare Abfolge der Textbausteine, die Wortschatzbeherrschung Anwendung findet. Es handelt sich also um den Umfang
Textverknpfung und das Einbeziehen und Aktivieren von allgemeinem auersprachlichen (breath) und die Tiefe (depth) des benutzten Wortschatzes. Ganz explizit sollte aber auch
Wissen betrachtet werden. Dennoch ist meines Erachtens die Definition, die fr diesen hier sicher gestellt werden, dass das jeweils vorliegende Wortschatzspektrum bzw. die
Deskriptor benutzt wird, fr Rater bzw. Bewerter schriftlicher Lernerproduktionen Wortschatzbeherrschung einer Lernerproduktion gemessen wird. Dies beruht auf dem
irrefhrend. Paradox erscheint, dass die 0-Punkte-Marke den Begriff Text einfhrt, auch Umstand, dass ein Test lediglich ein kleiner Ausschnitt der fremdsprachlichen Kompetenz
wenn er als durchgngig unlogisch charakterisiert wird. Entweder wird ein Text im Sinne ist. Im GER lauten die Kann-Beschreibung fr das allgemeine Spektrum sprachlicher
der Textlinguistik oder anderer integrativer Definitionen produziert oder es handelt sich Mittel folgendermaen (GER 2001:110):
lediglich um eine Aneinanderreihung von Stzen, die zwar eine Einheit bilden, der
Kann sich klar ausdrcken, ohne dabei den Eindruck zu erwecken, sich in dem, was
Texttiefenstruktur bzw. der Kohrenz aber nicht gerecht werden kann.
er/sie sagen mchte, einschrnken zu mssen.
Man kann in offenen Aufgabenformaten natrlich nicht den Anspruch erheben, dass
Verfgt ber ein hinreichend breites Spektrum sprachlicher Mittel, um klare
Denkweisen zu Schablonen werden. Die Arbeitsvorgabe ist nicht durchnummeriert,
Beschreibungen, Standpunkte auszudrcken und etwas zu errtern; sucht dabei nicht
sodass man zu einem bestimmten Produktionsmuster verpflichtet wre. Wie und nach
auffllig nach Worten und verwendet einige komplexe Satzstrukturen.
welchen Kriterien ein Prfungskandidat die zur Verfgung stehenden Elemente fr seine
eigene Textproduktion gewichtet, ist aber eine persnliche Beurteilung. Dennoch ist es Der GER definiert aber auch detaillierte Skalen der lexikalischen Kompetenz, welche als
durchaus richtig, dass ein Textaufbau einer Lernerproduktion nach Logik und nach die Fhigkeit verstanden werden kann, dass lexikalische und grammatische Elemente
Zusammenhang untersucht und schlielich bewertet wird. verwendet werden. Das Wortschatzspektrum lexikalischer Elemente (z.B. idiomatische
Wendungen, Funktionsverbgefge) und grammatischer Elemente (z.B. Artikel,
Prpositionen, Modalpartikel) und deren Beherrschung werden in den vorhandenen
Skalen des GER folgendermaen beschrieben (GER 2001:112ff.):

Wortschatzspektrum

Verfgt ber einen groen Wortschatz in seinem Sachgebiet und in den meisten
allgemeinen Themenbereichen. Kann Formulierungen variieren, um hufige
Wiederholungen zu vermeiden, Lcken im Wortschatz knnen dennoch zu Zgern
und Umschreibungen fhren.

121 122
Wortschatzbeherrschung hervor. In diesem Sinne mssten Rater auch die mathematische Kompetenz mitbringen,
die Stellen und Passagen zhlen und die Prozentstze dafr berechnen zu knnen (immer
Die Genauigkeit in der Verwendung des Wortschatzes ist im Allgemeinen gro,
auf die Textlnge einer Lernerproduktion bezogen). Zudem kann der Eindruck ber die
obgleich einige Verwechslungen und falsche Wortwahl vorkommen, ohne jedoch
bestehende oder nicht bestehende und noch angemessene Ausdrucksfhigkeit und
die Kommunikation zu behindern.
Verstndlichkeit einer Lernerproduktion ganz subjektiv sein. Unterscheidungen sollten
auch gem des GER nicht davon abhngen, dass man Graduierungen wie einige oder
Es wird hierbei die Unterscheidung zwischen deklarativem und prozeduralem Wissen ein paar auf der nchst hheren Stufe durch viele oder die meisten ersetzt (GER
sichtbar. Es ist durchaus mglich, dass man eine groe Wortschatzbreite aufweist und 2001:201). Auf diese Deskriptoren bezogen, wird aufsteigend folgendermaen graduiert:
dieses Wissen auch konkret und richtig, entsprechend und situationsspezifisch einsetzen Stellenweise gut und angemessen - gut und angemessen - sehr gut und angemessen
kann. Im Sinne dieser Skalen scheinen auch die von Goethe-Institut verfgbaren
Diese quantitativen Bezeichnungen, die in analytischen Skalen oft verwendet werden,
Deskriptoren der ersten drei Abstufungen (4-2 Punkte) definiert zu sein. Abgesehen
verleiten dazu, dass man sein Augenmerk auf die Schwchen in einer Lernerproduktion
davon, dass sich diese Kann-Beschreibung unter anderem auf allgemeine Interessen
richtet.
bezieht, stellt sich die Frage, wie man das Wortschatzspektrum zu messen vermag. Laut
Referenzrahmen soll man sich auf die vier Domnen privater Bereich, ffentlicher Aus der Aufgabenstellung fr das Niveau B2 ergibt sich sicherlich ein bestimmter
Bereich, beruflicher Bereich und bildender Bereich beschrnken. Der GER betont Kontext und folglich ein bestimmtes Register. Die Frage bezglich der Angemessenheit
hinsichtlich der Benutzung dieser zur Verfgung stehenden Skalen, dass man bedenken des Wortschatzes ergibt sich demnach in erster Linie aus der Aufgabe selbst. Das
und angeben sollte (GER 2001:113), Goethe-Institut gibt in den Abstufungen des Kriteriums der Ausdrucksfhigkeit keinen
Aufschluss darber, was die B2-Ebene ausmacht. Meines Erachtens ergibt sich das
welche lexikalischen Elemente die Lernenden erkennen und/oder verwenden
Register aus der Aufgabenstellung erst daraus, was in einem Brief bzw. Leserbrief
mssen, auf welche lexikalischen Elemente sie vorbereitet werden sollen und
behandelt werden soll. Natrlich knnen an dieser Stelle die internen
welche Anforderungen in dieser Hinsicht an sie gestellt werden;
Bewertungsrichtlinien und die analogen Trainingseinheiten fr die Rater, die wie bereits
wie lexikalische Elemente ausgewhlt und angeordnet werden. betont sicherlich diesem Kriterium eine besondere Gewichtung schenken, dazu nicht
Was die Ausdrucksfhigkeit auf Niveau B2 insgesamt ausmacht, geht aus den dokumentiert werden, dennoch msste das Goethe-Institut selbst laut APA hinsichtlich
deskriptiven Abstufungen nicht hervor. Man kann allerdings davon ausgehen, dass Rater der Bewertungskriterien eine komplette Durchfhrungsdokumentation zur Verfgung
in ihren Schulungen mit dem Anspruch des Wortschatzes des jeweiligen Niveaus (in stellen. In den Duchfhrungsbestimmungen steht ber die Bewertung des schriftlichen
diesem Fall B2), den der GER vorschreibt, vertraut gemacht werden und diesen anhand Ausdrucks lediglich, dass sie nach den Bewertungskriterien aus den Prferblttern (S.8)
von Lernerproduktionen soweit wie mglich trainieren und gegebenenfalls untereinander erfolgt und dass als Hilfe fr die Bewertung dieser Aufgabe Kandidatenbeispiele in den
diskutieren. Eine Problematik, die sich an dieser Stelle entpuppt, ist, wenn der zu Papier Trainingsmaterialien fr Prfende zur Verfgung stehen109. Das bezieht sich natrlich
gebrachte Wortschatz der Aufgabenvorgabe entlehnt ist. Vllig legitim ist dies meines auf den ganzen Kriterienkatalog. Des Weiteren scheint es irreal, gar unmglich, dass
Erachtens, wenn die Arbeitsvorlage situationsadquat eingebunden ist und somit als Rater bzw. Korrektoren den erforderten, produktiv anzuwendenden Input fr das Niveau
eigenstndiges Produkt bewertet werden kann. B2 kennen. Wre dem so, msste man der Frage nachgehen, welcher Freiraum fr
synonyme Wortverwendungen einer niedrigeren Referenzskala gegeben wre. Testet
Mit dem ersten und hchstbewerteten Deskriptor werden 4 Punkte erzielt, wenn
man die Ausdrucksfhigkeit des Niveaus B2, dann wird das gesamte Wortschatzspektrum
Wortschatzspektrum und Wortschatzbeherrschung sehr gut und angemessen sind. Der A1 bis einschlielich B2 eingeschlossen. Wie ist die Bewertung demnach zu handhaben,
GER betont bezglich der Entwicklung von Deskriptoren, dass konkrete Aufgaben bzw.
wenn der Prfling das Wortschatzspektrum aller vier Niveaustufen beherrschen soll?
konkrete Fertigkeitsgrade bei der Ausfhrung von Aufgaben beschrieben werden sollen.
Aus diesem Grund sollen die definierten Deskriptoren keine Vagheiten enthalten wie es in Profile hat den Niveaustufen entsprechend Wortschatzlisten fr Rezeption und
den Deskriptoren dieses Kriteriums der Fall ist (GER 2001:201). Anders ausgedrckt ist Produktion erstellt. Inwieweit diese Ausarbeitung einem korpuslinguistischem
es erstrebenswert, keine quantitativen sondern qualitativen Bezeichnungen zu Fundament zugrunde liegt bleibt fraglich. Meines Erachtens handelt es sich um ein
verwenden. Was bedeutet gut und angemessen in ihrer ganzen Bandbreite bezogen auf willkrliches Konstrukt, auf das man das Wortschatzspektrum und die
das Niveau B2 und wie wird dieses schlielich von den Ratern interpretiert? Es wird Wortschatzbeherrschung nicht beziehen darf.
deutlich, dass im hiesigen Fall nicht explizit gemacht werden kann, worauf sich die Bereits ab Niveau B2 scheinen die Niveaukategorisierungen von Ausdruck und
Angemessenheit des Kriteriums Ausdruck bezieht. Der dritte Deskriptor wird um das grammatikalischen Strukturen eine Schwierigkeit zu bereiten. Profile selbst deutet auf die
Adverb stellenweise erweitert, das die Adjektive gut und angemessen modifiziert. Anders Schwierigkeit der Beschreibung der Referenzniveaus hin, denn je hher das Niveau,
formuliert bekommt man als Testkandidat 2 Punkte, sobald die Ausdrucksfhigkeit nur an desto weniger lassen sich niveauspezifische sprachliche Mittel definieren, obwohl die
einigen Stellen gut und angemessen ist. Whrend man einen Punkt fr den Ausdruck, der Komplexitt der sprachlichen Handlungsablufe je nach Niveau ansteigt (Glaboniat et al.
in ganzen Passagen nicht angemessen ist, bekommt, ist die Ausdrucksfhigkeit der 2005:46). Positionen, die Wortschatz zu kategorisieren vermgen, wie Profile dies tut,
letzten Etappe in groen Teilen vllig unverstndlich mit 0 Punkten gekennzeichnet. Auch
wodurch ganze Passagen und groe Teile definiert sind, geht aus dem Deskriptor nicht 109 Goethe-Zertifikat B2: Prfungsordnung. Stand: 100707. S. 6

123 124
sind meines Erachtens daher nicht hieb- und stichfest. Mittels Tests kann der Es wurde bereits erwhnt, dass Wortverwendungen und Sprachhandlungen
Wortschatzumfang von Lernern bestimmt werden, das heit wie weit die mentale verschiedener Niveaus aufgelistet wrden, die von Profile nach Niveaus kategorisiert
Wortschatzverknpfung fortgeschritten ist. Auf niedrigen Niveaus ist der worden sind und an dieser Stelle von mir als synonyme Wendungen gegenber gestellt
Wortschatzerwerb noch intentional. Mit aufsteigender Sprachkompetenz nimmt die werden, um die Problematik synonymer Wrter aufzuzeigen, wobei diese von Profile
Wortschatzerweiterung auch dadurch zu, dass anhand der unterschiedlichen Thematiken unterschiedlichen Niveaus zugeordnet werden. Die linke Spalte der Tabelle definiert den
ein Wechsel vom Konkreten zum Abstrakten statt findet.110 Dennoch teile ich keineswegs Wortschatz, den man laut Profile auf Niveaus B2 produktiv verwenden knnen sollte.
die Position von Profile, dass man Wortschatz in Kategorien und in Niveaus fassen kann. Kontrr dazu befinden sich in der rechten Spalte gleicher Tabelle Synonyme, die sich
rezeptiv und produktiv auf anderen Niveaustufen befinden:
Dennoch will ich an dieser Stelle auf diese Ausarbeitung von Profile basierend folgende
Frage zur Diskussion stellen: Was wre, wenn sich die produzierten Wrter auf dem
Niveau B1 befnden? Interessant zu eruieren ist, ob ein Kandidat, der sich in diesem
B2-produktiv Andere Niveaueinteilungen
Streuungsbereich bewegt, dabei aber trotzdem sehr gut formuliert, nicht doch 4 Punkte
bekommen wrde, obwohl der Wortschatz laut Deskriptor angemessen sein muss. Trklinke (+B1 rezeptiv) Trgriff -> B1 produktiv/rezeptiv

Skepsis ist meines Erachtens bei der Bewertung von Lernerproduktionen angebracht, Gelnder (+ B2 rezeptiv) Treppenhaus -> B1 produktiv/rezeptiv
wenn sich diese auf den Wortschatzinput und die Klassifizierung von Profile bezieht.
Gardine (+B2 rezeptiv) Vorhang -> B1 produktiv/rezeptiv
Diese erarbeiteten und endlosen Wortschatzlisten knnen keineswegs eine Hilfestellung
sein, um eine schriftliche Leistung (hier: B2) zu bewerten. Dies begrnde ich damit, dass mager (+ B1 rezeptiv) dnn -> A2 produktiv/ A1 rezeptiv
zum einen die Basis dieser Erarbeitung willkrlich und subjektiv ist und zum anderen ein Tiergarten (+ B1 rezeptiv) Zoo -> B1 produktiv/ A2 rezeptiv
Rater diese Wortschatzlisten auswendig kennen msste, um Lernerproduktionen den
Niveaustufen entsprechend zuzuordnen. Die Befrworter von Profile knnten an dieser falls (+ B1 rezeptiv) wenn.....dann....-> B1 produktiv/ A2
Stelle das Argument anfhren, dass Rater den erforderten Input mithilfe der Profile CD- rezeptiv
ROM oder Wortschatzlisten ermitteln knnten. Selbst wenn Profile einem soliden beinahe (+B1 rezeptiv) fast -> A2 produktiv/rezeptiv
Fundament unterlge, wre dieser Lsungsweg testtheoretisch sicherlich nicht im Sinne
dankbar sein (+ B1 rezeptiv) jdm. Danken -> B1 produktiv/A2 rezeptiv
der Gtekriterien Praktikabilitt und konomie. Zum einen wrde dies sehr viel Zeit in
Anspruch nehmen, folglich wre das fr die Testanbieter finanziell nicht tragbar und zum gebrtig (+ B2 rezeptiv) geboren sein -> A1 produktiv/rezeptiv
anderen wrde die Bewertung dadurch nicht erleichtert. Ein weiteres Argument
sich langweilen (+ B1 rezeptiv) jdm. Langweilig sein -> B1 produktiv/A2
hinsichtlich der Schwierigkeit, Ausdrucksvermgen gem der Wortschatzlisten nach
rezeptiv
Niveaus zu ordnen, scheint der berforderungsschwellenwert der Rater ab 5 Deskriptoren
aufwrts zu liegen (vgl. Kap. 4.5.2). Die Kontroverse, die hier ganz deutlich wird ist: Wie sich rgern ber/darber...(+B1 sich rgern, weil/dass....-> B1
kann ein Rater mit einem groen definierten Wortschatzinput vertraut sein, whrend er rezeptiv) produktiv/A2 rezeptiv
schon durch die Anzahl von 5 Deskriptoren aufwrts berfordert zu sein scheint?
jdn. (nicht) leiden knnen (+B1 jdn. (nicht) mgen -> A2 produktiv/A1
Bei diesem Kriterium handelt es sich meines Erachtens um eine schwer zu definierende rezeptiv) rezeptiv
Kompetenz und das ganz unabhngig von dem Niveau, das abgeprft wird. Natrlich
scheinbar/anscheinend (+B1 rezeptiv) Es scheint, dass.....-> B1 produktiv/A2
lsst sich auf elementarer Ebene dieses Kriterium viel einfacher und leichter definieren,
rezeptiv
denn man wei, man hat auf Niveau A1 beispielsweise einen sehr konkreten und
elementaren Input und demnach entsprechenden Output zu erwarten. Aufsteigend wird eventuell (+B1 rezeptiv) vielleicht -> A2 produktiv/A1 rezeptiv
es komplexer, denn Sprache wird reicher an Struktur, an Wortschatz und an Verstndnis Denken Sie an/daran.....! (+B1 Vergessen Sie nicht....! -> B1 produktiv/A2
(GER 2001:28f.). Folglich bezieht man alles bisher Erlernte in einen Sprachlernprozess rezeptiv) rezeptiv
mit ein. Wenn man also die B2-Prfung ablegen und in schriftlicher Produktion seine
Sprachkompetenz unter Beweis stellen mchte, so wird das Resultat eine Verschmelzung tatschlich (+B1 rezeptiv) wirklich -> A2 produktiv/rezeptiv
aus elementaren und bergreifenden Sprachverwendungen sein. Die Aufgabenstellung keinesfalls (+ B1 rezeptiv) Auf keinen Fall -> B1 produktiv/A2 rezeptiv
muss sich auf einer sprachlichen Ebene bewegen, die allen Prfungsteilnehmern
selbstverstndlich (+ B1 rezeptiv) natrlich -> B1 produktiv/ A1 rezeptiv
gegenber fair ist. Dabei ist es dennoch mglich, dass der Wortschatz sowohl bekannt als
auch unbekannt ist. Die bewusste oder unbewusste Verwendung des initiierten Es fllt mir nicht ein...(+B1 rezeptiv) Ich habe vergessen, ob....-> B1
Wortschatzes ist aber fr den Leser nicht unbedingt ersichtlich. Es stellt sich weiterhin die produktiv/A2 rezeptiv
Frage, ob im Rahmen der Bewertungskriterien dieser Umstand Bercksichtigung findet,
etw. fr gut/schlecht halten (+B1 etw. gut/schlecht finden -> B1
dass Wrter aus der Legende bernommen werden, um textproduktiv zu werden.
rezeptiv) produktiv/A2 rezeptiv
110 Anhand der Kernlehrplne fr L1 habe ich dies bereits ausfhrlich dargestellt

125 126
Der Ansicht sein/meiner Ansicht Der Meinung sein/meiner Meinung nach -> Aufgabenstellung von jedem B2-Prfungskandidaten rezipiert und schlielich bearbeitet
nach... (+B1 rezeptiv) B1 produktiv/A2 rezeptiv werden kann. Es stellt sich aber dennoch die Frage, nach welchen Kriterien das
Wortschatzspektrum ausgewhlt wird und welchem Fundament dies zugrunde liegt.
ausgezeichnet! (+B2 rezeptiv) phantastisch! -> B1 produktiv/rezeptiv

absichtlich (auch als Verneinung)-> Mit Absicht (auch als Verneinung) -> B1
(+A2 rezeptiv) produktiv/ A2 rezeptiv 5.1.2.4 Kriterium: Korrektheit
weshalb (+ A2 rezeptiv) wieso -> A1 produktiv/rezeptiv

Ja, mag sein. (+ A2 rezeptiv) Ja, kann sein. -> A2 produktiv/A1 rezeptiv KRITERIUM
IV 4 Punkte 3 Punkte 2 Punkte 1 Punkt 0 Punkte
vor allem (+B1 rezeptiv) besonders -> B1 produktiv/A2 rezeptiv
Korrektheit
Das ist furchtbar! (+B1 rezeptiv) Das ist schrecklich! -> B1 produktiv/A2
rezeptiv Morphologie
kaum Einige Einige Fehler, Unzhlige Unzhlige
Das macht mir Angst (+ B1 rezeptiv) Ich habe Angst, weil....->B1 produktiv/A2 Syntax
feststellbare deutliche die den Fehler, die Fehler, die
rezeptiv Orthografie, Fehler Fehler, die das Leseprozess das das
Interpunktion Verstndnis stellenweise Verstndnis Verstndnis
Wrden Sie mal.....tun? (+ B1 Wrden Sie bitte.....tun? -> B1
aber nicht behindern erheblich unmglich
rezeptiv) produktiv/A2 rezeptiv beeintrchtigen stren machen

Tabelle 23: Gegenberstellung synonymer Ausdrcke nach Profile Tabelle 24: Korrektheit im B2 Zertifikat

Profile versteht sich wie der GER auch als ein offenes, transparentes und kohrentes Das vierte und letzte Kriterium der Bewertungsskala fr das B2-Zertifikat des Goethe-
System von Niveaubeschreibungen, welches sich nicht auf endgltige Fassungen Instituts beinhaltet in seiner berarbeiteten und endgltigen Version die Unterbereiche
beschrnkt (Glaboniat et al. 2005:53). Die erarbeiteten Listen der verschiedenen Morphologie, Syntax, Orthografie und Interpunktion und macht 26,66 % der
Bereiche wurden aus Lernzielkatalogen verschiedener Arbeitsgruppen zusammengestellt Gesamtbewertung aus. Da bezglich der genauen Gewichtung der Unterbereiche nichts
(Glaboniat et al. 2005:43). Wie schon mehrfach angedeutet wurde, ist dennoch nicht dokumentiert wird, wird davon ausgegangen, dass die drei Unterkriterien gleichwertig
ersichtlich, auf welchen linguistischen bzw. korpuslinguistischen Grundlagen die Arbeit sind. Der GER kann bezglich dieses Kriteriums die grammatische Korrektheit und die
von Profile begrndet liegt. Dennoch habe ich mittels der CD-ROM von Profile diese Beherrschung der Orthografie anhand von Kann-Beschreibungen in Skalen fassen (GER
Synonymliste erstellt, um im Rahmen des GER die Ausdrucksfhigkeit zu diskutieren. 2001:114 ff):
Interessant ist, wie die Bewertung einer schriftlichen Lernerproduktion, die mehrheitlich
aus einem Wortschatzfundus unterhalb des Niveaus B2 besteht (siehe rechte Spalte Grammatische Korrektheit
obiger Tabelle), ausfallen wrde. Wie Korrektoren die nicht angemessene Gute Beherrschung der Grammatik; gelegentliche Ausrutscher oder nicht-
Wortschatzverwendung anhand des analytischen Bewertungsrasters dokumentieren, systematische Fehler und kleinere Mngel im Satzbau knnen vorkommen, sind
einordnen und schlielich bewerten wrden, bleibt schlielich zu klren. Man sieht an aber selten und knnen oft rckbildend korrigiert werden.
dieser Stelle, wie vorsichtig diese Thematik anzugehen ist, um die Validitt nicht nur der
Gute Beherrschung der Grammatik; macht keine Fehler, die zu
Bewertungskriterien, sondern auch des gesamten Testes, zu gewhrleisten.
Missverstndnissen fhren.
Das Vokabular des Arbeitsauftrages fr das B2-Zertifikat sollte keinerlei
Schlsselwrter verwenden, die rezeptiv ber das Niveau B1 reichen, damit dem
Anspruch der APA, dass niemand einen unfairen Vorteil hat, wenn angemessen In dieser Skala ist von guter Beherrschung der Grammatik die Rede, es wird jedoch
konstruierte und angewendete Tests die sozialen Ziele der Fairness und die Gleichheit der nicht explizit eingegrenzt, aus welchen grammatikalischen Komponenten und
Gelegenheiten frdern, Rechnung getragen werden kann (vgl. APA 2004). In diesem grammatischen Phnomenen der deutschen Sprache das Referenzniveau B2 ausgemacht
Sinne kann bei Testkonzepten, die das Wissen oder die Fhigkeit eines Testteilnehmers wird. Auerdem schliet diese Kann-Beschreibung des GER hier mehr als nur den vom
festsetzen mchten durch Standardisierung gewhrleistet werden, dass alle Goethe-Institut formulierten obersten Deskriptor fr dieses Kriterium ein. Solange Fehler
Testteilnehmer die gleichen Mglichkeiten haben, um ihre Kompetenz zu demonstrieren. nicht zu Missverstndnissen fhren, knnen laut der Definition der hier benutzten
Sicherlich ist das Goethe-Institut in seiner Testerstellung bemht, dass sich die Items Deskriptoren im schlechtesten Fall bis zu zwei (2) Punkte von maximal vier (4) zu
bzw. die Aufgaben fr die B2-Prfung auf einem sprachlichen Niveau bewegen, das sich erreichenden erzielt werden.
im A2/B1-Bereich bewegt. Dadurch kann gewhrleistet werden, dass die

127 128
In Profile lauten die globalen Kann-Beschreibungen fr schriftliche Interaktion (SI) diesem Deskriptor zudem nicht explizit, welche Niveaus und Can-Dos darunter fallen. Zur
und schriftliche Produktion (SP) des B2-Niveaus fr die Unterpunkte des Kriteriums Verdeutlichung sei folgendes Beispiel angefhrt: Angenommen man bentzte
Korrektheit folgendermaen (Glaboniat et al. 2005:156, 165): Kausaladverbien der Niveaustufe B1, konditionale Subjunktionen und Temporaladverbien
der Elementarstufe A2, und all das korrekt - wie viele Punkte wrde man fr eine derartig
tadellose Leistung bekommen? Die Definition des ersten und hchstbewertenden
Kann in Texten seine/ihre Kenntnisse in der deutschen Sprache bei relativ guter Deskriptors ist sehr allgemein und kann selbst korrekte Formen niedrigerer Niveaus
Beherrschung der Grammatik so anwenden, dass kaum Fehler entstehen bzw. beinhalten. Die Frage, die sich hier stellt, ist, ob B2 alle darunter liegenden Stufen
kann viele Fehler selbst korrigieren. (SP) einschliet und wo die Fehler, falls sie gemacht werden, vorkommen. Diese drften sich
Kann seine/ihre schriftlichen Texte weitgehend grammatikalisch korrekt in diesem Sinne nur im Bereich B2 befinden, denn alles darunter liegende msste
verfassen, wobei gelegentlich nicht systematische Fehler und syntaktische Mngel beherrscht werden. Ich bezweifle dennoch, dass das im absoluten Sinne der Fall ist. Es
vorkommen. (SI) ist auf der einen Seite natrlich nicht anzuzweifeln, dass Sprache ein Ineinanderflieen
ist, das im Laufe des Lernprozesses verstrkt und ausgebaut wird. Auf der anderen Seite
Kann Orthografie und Interpunktion weitgehend regelkonform anwenden. (SP) aber fhrt der Zwang der Kategorisierung und der Einteilung in Niveaustufen und Kann-
Kann Orthografie und Interpunktion so korrekt anwenden, dass aus eventuellen Beschreibungen jedoch dazu, dass man den Anspruch und den Konsens daran
Fehlern keine Missverstndnisse entstehen. (SI) festzumachen hat. Es stellt sich die Frage danach, ob ein Prfungsteilnehmer oder Lerner
der selbstndigen Sprachverwendung, die das B-Niveau ausmacht, gerecht wird. Dabei
muss festgelegt werden, welche Fehler, Formen und Ausdrucksweisen ihn eher als
Als erstes muss angenommen werden, dass die Kann-Beschreibungen generell - aber elementaren Sprachverwender der Niveaustufe A definieren und durch welche
auch fr das vorliegende Kriterium speziell - sicherlich nur die maximale Punktbewertung Fhigkeitskombinationen er gute bzw. bessere Bewertungen, die in den B-Bereich fallen,
definieren. Sie stehen prinzipiell fr das geforderte Interlanguagestadium auf einem erzielt.
bestimmten Niveau. Wie schon angedeutet, umfasst das Korrektheitskriterium viele
Krings (1988) belegte bereits empirisch, dass die schriftliche Produktion in der
Bereiche und daher sollte explizit gemacht werden, wie die Prioritten innerhalb dieser
Zielsprache eingeschrnkte Automatisierung aufwirft (vgl. Kap. 3.4). Nach Bart
Kategorie gesetzt sind und was das fr die Bewertung zu bedeuten haben knnte.
(1999:89) wird die Fehlerbewertung dennoch an akzeptablen bzw. nicht akzeptablen
Obwohl meines Erachtens diese Unterbereiche nicht zusammengefasst werden drften,
zielsprachlichen Konstrukten gemessen. In diesem Sinne beinhaltet der nchste
wie in Kapitel 6 ausfhrlich erlutert werden wird, gilt es anhand der Gegebenheiten
Deskriptor insgesamt 3 Punkte, wenn in der schriftlichen Produktion einige deutliche
herauszufinden, was fr die Korrektheit der Schriftsprache am reprsentativsten und am
Fehler, die das Verstndnis nicht beeintrchtigen auftreten. Auch an dieser Stelle ist das
gewichtigsten ist. Anders ausgedrckt ist zu hinterfragen, ob alle Unterpunkte
mathematische Verstndnis der Rater erforderlich, um den Mastab fr einige einstimmig
gleichwertig sind oder ob es eine Rangfolge gibt. Es wird aus keiner Quelle des Goethe-
zu setzen. Es muss zunchst die Frage beantwortet werden, um wessen Verstndnis es
Instituts deutlich, wodurch Korrektheit definiert wird. Hier stellt sich folglich die Frage
sich hier eigentlich handelt, das nicht beeintrchtigt wird. Im Sinne des Kapitels 4.5.3
nach der Definition der Korrektheit. Nach Langenscheidt sollen bestimmte
muss erneut deklariert werden, dass menschliche Rater in erster Linie individuell und
(gesellschaftliche) Normen genau eingehalten werden.111 Demnach bekommt man bei
folglich unterschiedlich sind. Natrlich betrifft dies, wie bereits herausgestellt, die Frage
dem ersten Deskriptor die maximale Punktzahl 4, wenn es kaum feststellbare Fehler gibt.
der Bewertungsbereinstimmung und Bewertungsreliabilitt, was nicht mit den
Natrlich sind Fehler in der Regel feststellbar, es sei denn, es handelt sich um latente
Bewertungskriterien an sich gleichzusetzen ist, obwohl diese Einfluss auf die beiden erst
Fehler, die zum Beispiel durch Vermeidungsstrategien hervorgerufen werden und
genannten nehmen.
zustande kommen. Gerade im Bereich der Morphologie, der Syntax, der Orthografie und
der Interpunktion sind Fehler dennoch am offensichtlichsten. Wird hier mit kaum Die nchste Abstufung des Kriteriums scheint verglichen zu dem gerade
feststellbar angedeutet, dass es sich um nicht gravierende Fehler handelt? Dazu msste dokumentierten Deskriptor etwas schwcher in ihrer Definition zu sein: einige Fehler, die
man erstmal definieren, was ein gravierender, schwerer Fehler in diesem Bereich ist. den Leseprozess stellenweise behindern. An dieser Stelle kristallisiert sich meines
Erachtens eine Lcke zwischen dem zweiten und dritten Deskriptor heraus. Verstndnis
Erstmals wird in diesem Bewertungskatalog der Begriff Fehler eingefhrt. In
wird hier durch Leseprozess ersetzt. Die Behinderung des Leseprozesses knnte
Sprachstandsprfungen verschiedener Anbieter scheinen Fehler an der zielsprachlichen
zweifellos auch durch ein schlechtes Schriftbild verursacht werden, obwohl die
Norm orientiert zu sein. Dabei muss man sich meines Erachtens aber darber im Klaren
sprachliche Qualitt im Sinne des Korrektheitsanspruchs der Anforderung entspricht.
sein, dass die eindeutige und allgemeingltige Zuweisung von richtig oder falsch nicht
Zudem muss man auch hier die Frage aufstellen, ob und unter welchen Umstnden der
mglich zu sein scheint. Whrend B2 impliziert, dass man bezogen auf ein L1-Niveau
Leseprozess bei allen Ratern gleichermaen behindert bzw. gestrt wird. Whrend der 3
Fehler machen darf, macht das Goethe-Institut fr die maximale Punktzahl von 4
Punkte erzielende Deskriptor keine Verstndnisbeeintrchtigung durch einige deutliche
Punkten allerdings fest, dass es kaum Fehler gibt, die feststellbar sind. Da es sich bei den
Fehler erfhrt, wird beim nchsten der Leseprozess bereits durch die Fehlerfrequenz
Niveauzuschreibungen fr mich um Interlanguages handelt, knnen die verschiedensten
lediglich einiger Fehler behindert. Zu definieren gilt hier, was unter Leseprozess
Fehlerquellen und ursachen innerhalb dieser nicht absolut eruiert werden. Es wird in
verstanden wird. Das Leseverstehen kann als ein Prozess betrachtet werden, der zum
111 Langenscheidt: e-Growrterbuch Deutsch als Fremdsprache. 2003 Langenscheidt KG Berlin und Mnchen. (CD-ROM) Produkt Leseverstndnis fhrt (vgl. Grotjahn 2000a). Ist demnach der Prozess des

129 130
Leseverstehens, also der Lesefluss stockend, dann wird das Verstndnis beeintrchtigt. 5.1.3 Diskussion von Lernerreaktionen auf die Aufgabenstellung und
Dennoch muss dies keine allgemeingltige Aussage fr alle Rezipienten und das evtl. deren Originalbewertungen
gestrte Leseverstndnis sein. Auerdem gilt es zu klren, wie Fehler hier nach
Nachdem der Kriterienkatalog diskutiert worden ist, sollen im Folgenden zwei
Kategorien zu gewichten wren. Es wird weder etwas ber den Fehlertypus noch ber
Originalbewertungen des Goethe-Instituts angefhrt werden, indem und unter
den zugehrigen Bereich ausgesagt.112 Der vierte Deskriptor vergibt einen Punkt, wenn
Bercksichtigung der bereits angefhrten Schwachstellen und Kritikpunkte Stellung von
unzhlige Fehler das Verstndnis erheblich stren. Es muss ausdrcklich gemacht
mir genommen werden soll.
werden, welche Arten von Fehlern eine erhebliche Verstndnisstrung hervorrufen
knnen und zudem bei wem (bezogen auf die Rater) dies schlielich eintritt. Es msste Lsungsvorschlag A 202 Wrter
sich demnach um Fehler handeln, die bei keinem Korrektor eine Struktur erkennen lassen
Groe Mehrheit der Deutschen fr strengere Kindererziehung
wrden. In der Definition dieses Deskriptors wird das nicht explizit gemacht. Dadurch
stellt sich berechtigterweise die Frage, ab welchem Moment eine Lernerproduktion derart Sehr geehrte Damen und Herren,
chaotisch ist, dass das Verstndnis erheblich gestrt wird. Auch beim letzten Deskriptor
Mit groem Interesse habe ich die Meldung ber Erziehung der Kinder gelesen. Ich
wird nicht die Fehlerart sondern die Quantitt der Fehler zum Mittelpunkt, wodurch das
freue mich sehr, da dieses Thema heute so aktuell ist. Meiner Meinung nach, ist es nicht
Verstndnis unmglich gemacht wird (0 Punkte). Man muss erneut darauf hinweisen,
nur interessant, sondern auch ein groes Problem fr die Eltern heute. Deswegen mchte
dass die Fehlertypologie in der Definition des Deskriptors nicht festgelegt zu sein scheint.
ich etwas dazu schreiben.
Handelte es sich z.B. lediglich um schwere orthografische Fehler, die syntaktische
Struktur wre aber nicht zu bemngeln, dann wre interessant, ob dies dennoch zur Die wichtigste Rolle bei der Erziehung der Kinder spielen die Eltern. Manche Probleme
Einstufung auf den letzten Deskriptor fhren wrde. Es wird also aus der definierten in der Zukunft, zum Beispiel die schlechte Benehmung in der Schule oder ein schlechter
Kategorie Korrektheit nicht ersichtlich, welche Unterkriterien das Verstndnis und zu Umgang mit den anderen Kindern kommen aus der Kindheit.
welchem Grad beeinflussen knnen. Die Atmosphre in der Familie spielt eine groe Rolle. Ich finde, da es gut ist, da die
Generell ist bei diesem Bewertungskriterium und seinen Abstufungen fr den Kinder frher strenger erzogen wurden. Sie bekamen von der Familie viel mehr, als
schriftlichen Ausdruck auf B2-Niveau nicht eindeutig, welche Arten von Strukturen und zu heute und waren auch in der Zukunft selbststndiger.
welchem Grad berhaupt untersucht werden. Auch wenn ein Testkandidat ein fehlerfreies Ich bin einverstanden, da die Kinder beim Einkaufen den Eltern helfen sollten. Und die
aber syntaktisch schlichtes Konstrukt produziert bleibt es ungeklrt, ob er die maximale Eltern sollten unbedingt auf das Studium der Kinder achten. Ich glaube auch, da sehr
Punktzahl 4 erzielt, da der oberste Deskriptor derartige Flle bereits im Vorfeld nicht gute Idee ist, Kinder in eine Schuluniform zu stecken und selbstverstndlich das
explizit ausschliet. Das Kriterium der Fairness kme jedoch damit ins Spiel, wenn ein Kaugummikauen in der Schule untersagen. Die Eltern heute beschftigen sich sehr mit
weiterer Testkandidat mit den Formulierungen und dem Gebrauch komplexerer und ihrer Arbeit, aber sie sollten mehr Zeit fr die Kinder haben.
eloquenterer Elemente, aufgrund des Risikos der falschen Anwendung zum Beispiel den
Mit freundlichen Gren,
Leseprozess des Rezipienten behinderte.113 Dieser Testkandidat msste den Kriterien
entsprechend und verglichen zu der schlichteren Lernerproduktion im besten Fall 3
Punkte bekommen. Eine mangelhafte Fairness wrde sich durch nicht zu vergleichende
Maria K.
komplexe und weniger komplexe strukturelle Strickmuster geschriebener Texte uern
und demnach wre die Validitt dieses Kriteriums oder der Bewertung selber nicht
gegeben.
Diese Leistung erzielte ein Ergebnis von 12,5 von maximal zu erreichenden 15 Punkten.
Im Trainingsmaterial fr Prfende fr das B2-Zertifikat lautet der Kommentar fr diese
Lernerproduktion:114 () eine gute Leistung. () schreibt einen klar gegliederten Brief.
() beherrscht Lexik und Grammatik gut, auch wenn () beim Aufbau noch an den
Vorgaben der Aufgabe entlanggehangelt [wird]. Wie sich die 12,5 Punkte bei dieser
Lernerproduktion zusammen setzen und wie dies kommentiert ist, soll zunchst
angefhrt und im Folgenden diskutieren werden:

112 Im 6. Kapitel soll auf die Kombination verschiedener Bereiche in diesem Kriterium eingegangen werden.
113 Das Gegenberstellen verschiedener Lernerreaktionen soll hier nur zur Veranschaulichung fr die Anwendung der
Deskriptoren dienen. Natrlich stehen Sprachstandsprfungen des Goethe-Instituts im Zeichen der Kriteriums- und nicht
der Normorientierung 114 Goethe-Zertifikat B2: Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707. S. 11

131 132
Kriterium Kommentar Bewertung Ausdrucksweisen aus der Legende werden dem zweiten Deskriptor des Kriteriums
zugerechnet, welches von guter und angemessener Ausdrucksfhigkeit ausgeht. Die im
Inhaltliche Die Textlnge ist ausreichend. Alle vier 2,5 Punkte
Kommentar eher als negative Elemente definierten Eigenschaften werden dennoch einer
Vollstndigkeit Inhaltspunkte sind behandelt, jedoch zwei nur
positiven Kann-Beschreibung zugeordnet. Was das Korrektheitskriterium anbelangt,
sehr knapp, deswegen gibt es einen halben Punkt
deckt sich der Bewertungskommentar mit der Definition des Deskriptors, dem die
Abzug
Korrektheit vorliegender Lernerproduktion zugeordnet wurde.115
Textaufbau und Der Text besitzt eine gute Einleitung und ist 3 Punkte
Es muss betont werden, dass es hier in erster Linie nicht um das Lernerprodukt selbst
Kohrenz durchgngig flssig lesbar. Kaum verknpfte,
geht, sondern erstrangig darum, wie die definierten Bewertungskriterien samt ihren
einzelne Abstze, deshalb Entscheidung fr drei
Deskriptoren stabil fr das Ermitteln der Schreibkompetenz eines Lerners eingesetzt,
Punkte.
benutzt und genutzt werden knnen. Das genau ist der Schlssel, um die Validitt der
Ausdrucksfhigkeit Es bestehen noch Unsicherheiten im 3 Punkte Bewertungskriterien zu ermitteln. Diese Lernerproduktion ist zweifelsohne eine sehr
Sprachgefhl. Sie bernimmt Ausdrucksweisen schne Leistung. Die Frage, die sich an dieser Stelle jedoch stellt, ist, ob diese unter
aus dem Text, ohne sie an den Stil ihres Textes Bercksichtigung vorliegender Bewertungsskala immer als die gleiche sehr schne
anzupassen: in eine Schuluniform zu stecken, Leistung bewertet wrde.
untersagen. Auerdem bestehen
Lsungsvorschlag B 241 Wrter
Unregelmigkeiten, z.B. Benehmung, Studium
ist falsch eingesetzt. Deswegen nach Diskussion Sehr geehrte Damen und Herren,
einen Punkt Abzug.
heute habe ich im Internet euere folgende Meldung gelesen und ich mchte euch
Korrektheit Wenige Fehler, die beim Lesen kaum auffallen. 4 Punkte sagen was ich davon halte. Ich mchte das beurteilen als eine reife Frau, welsche wird
Nach Diskussion Entscheidung fr vier Punkte, da auch in der Zukunft Kinder haben.
die Gesamtfehlerzahl gering ist. Der grsste Einfluss auf die Kinder haben natrlich die Eltern und seine Erziehung,
aber auch der Bekanntenkreis und die Lehrer, welsche geben die Kinder fast jeden Tag
die Unterrichten. Sie geben den Kindern eine Persnlichkeitform.
Tabelle 25: Originalbewertung einer B2 - Produktion
Die Kinder frher waren strenger gezogen als ehute zu zeit. Das ist kein Wunder, das
war ganz anderes Zeit, das Leben war nicht so weit technologisch, die Leute haben auch
In der vorangegangenen Diskussion der Bewertungskriterien des B2-Zertifikats sind anders gedacht, sie konnten nicht alles haben was fr uns ganz normal ist. Die Kinder
viele Fragen gestellt worden, die sich hier nun beantwortet lassen knnen. haben auch nicht so viel Spielzeug wie jetzt und Unterhaltung.
Was das Kriterium der inhaltlichen Vollstndigkeit und dessen Bewertung im Jede Generation bringt was neues, neue Erfahrungen, ist auch dadurch intelligenter,
vorliegenden Fall anbelangt, so erscheint der Kommentar mit dem zustndigen hat mehr Toleranz und Verstndnis fr andere Menschen. Ich finde, dass die Kinder
Deskriptor nicht kompatibel zu sein. Diese Lernerproduktion hat zwar alle vier zusammen mit den Eltern aufrumen und einkaufen sollen, dass/damit sie spter sich
Inhaltspunkte behandelt, jedoch zwei nur sehr knapp. Dennoch erfolgt an dieser Stelle richtig im Leben finden knnten. Die Schularbeiten sollen auch regelmig gemacht
lediglich ein Abzug von 0,5 Punkten. Dieser Zuordnung d.h. 2,5 Punkten nach mssten werden und was das Kaugummikauen betrfft, ich finde korrekt nur wenn die Kinder
statt zwei drei Inhaltspunkte schlssig und angemessen dargestellt worden sein. Man Pause (in Unterricht) haben, sie drfen dann Kaugummi kauen.
sieht bereits an dieser Stelle, dass Rater gengend Freiraum innerhalb der definierten
Deskriptoren haben, diese subjektiv zu besetzen. Was die Textlnge und ihre Dichte Ich kann allen Eltern nur vorschlagen, dass sie viel mit den Kindern sich unterhalten
anbelangt, habe ich bereits unter 5.1.2.1 Stellung dazu genommen. Dass die hier als sollen, ber Probleme reden und dem Kind das Verstndnisgefhl geben. Sie mssen
ausreichend befundene Textlnge jedoch zu aus der Einleitung besteht, die wiederum wissen, dass, sie ein Freund auch zu Hause habe.
in diesem Kriterium keine Anwendung bezglich des Textsortenwissens in der Bewertung Mit freundlichen Gren
findet, scheint paradox. Dies findet im zweiten Kriterium jedoch raterintern
Bercksichtigung, ohne dass in den Deskriptoren jedoch davon die Rede ist, ob der Text
eine gute oder weniger gute Einleitung besitzt. Anna D.

Obwohl diese Lernerproduktion als durchgngig flssig lesbar befunden wurde, finden
sich laut der Originalbewertung kaum verknpfte, einzelne Abstze. Dennoch wird diese
Feststellung entgegen der Definition des Deskriptors liest sich noch flssig mit der hier
angesetzten Punktevergabe (3 Punkte) honoriert. Der Kommentar fr die Bewertung des
115 Obwohl die Kriteriumskonstellation meines Erachtens nicht angemessen ist, so gilt dennoch festzuhalten, dass die Bereiche
Ausdrucksvermgens scheint 3 Punkte aufgrund der Formulierung nicht zu besttigen. Morphologie, Syntax, Orthografie und Interpunktion bestimmten und unabnderlichen Regeln unterliegen. Dies allein msste
die Validitt in diesem Bereich gewhrleisten.
Das Existieren von Unsicherheiten im Sprachgefhl und die bernahme von
133 134
Im Prfertraining B2 wird diese Leistung als ausreichend eingestuft und mit 9 von 15 im zweiten Deskriptor, der drei Punkte dafr vergibt, dass sich der Text noch flssig liest.
Punkten bewertet. Es wird im Kommentar sogar darauf verwiesen, dass die Textsorte Das wird im Kommentar damit begrndet, dass sprachliche Fehler die Lesbarkeit
Leserbrief erkennbar eingehalten wurde, obwohl dies nirgends in der Bewertungsskala beeintrchtigen. Der Begriff Fehler tritt aber, wie bereits erwhnt wurde, lediglich im
bercksichtigt zu sein scheint, wie bereits in der Diskussion der einzelnen Kriterien und Kriterium Korrektheit auf. Demnach drften die sprachlichen Fehler an dieser Stelle keine
ihren Deskriptoren angemerkt worden ist. Das kommentierte Bewertungsraster fr diese Bercksichtigung finden. Hier soll es ausschlielich um die Textgliederung und die durch
Lernerproduktion setzt sich folgendermaen zusammen:116 Satz verknpfende Elemente geschaffene Kohrenz gehen. Der Punktabzug wird dennoch
auf der Basis sprachlicher Fehler kommentiert und gerechtfertigt. Trotzdem ist es nicht
offensichtlich, worauf es bei der so genannten Lesbarkeit bzw. dem in den Deskriptoren
Kriterium Kommentar Bewertung definierten Lesefluss ankommt, denn diese Beeintrchtigung wird als durch Fehler
Inhaltliche Textlnge ist mit 241 Wrtern mehr als 3 Punkte verursacht kommentiert, welche aber in den Deskriptoren dieses Kriteriums weder
Vollstndigkeit ausreichend. Alle vier Inhaltspunkte sind definiert noch erwhnt wird. Im Kriterium der Ausdrucksfhigkeit werden nur zwei Punkte
angemessen dargestellt. vergeben, obwohl die vereinzelt auftretende falschen oder unpassenden Ausdrcke laut
Kommentar das Verstndnis nicht beeintrchtigen. Der stellenweise angemessene und
Textaufbau und Der Text besitzt eine adquate Einleitung und ist 3 Punkte gute Ausdruck und die vereinzelte Verwendung falscher Ausdrcke finden sich im dritten
Kohrenz als Leserbrief gestaltet. Er lsst sich flssig lesen, Deskriptor des Ausdruckskriteriums stellenweise gut und angemessen wieder, obwohl
jedoch beeintrchtigen die sprachlichen Fehler dort nichts hinsichtlich des Verstndnisses definiert ist. Dennoch besteht in diesem Fall
die Lesbarkeit. Es gibt einen Punkt Abzug, da die eine Kompatibilitt zwischen der Bewertungsskala und ihrer Anwendung im Ernstfall.
einzelnen Abschnitte nicht gut verknpft sind
Obwohl sich Fehler ganz objektiv betrachtet bestimmen lassen knnen, muss dies
Ausdrucksfhigkeit Der Wortschatz ist stellenweise angemessen und 2 Punkte anhand der Anwendung des Kriteriums Korrektheit revidiert werden. Vorliegende
gut. Vereinzelt werden falsche oder unpassende Lernerproduktion erzielt lediglich einen Punkt. Kommentiert wird, dass hufige Fehler ()
Ausdrcke verwendet (reife Frau; das Verstndnis vereinzelt behindern (), das aber noch erhalten bleibt. Demzufolge
Persnlichkeitform; das Leben war nicht so weit existiert kein eindeutiger Deskriptor. Whrend der 2-Punkte-Deskriptor definiert, dass
technologisch). Das Verstndnis ist durch diese einige Fehler, die den Leseprozess stellenweise behindern, sind es beim nchsten
Fehler zwar nicht beeintrchtigt, dennoch Deskriptor (1 Punkt) unzhlige Fehler, die das Verstndnis erheblich stren. Begrndet
Entscheidung fr zwei Punkte. wird die Vergabe eines Punktes mit hufigen Fehlern. Es sind aber dennoch nicht
Korrektheit Hufige Fehler in Morphologie und Syntax, die 1 Punkt unzhlige, wie dieser Deskriptor definiert. Unbeachtet ist auerdem, wie
vereinzelt das Verstndnis behindern (welsche Wiederholungsfehler gewertet werden (z.B. welsche), um die tatschliche Fehlerfrequenz
geben die Kinder fast jeden Tag die zu ermitteln. Nirgendwo ist dies dokumentiert. Auch an dieser Stelle kann erneut
Unterrichten). Das Verstndnis bleibt noch festgestellt werden, dass die Definitionen von Bewertungskriterien und Deskriptoren nicht
erhalten, aber auf Grund der Fehlerzahl vollkommen objektiviert werden knnen, um alle Flle darauf zu beziehen. Wre ein
Entscheidung fr einen Punkt. Rater strenger in seiner Bewertung, dann bekme diese Lernerproduktion mglicherweise
0 Punkte, da die unzhligen Fehler, sein Textverstndnis unmglich machten. Somit
wrde die gesamte Aufgabe des schriftlichen Ausdrucks mit Null Punkten bewertet
Tabelle 26: Originalbewertung einer B2 - Produktion werden. Zu hinterfragen ist genau an dieser Stelle, wie sinnvoll eine derartige Festlegung
im Rahmen einer analytischen Bewertung schlielich ist.

Was die Bewertung fr die inhaltliche Lnge anbelangt, ist bezglich der Anwendung
der Deskriptoren in diesem Fall nichts auszusetzen. Tatschlich wurden in dieser
Lernerproduktion die gestellten Inhaltspunkte entsprechend bearbeitet und abgedeckt.
Im Kommentar wird zudem dokumentiert, dass die Textlnge mehr als ausreichend ist.
In der Diskussion dieses Kriteriums habe ich bereits darauf hingewiesen, dass nichts
bezglich der Dichte eines Textes vermerkt wird. Offensichtlich ist dies dennoch ein
latentes Unterkriterium in dieser Kategorie. In den Deskriptoren wird lediglich Bezug auf
die schlssige und angemessene Darstellung der Inhaltspunkte genommen. Was das
zweite Kriterium anbelangt, so findet man auch im Kommentar dieser Lernerproduktion
den Vermerk bezglich der Textsorte, was aber im Sinne der APA, dass alles
dokumentiert sein muss, in den Deskriptoren nicht zu finden ist. Die Bewertung liegt hier

116 Goethe-Zertifikat B2: Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707. S. 21

135 136
Schlielich soll eine als nicht ausreichend befundene Leistung angefhrt und diskutiert Ausdrucksfhigkeit Die Teilnehmerin zeigt bei der 1 Punkt
werden. Wortschatzbeherrschung kaum Eigenleistung,
sondern bernimmt viel aus der
Aufgabenstellung wie mit den derzeitigen
Lsungsvorschlag C 158 Wrter Erziehungsmethoden zufrieden; 95 Prozent
sprechenSelbst Ausdrcke wie meiner Meinung
nach sind fehlerhaft. Entscheidung fr einen
Sehr geehrte Damen und Herren, Punkt, da das Wortschatzspektrum im ganzen
Text nicht angemessen ist.

heute habe ich Ihre eine Meldung im Internet gelesen. Thema:Groe Mehrheit fr Korrektheit Es treten gehufte Fehler auf (auf meine 1 Punkt
strengere Kindererziehung interessiert mich sehr, weil ich selbst fnf Kinder habe. Auf Meinung; dass es toll sind; im disen Jahre), der
meine Meinung um Kinder mssen nicht die Eltern kmmern, aber die Schule auch. Gesamtzusammenhang bleibt undeutlich, das
Verstndnis ist stellenweise gestrt.
Das bedeutet, dass Kindern im Grunde frei sollgen sein. Im Moment bin ich mit den
derzeitigen Erziehungsmethoden zufrieden, genauso wie 31 Prozent der Deutschen. 95
Prozent sprechen sich dafr aus, dass Kinder Pflichten wie Aufrumen und Einkaufen Tabelle 27: Originalbewertung einer B2 - Produktion
erfllen sollten. Ich finde, dass es nicht besonders toll sind. Das kommt spter, wann sie
schon eine Lebenserfahrung bekommen. Ich bin auch gegen regelmige Schularbeite
fr Kindern, weil sie im disen Jahren andere Aufgabe haben sollen. Die Kinder in eine In der Diskussion der Bewertungsskala fr das B2-Zertifikat ist darauf aufmerksam
Schuluniform zu stecken? Was knnte schlimmste sein? Fr eine bessere Kindererziehung gemacht worden, dass in den Kriterien nichts ber die erforderliche Mindesttextlnge
mchte ich gern weitere Vorschlge machen. Kindern sollen selbst seine Lebensstiell vermerkt ist. Lediglich auf dem Aufgabenblatt wird unter Hinweise angemerkt, dass eine
wahlen. Die Eltern und die Schule mussen nur Kindern helfen. Textproduktion von ca.180 Wrtern verlangt wird. Punktabzge fr das Nicht-Erreichen
dieses Textvolumens werden meines Wissens offiziell nirgends dokumentiert. Die Frage
der Textlnge findet dennoch intern im Kriterium der inhaltlichen Vollstndigkeit
Mit freundlichen Gren Beachtung. In der hiesigen Punktevergabe wird bercksichtigt, dass die Aufgabenstellung
als Hilfsmittel gebraucht wurde, um die Inhaltspunkte zu bearbeiten. Verwiesen wurde
Lidiya S.
bereits darauf, dass diese Mglichkeit nicht unbeachtet gelassen werden darf. In den
Deskriptoren des Kriteriums der inhaltlichen Vollstndigkeit kann sich jedoch kein Indiz
Der globale Kommentar bezieht sich zunchst auf die unzureichende Leistung, die unter dafr finden, dass dieser Umstand Bercksichtigung findet. Fr die inhaltliche
das B2-Niveau eingestuft wird. Obwohl der Brief klar gegliedert zu sein scheint, ist der Vollstndigkeit bekam diese Lernerproduktion einen Punkt, wobei Inhaltspunkte nur
Text mit 158 Wrtern zu kurz (verlangt werden in der Aufgabenstellung mindestens 180 ansatzweise behandelt sind, an mehreren Stellen unklar. Dieser Deskriptor besagt aber
Wrter). Zudem werden die einzelnen Inhaltspunkte nicht angemessen behandelt. Zur weder etwas ber Textlnge, die nicht eingehalten worden ist, noch ber
Verdeutlichung werde ich den Bewertungskommentar fr diese Lernerproduktion Vermeidungsstrategieanwendungen anhand der Aufgabenstellung.
anfhren: Wenn im Korrektorenkommentar notiert ist der Text liest sich trotz der Fehler noch
flssig, dann msste sich dies mit der Deskriptorendefinition liest sich noch flssig
decken. Aus der Punktevergabe wird aber deutlich, dass trotz allem nicht dieser
Kriterium Kommentar Bewertung Deskriptor fr das Bewerten des Textaufbaus und der Kohrenz herangezogen wurde,
Inhaltliche Der Text ist zu kurz. Die vier Inhaltspunkte sind 1 Punkt sondern der darunter liegende, der von einem stellenweise guten Aufbau, der an einigen
Vollstndigkeit zwar knapp behandelt, jedoch wiederholt die Stellen sprunghaft ist ausgeht. Meines Erachtens wurde an dieser Stelle ganz subjektiv
Teilnehmerin vieles aus der Aufgabenstellung bewertet, ohne den Deskriptorendefinitionen Folge zu leisten.117 Interessant ist, aus
wortwrtlich. Entscheidung fr einen Punkt, da welchem Grund bei diesem Kriterium vermerkt wird, dass lexikalische und
keiner der Inhaltspunkte schlssig und grammatikalische Fehler keine Bercksichtigung finden, zumal diese Bereiche anderen
angemessen dargestellt ist. Kriterien unterliegen.

Textaufbau und Der Text liest sich trotz der Fehler noch flssig. 2 Punkte
Kohrenz Nach Diskussion Entscheidung fr zwei Punkte,
da Lexik und Grammatik bei den anderen
Kriterien bewertet werden.
117 In Kapitel 6 wird bezglich des Raterverhaltens und der Bewertungskriterien ausfhrlich eingegangen werden.

137 138
Diese Lernerproduktion msste fr das Kriterium Textaufbau und Kohrenz gem des In der Kompetenz schriftlicher Ausdruck auf B2-Niveau kann man maximale 15 Punkte
Bewertungskatalogs insgesamt drei Punkte erzielen. Was die Ausdrucksfhigkeit betrifft, erreichen, die auf die vier vorgestellten Kriterien verteilt sind. Dabei wird die schriftliche
so wird im Kommentar erneut auf den Zugriff vorgefertigter Strukturen aus der Lernerproduktion von zwei Ratern unabhngig voneinander korrigiert. In der
Aufgabenstellung hingewiesen. Es besteht an dieser Stelle also die Gefahr der Prfungsordnung des Goethe-Instituts fr das B2-Zertifikat wird vermerkt, dass sich die
Doppelsanktionierung, denn bereits im Kriterium der inhaltlichen Vollstndigkeit wird die Rater im Falle abweichender Ergebnisse auf ein Ergebnis einigen mssen. Kann kein
Vergabe eines Punktes auch dadurch begrndet. Auch beim letzten Kriterium scheinen gemeinsamer Nenner unter den Ratern gefunden werden, so entscheidet der
sich Zuschreibungen anderer Kriterien zu finden. Der Gesamtzusammenhang bleibt Prfungsverantwortliche eventuell mit einer Drittkorrektur.119 Das fhrt zu der Annahme,
undeutlich gehrt in das Kriterium Textaufbau und Kohrenz. Der Anspruch an das dass man in diesem Sinne versucht, die Interraterreliabilitt durch einen weiteren Rater
Korrektheitskriterium soll lediglich darin bestehen, Morphologie, Syntax, Orthografie und zu sichern.
Interpunktion auf Fehler hin zu untersuchen. Was gehufte Fehler sind, msste wie im
Der schriftliche Ausdruck setzt sich aus den Punkten der ersten und zweiten Aufgabe
Vorfeld diskutiert worden ist, zunchst einmal quantitativ bestimmt werden. Ob die laut
zusammen, welche bei 25 Punkten angesetzt sind. Der zweite Teil des schriftlichen
Kommentar gehuften Fehler mit der Definition im angesetzten Deskriptor, wo von
Ausdrucks ist eine geschlossene Aufgabenstellung mit 10 zu erreichenden Punkten, die
unzhligen Fehlern die Rede ist, gleichzusetzen sind, msste beantwortet werden.
mit einem Lsungsschlssel korrigiert wird. Bei der Korrektur der Tests wird laut
Prferblttern das Gesamtergebnis des Prfungsteils Schriftlicher Ausdruck auf das
Fazit
Formblatt Gesamtergebnis bertragen. Halbe Punkte werden nicht aufgerundet (...).120
Die Gewichtung der einzelnen Kriterien der Bewertungsskala fr das B2-Zertifikat wurde Nach 15 werden die Prfungsleistungen in Form von Punkten und Noten
bereits insofern erlutert, dass die vier Kriterien unterschiedlich stark gewichtet sind. dokumentiert121 und erfordern zum Bestehen der gesamten Prfung die Summe aus
Whrend die inhaltliche Vollstndigkeit insgesamt 20% ausmacht, decken die Kriterien mindestens 45 Punkte der schriftlichen und 15 Punkte der mndlichen Prfung, folglich
Textaufbau und Kohrenz, Ausdrucksfhigkeit und Morphologie mit jeweils 26,66 % die 60 von maximal 100 zu erreichenden Punkten. Was unter 16 der Prfungsordnung
weitere Punktepalette ab. Was die einzelnen Kriterien anbelangt, so mssen abschlieend bezglich der Zertifizierung und dem Prdikat als Notenskala angefhrt wird, soll an
nochmals einige Punkte angesprochen werden. dieser Stelle angefhrt werden:
Das Kriterium der inhaltlichen Vollstndigkeit spricht in seinem letzten Deskriptor von 100 90 Punkte = sehr gut
einer Themaverfehlung. Eine Themaverfehlung im schriftlichen Ausdruck msste 89,5 80 Punkte = gut
demnach zu Null Punkten fhren. Wie bereits angefhrt, entnimmt man diesem Kriterium 79,5 - 70 Punkte = befriedigend
auch nicht den Fall der nicht angemessenen Textlnge von 180 Wrtern und die 69,5 60 Punkte = ausreichend
unter 60 Punkte = nicht bestanden
entsprechenden Konsequenzen daraus. Ob bei Nichteinhaltung der Wrtergrenze letztlich
Punkte abgezogen werden, kann dem Bewertungsraster nicht entnommen werden. Tabelle 28 : Noten- und Prdikatenskala aus der Prfungsordnung122
Vermerkt ist darber hinaus weder etwas in den Prferblttern noch in der
Prfungsordnung. Das zweite Kriterium Textaufbau und Kohrenz wurde in seiner
Struktur bereits ausfhrlich diskutiert und bezglich seiner subjektiv geprgten Die Prfungsordnung ist laut des Vermerks darauf am 05.07.07 definiert worden. Die
Deskriptoren kritisiert. Was die letzten beiden Kriterien Ausdrucksfhigkeit und Noten- und Prdikatenskala beinhaltet die Punktestreuung aller vier Fertigkeiten (LV, HV,
Korrektheit anbelangt, so muss sichergestellt werden, dass Fehler entsprechend SA, MA) der neuen B2-Prfung des Goethe-Instituts. Die Bestehensgrenze liegt bei 60%
zugeordnet werden und das nur einmal. Auch zu diesem Punkt kann man in den (60 von 100 Punkten). Es wird nichts darber ausgesagt, ob jede Kompetenz fr sich
verschiedensten Dokumenten des Goethe-Instituts keine Rckmeldung darber eine bestimmte Punktzahl erfordert oder nicht. Folglich werden die Leistungen in jeder
bekommen, wie Rater damit umzugehen haben. Ob etwas als syntaktisch inkorrekt, als Teilkompetenz aufsummiert und mssen insgesamt mindestens 60 Punkte erreichen.123
ausdrucksmig inkorrekt oder als inkohrent von Ratern verstanden wird, ist nicht Bei Tests wird im Allgemeinen eine Mindestpunktzahl angegeben, um den Status
eindeutig. Htte man beispielsweise ein prpositionales Verb, das im falschen Kasus oder bestanden zu erwerben. Es stellt sich aber die Frage, wie bei Sprachzertifizierungstests,
mit der falschen Prposition verbunden worden ist, stellt sich die Frage welchem die ja aus verschiedenen Kompetenzbereichen bestehen, die erforderte Leistung oder
Kriterium diese nicht normgerechte Verwendung zugeschrieben wrde: dem Kriterium auch der Erwartungswert an die Testkandidaten insgesamt fair bewertet werden kann.
Ausdrucksfhigkeit, dem Kriterium Korrektheit oder wohl unbewusst beiden? Diesen Fall Die Festlegung der Bestehensgrenze von 60% ist zunchst einmal interessant und ein
gilt es fr die Rater insofern auszuschlieen, dass die so genannte Doppelsanktionierung Thema fr sich. Denn wrde ein Test kalibriert, d.h. wrde Aufgabe A durch andere
nicht zum Tragen kommt und ein schriftliches Konstrukt dadurch schlechter bewertet Aufgaben verschiedener Schwierigkeitsgrade ersetzt, bestnde dennoch die
wrde als ntig. Das Goethe-Institut vermerkt diese Problematik jedoch explizit in Bestehensgrenze stabil bei 60%.
seinem Skript fr das Prfertraining des C1-Niveaus, dass es bei auftretenden Fehlern
119 Prfungsordnung Goethe-Institut. B2-Zertifikat. S. 11
wichtig ist, diese dem richtigen Kriterium zuzuordnen, um einen Doppelpunktabzug fr
120 Prfungsordnung Goethe-Institut. B2-Zertifikat S. 11
ein und denselben Fehler zu vermeiden118. 121 http://www.goethe.de/lrn/prf/pro/b2_pruefungsordnung.pdf
122 http://www.goethe.de/lrn/prf/pro/b2_pruefungsordnung.pdf
118 Goethe-Zertifikat C1. Trainingsmaterial fr Prfende. Schriftlich-Mndlich. 090707. S. 9 123 http://www.goethe.de/lrn/prf/pro/b2_pruefungsordnung.pdf

139 140
5.2 Das C1-Zertifikat des Goethe-Instituts Um eine Aufgabe schriftlichen Ausdrucks fr einen Test zu erstellen, muss als erstes die
Basis dafr geschaffen werden. Die vom GER definierten und bernommenen Kann-
Dieses Niveau ist die erste Stufe der kompetenten Sprachverwendung, welche mit dem
Beschreibungen sollen demnach als Referenzrahmen fungieren, um in diesem Sinne dem
C2-Niveau abgerundet wird. Kennzeichnend hierfr ist, dass ein breites Spektrum
Prfungsziel entsprechend die Fhigkeit zum Verfassen eines schriftlichen Textes zu
sprachlicher Mittel vorhanden ist, sodass generell betrachtet eine flssige und spontane
einem vorgegebenen Thema zu berprfen.127 Dabei basiert die Testerstellung des
Kommunikation ermglicht wird. Im Gegensatz zum darunter liegenden B2-Niveau liegt
Goethe-Instituts nicht auf dem handlungsorientierten kommunikativen Ansatz des GER,
das Gewicht hier nun mehr auf dem Aspekt grerer Flssigkeit und Komplexitt (GER
sondern auf dem Modell der Kommunikationsfhigkeit von Bachman und Palmer
2001:44). Das C1-Niveau wird in den Kann-Beschreibungen der Globalskala des GER im
(1996).128 Fr die Itemerstellung jedoch hat sich das Goethe-Institut auf die vom GER
Sinne der Thematik dieser Dissertation wie folgt definiert:
nicht empirisch kalibrierten Beispielsskalen fr sprachliche Aktivitt und Strategien
Kann sich spontan und flieend ausdrcken, ohne fter deutlich erkennbar gesttzt (GER 2001:67ff):129
nach Worten suchen zu mssen.
Schriftliche Produktion allgemein
Kann die Sprache im gesellschaftlichen und beruflichen Leben oder in
Kann klare, gut strukturierte Texte zu komplexen Themen verfassen und dabei
Ausbildung und Studium wirksam und flexibel gebrauchen.
die entscheidenden Punkte hervorheben, Standpunkte ausfhrlich darstellen und
Kann sich klar, strukturiert und ausfhrlich zu komplexen Sachverhalten durch Unterpunkte oder geeignete Beispiele oder Begrndungen sttzen und
uern und dabei verschiedene Mittel zur Textverknpfung angemessen den Text durch einen angemessenen Schluss abrunden.
verwenden.
Berichte und Aufstze schreiben
Diesbezglich wird das Prfungsziel der Lerner Bestehen der Prfung vom Goethe-
Kann klare, gut strukturierte Ausfhrungen zu komplexen Themen schreiben
Institut dadurch definiert, dass (...) die berregionale deutsche Standardsprache
und dabei zentrale Punkte hervorheben.
gelufig ist,() dass sie die deutsche Sprache sicher verwenden und ihre persnlichen
Belange im privaten, gesellschaftlichen, akademischen und beruflichen Leben adquat Kann Standpunkte ausfhrlich darstellen und durch Unterpunkte, geeignete
ausdrcken knnen124. Diese neue C1-Prfung des Goethe-Instituts besteht im Beispiele oder Begrndungen sttzen.
produktiven schriftlichen Teil aus zwei Aufgabenteilen. Der offene Aufgabentypus, der in Schriftliche Interaktion allgemein
dieser Arbeit im Vordergrund steht, behandelt auf diesem Niveau die Beschreibung einer
Kann sich klar und przise ausdrcken und sich flexibel und effektiv auf die
Grafik, wobei zwei alternative Aufgaben zur Auswahl bereit stehen. Die zweite Aufgabe
Adressaten beziehen.
im schriftlichen Ausdruck des C1-Zertifikats ist eine C-Test hnliche Aufgabe. Hier soll
der Testkandidat sein Sprachvermgen anhand der zu fllenden Lcken verdeutlichen.
Ich werde mich im Sinne dieser Dissertation dem ersten Teil schriftlicher
In der im folgenden vorgestellten Aufgabenstellung fr den schriftlichen Ausdruck soll
Lernerproduktionen widmen, bei der der Testkandidat in der Lage sein sollte, sich ber
der Prfungskandidat zudem nachweisen, ob er in der Lage ist, sich innerhalb eines
komplexe Sachverhalte schriftlich klar und strukturiert auszudrcken und ein dem Leser
breiten thematischen Spektrums (z. B. persnliche Daten und Verhltnisse,
angemessenes Register zu whlen125. Der erste Teil des schriftlichen Ausdrucks wird in
Wohnen/Umwelt, tgliches Leben/Arbeit, Freizeit/ Unterhaltung, Reise, Beziehung zu
der Prfungszielbeschreibung des Goethe-Instituts folgendermaen dargestellt:126
anderen Menschen/Kultur/Tradition, Gesundheit und Hygiene, Erziehung/ Ausbildung/
Lernen, Konsum/Handel, Ernhrung, Dienstleistungen, Orte, Sprache/Kommunikation,
Klima130) ausfhrlich, kohrent sowie partner- und situationsadquat schriftlich zu
Aufgabe Prfungsziel Textsorte/Textstruktur Aufgabentyp Punkte
uern131.
1 Produktion: Schriftliche uerung zu Freies Schreiben 20
Informationen einem Thema nach Vorgabe von 5
referieren, etwas Leitpunkten
berichten/
vergleichen, Meinung
uern

127 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 27


Tabelle29: Prfungszielbeschreibung des schriftlichen Ausdrucks im C1Zertifikats des Goethe-
128 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 14
Instituts
129 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 11

130 Basierend auf die im GER vorgestellten Kategorien im Rahmen der Klassifikation des Threshold Levels 1990 bernimmt das
124 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 8 Goethe-Institut fr die berprfung sprachlichen Handelns mgliche Themengebiete als Prfungsinhalt. Goethe-Zertifikat
125 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 8 C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 19
126 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 26 131 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 27

141 142
5.2.1 Aufgabenstellung fr den schriftlichen Ausdruck im C1-Zertifikat In diesem Teil der C1-Prfung steht das kommunikative Prfungsziel im Mittelpunkt,
des Goethe-Instituts132 das dadurch gekennzeichnet ist, Informationen zu referieren, etwas zu berichten/
vergleichen, zu informieren und eine persnliche Meinung zu uern.133 Der
Dauer: 65 Minuten
Prfungskandidat hat 65 Minuten Zeit, wie oben links auf dem Aufgabenblatt vermerkt
ist.134 Der Input fr die Bearbeitung der folgenden fnf Inhaltspunkte in der originalen
Beispielaufgabe besteht in der angefhrten Statistik in Form eines Balkendiagramms.
Demnach wird das Verstndnis eines diskontinuierlichen Inputs vorausgesetzt. Diese
Prfung richtet sich der Prfungsordnung nach an Erwachsene und Jugendliche, wobei
das Mindestalter bis zum Herbst 2008 auf 16 Jahre angesetzt war. 135

Das zu bearbeitende Thema fr die Prfungskandidaten lautet Freizeit der Jugend.


Dennoch haben nicht alle zu bearbeitenden Leitpunkte direkt mit der vorgelegten
Statistik zu tun. Der Prfungskandidat soll zudem auch Stellung zum Freizeitverhalten
der lteren Generation beziehen. Das bedeutet prinzipiell, dass sich diese Aufgabe nicht
ausschlielich mit dem Freizeitverhalten der Jugend beschftigt, sondern dass das
Themen- und Wortschatzspektrum durch eine kontrastive Gegenberstellung erweitert
wird. Der Bezug auf die Situation im eigenen Heimatland, stellt eine weitere kontrastive
Facette dar. Nicht ganz eindeutig ist der Unterschied der Inhaltspunkte Unterschiede
zwischen Jungen und Mdchen und Ergebnisse der Grafik. Ich fhre dies an, denn es
knnte sehr leicht dazu fhren, dass beides schriftlich zu einem Punkt zusammen gefasst
wird. Das knnte zur Folge haben, dass es zu Minderungen in der Punktzahl bei der
inhaltlichen Bewertung kme, wenn ein Inhaltspunkt als nicht bearbeitet erkannt wrde.
Schlielich soll auch die eigene Person bezglich ihrer Freizeitvorlieben und aktivitten
im schriftlichen Konstrukt eingebracht werden.

Diese schreibproduktive Aufgabe des C1-Zertifikats zielt offensichtlich auf die Textsorte
Aufsatz ab, obwohl dies nicht explizit dokumentiert ist. Der Arbeitsauftrag lautet
lediglich: Schreiben Sie eine Stellungnahme zu folgenden Punkten. Unter Hinweise gilt all
das, was unter 5.1.1 bezglich der Aufgabenstellung des B2-Zertifikats errtert und
Schreiben Sie eine Stellungnahme zu folgenden Punkten: diskutiert wurde. Hier soll sich die Lernerproduktion jedoch auf 200 Wrter erstrecken,
Freizeitverhalten der lteren Generation auch deshalb, weil sich im Gegensatz zum B2-Zertifikat die zu bearbeitenden
Unterschiede zwischen Jungen und Mdchen Inhaltspunkte um einen erhht haben. Zudem ist es natrlich viel anspruchsvoller, wenn
Vergleich der Ergebnisse mit dem Heimatland
man bedenkt, dass die aufgefhrte Legende mathematischen Charakter hat und vom
Persnliche Freizeitaktivitten
Ergebnisse der Grafik Prfungsteilnehmer schriftlich erarbeitet werden muss. Demnach sind 200 Wrter eine
nicht zu unterschtzende Anforderung, denn die Mglichkeit der Verwendung ganzer
Einheiten aus der Legende ist durch die vorliegende Aufgabenform hier nicht mehr
Hinweise:
gegeben.136 Gem des bereits angefhrten Kernlehrplans in NRW sollen
Bei der Beurteilung wird u. a. darauf geachtet, diskontinuierliche Texte Ende der Jahrgangsstufe 10 funktional eingesetzt werden
ob Sie alle angegebenen Inhaltspunkte bercksichtigt haben, knnen. Das heit, dass sich das Mindestalter fr die C1-Prfung (16 Jahre), das bis zum
Herbst 2008 galt, sich mit dem Alter der 10. Jahrgangsstufe deckt, wobei es sich hier
wie korrekt Sie schreiben, allerdings um den primrsprachlichen Unterricht handelt. Diese Gegenberstellung wurde
wie gut Stze und Abschnitte sprachlich miteinander verknpft sind. bereits unter Kap. 3.6 zur Diskussion gestellt.

Schreiben Sie etwa 200 Wrter.

Goethe-Zertifikat C1 Prfertraining 090707


133 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 26ff.
134 Das Goethe-Institut macht lediglich einen Vorschlag hinsichtlich der Zeiteinteilung. Auch hier gilt wie beim B2-Zertifikat,
dass der Prfungskandidat die Zeit fr den schriftlichen Ausdruck, der aus zwei Aufgaben besteht, individuell gestaltet.
135 Goethe-Zertifikat C1. Prfungsordnung, Durchfhrungsbestimmungen Stand: 050707. 1, S.1. Diese Alterbegrenzung
entfllt ab Herbst 2008.
132 Goethe-Zertifikat C1: Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707. S. 6 136 Somit wird Vermeidungsstrategien und Entlehnungen aus der Legende wenig Platz eingerumt

143 144
Die Bewertung des schriftlichen Ausdrucks erfolgt nach den durch Deskriptoren
definierten Bewertungskriterien. Dabei wird in der Prfungsordnung darauf hingewiesen,
Auch auf dieser Niveaustufe beinhaltet das analytische Bewertungsraster vier
dass Kandidatenbeispiele in den Trainingsmaterialien fr Prfende als Hilfestellung dienen
Bewertungskriterien:138
sollen.137 Zunchst soll aber die Bewertungsskala unabhngig davon separat errtert und
dokumentiert werden.
Inhaltlichen Vollstndigkeit
5.2.2 Bewertungskriterien fr den schriftlichen Ausdruck im C1-
Textaufbau und Kohrenz
Zertifikat des Goethe-Instituts
Ausdrucksfhigkeit
KRITERIUM I
4 Punkte 3 Punkte 2 Punkte 1-0,5 Punkte 0 Punkte Korrektheit
Inhaltliche
Vollstndigkeit

Jedes der vier Kriterien ist unterschiedlich gewichtet. Das als strkstes Kriterium
Inhaltspunkte schlssig Alle vier drei Ein bis zwei Thema geltende ist das der Korrektheit, das sechs (6) von maximal zwanzig (20) zu
und angemessen Inhaltspunkte Inhaltspunkte Inhaltspunkte Inhaltspunkte bzw. verfehlt erreichenden Punkten in Anspruch nimmt. Prozentual bedeutet dies eine Gewichtung von
dargestellt alle Inhaltspunkte 30%. Gleichwertig in ihrer Gewichtung folgen die Kriterien Ausdrucksfhigkeit und
nur ansatzweise
Textaufbau/Kohrenz mit jeweils 25%. Das Kriterium der inhaltlichen Vollstndigkeit
KRITERIUM II macht den kleinsten prozentualen Teil aus (20%). Nicht jedes Kriterium ist also fr die
5 Punkte 4 Punkte 3 Punkte 2-1 Punkte 0 Punkte Bewertung kompetenter Sprachverwendung auf dem Niveau C1 gleichermaen
Textaufbau+Kohrenz
bedeutend. Dennoch besteht paradoxerweise wie in der Prfungsordnung des B2-
Gliederung des Textes Zertifikats auch hier die Regel, dass wenn ein Testteilnehmer die 0-Punkte-Marke
Liest sich Liest sich noch Liest sich Aneinanderreihung ber weite erreicht, die Punktzahl fr diese Aufgabe innerhalb des Tests Null betrgt. Dies scheint
Konnektoren, Kohrenz
sehr flssig flssig stellenweise von Stzen fast Strecken mir insofern unfair, als die Kriterien zum einen nicht die gleiche Gewichtung innerhalb
sprunghaft, ohne logische unlogischer des Bewertungskatalogs und der Bewertung insgesamt haben und zum anderen bei einer
und einige Verknpfung
Text Themaverfehlung die Sprachkompetenz nicht existent erscheint. Ich werde im
fehlerhafte
Konnektoren
Folgenden die Kriterien separat dokumentieren, um ggf. nderungsvorschlge zu
initiieren.
KRITERIUM III
5 Punkte 4 Punkte 3 Punkte 2-1 Punkte 0 Punkte
Ausdrucksfhigkeit

Wortschatzspektrum
Sehr gut und Gut und Stellenweise Begrenzte Text in groen
Wortschatzbeherrschung
angemessen angemessen gut und Ausdrucksfhigkeit, Teilen vllig
angemessen Kommunikation unverstndlich
stellenweise
gestrt

KRITERIUM IV
6 Punkte 5-4 Punkte 3 Punkte 2-1 Punkte 0 Punkte
Korrektheit

Morphologie
Nur sehr Einige Fehler, Einige Fehler, Hufige Fehler, die Text wegen
Syntax
kleine Fehler die das die den den Leseprozess groer
Orthografie, Verstndnis Leseprozess stark behindern Fehlerzahl
Interpunktion aber nicht stellenweise
unverstndlich
beeintrchtigen behindern

Tabelle 30: Bewertungskatalog fr das C1Zertifikat des Goethe-Instituts

138 Im Anschluss der C1-Diskussion werden die zwei Zertifikate B2 und C1 gegenbergestellt werden, da es viele Parallelen in
137 Goethe-Zertifikat C1. Prfungsordnung, Durchfhrungsbestimmungen. Stand: 050707. S. 6 den Kriterien und den Deskriptoren gibt. Das soll insofern diskutiert werden, dass man den Unterschied im Anspruch dieser
Niveaus hinterfragt.

145 146
5.2.2.1 Kriterium: Inhaltliche Vollstndigkeit Kriteriums nicht hervor, ob es eine Auswirkung auf die Bewertung hat, wenn sich die
Lernerproduktion unter den geforderten 200 Wrtern bewegt. In den originalen
Bewertungen des Goethe-Instituts fr das C1-Niveau wird zu sehen sein, dass dieses
KRITERIUM I Detail dennoch in der Bewertung Bercksichtigung findet, auch wenn in keinem
4 Punkte 3 Punkte 2 Punkte 1- 0,5 0 Punkte
Deskriptor davon die Rede ist.
Inhaltliche Punkte
Vollstndigkeit

5.2.2.2 Kriterium: Textaufbau + Kohrenz


Inhaltspunkte Alle vier drei Ein bis zwei Thema
schlssig und Inhaltspunkte Inhaltspunkte Inhaltspunkte Inhaltspunkte verfehlt
angemessen bzw. alle
dargestellt Inhaltspunkte KRITERIUM II
5 Punkte 4 Punkte 3 Punkte 2-1 Punkte 0 Punkte
nur
Textaufbau
ansatzweise
+Kohrenz

Gliederung des
Tabelle 31: Inhaltliche Vollstndigkeit im C1Zertifikat des Goethe-Instituts Textes Liest sich Liest sich Liest sich Aneinanderreihung ber weite
sehr noch stellenweise von Stzen fast Strecken
Konnektoren,
flssig flssig sprunghaft, ohne logische unlogischer
Kohrenz
Dieses Kriterium hat bis auf wenige Unterschiede den gleichen Aufbau hinsichtlich der und einige Verknpfung Text
Deskriptorendefinitionen wie das im bereits dokumentierten und diskutierten B2- fehlerhafte
Zertifikat. Auch hier wird die schlssige und angemessene Darstellung der Inhaltspunkte Konnektoren
der Mittelpunkt der Bewertung dieses Kriteriums. Diese nicht stringente und subjektive
Definition wurde bereits in der Diskussion des B2-Zertifikats ausfhrlich erlutert und gilt
Tabelle 32: Textaufbau und Kohrenz im C1Zertifikat des Goethe-Instituts
auch fr hiesigen Fall. Die Deskriptoren fallen bei diesem Kriterium zunchst jeweils um
einen (1) Punkt ab (4-3-2) und beim vorletzten, dem vierten Deskriptor, tritt eine
Kombination der Punktevergabe 1 und 0,5 auf. Diese basiert auf der Definition ein bis Dieses Kriterium macht 25% der Gesamtbewertung in diesem Teil des schriftlichen
zwei Inhaltspunkte bzw. alle Inhaltspunkte nur ansatzweise. Folglich bedeutet dies, dass Ausdrucks auf dem C1-Niveau aus. Dabei geht es um die Textgliederung und die
man einen (1) oder 0,5 Punkte dafr bekommt, wenn ein bis zwei Inhaltspunkte Anwendung von Konnektoren, um Textkohrenz zu erhalten. Fr die Formulierung
schlssig und angemessen oder alle Inhaltspunkte nur ansatzweise dargestellt sind. Sehr dieses Kriteriums hat sich das Goethe-Institut an den definierten Kann-Beschreibungen
vage ist meines Erachtens zunchst das Wort bis im ersten Teil dieser Definition. Was des GER orientiert (GER 2001:125):
heit denn ein bis zwei? Man sagt beispielsweise: Ich gehe ein bis zwei Mal in der Woche
Kann klar, sehr flieend und gut strukturiert sprechen und zeigt, dass er/sie die Mittel
in die Universittsbibliothek. Gehe ich immer nur ein Mal oder manchmal auch zwei Mal
der Gliederung sowie der inhaltlichen und sprachlichen Verknpfung beherrscht.
pro Woche in die Bibliothek? Es wird deutlich, dass ein gewisser Spielraum darin gegeben
ist, wie oft man es letztlich schafft, in die Bibliothek zu kommen. So betrachtet knnte Diese Kann-Beschreibung des GER scheint ein konkretes Interlanguagestadium fr
das Wort bis auch oder bedeuten. Demnach geht aus dieser Definition nicht eindeutig dieses Kriterium zu definieren, welches sich im obersten Deskriptor diese Kriteriums
hervor, ob die schlssige und angemessene Darstellung eines Inhaltspunktes einen (1) wieder findet. Zudem decken sich die ersten zwei Deskriptorendefinitionen, fr die
oder 0,5 Punkte bekommt - gleiches gilt auch fr die schlssige und angemessene jeweils fnf (5) und vier (4) Punkte vergeben werden, vollstndig mit denen aus dem
Darstellung zweier Inhaltspunkte. Auerdem stellt sich an dieser Stelle die Frage, ob von Bewertungskatalog des B2-Zertifikats. Demnach erbrigt es sich, die Schwachstellen
einer Gleichwertigkeit gesprochen werden kann, wenn alle Inhaltspunkte nur ansatzweise erneut ausfhrlich anzufhren und kritisch zu dokumentieren. Der Lesefluss und die
dargestellt sind gegenber der schlssigen und angemessenen Darstellung eines oder mgliche Implikation in seinen Steigerungsformen ist auch hier durch den subjektiven
zweier Inhaltspunkte. Aufgefasst kann diese Definition aber auch anders: Wenn man ein Eindruck der Rater gekennzeichnet. Auf Unterschiede bzw. Schnittstellen der zwei
bis zwei Inhaltspunkte schlssig und angemessen darstellt, erlangt man einen (1) Punkt, Niveaustufen B2 und C1 wird spter noch Stellung genommen werden.
whrend fr die ansatzweise behandelten fnf Inhaltspunkte lediglich 0,5 Punkte
Der dritte Deskriptor vergibt drei von fnf Punkten, wenn sich die Textproduktion
vergeben werden. Explizit und definitiv kann aber hier nicht gesagt werden, ob dem
stellenweise sprunghaft liest, und einige fehlerhafte Konnektoren verzeichnet werden. Die
tatschlich so ist und ob die Bearbeitung eines oder zweier Inhaltspunkte gleichermaen
stellenweise Sprunghaftigkeit scheint eng gekoppelt mit der korrekten Verwendung der
gewichtet wird. Mglich wre, dass darin auch eine normorientierte Bewertung versteckt
Konnektoren zu sein. Die fehlerhafte Verwendung von Konnektoren kann aber
ist. Es geht aus dieser Deskriptorendefinition ganz deutlich hervor, dass der
syntaktischer und weniger textlinguistischer Natur sein. In diesem Fall sollte ihre
Ratersubjektivitt nicht nur im letzten Deskriptor Thema verfehlt, sondern bereits an
Bewertung dann innerhalb des Kriteriums Korrektheit bercksichtigt werden. Der vierte
dieser Stelle sehr viel Platz eingerumt wird. Weiterhin geht aus den Deskriptoren dieses
Deskriptor vergibt entweder zwei (2) oder einen (1) Punkt, wenn Rater eine

147 148
Aneinanderreihung von Stzen fast ohne logische Verknpfung registrieren. Dabei kann Die ersten drei Deskriptoren decken sich zum einen mit der vom GER definierten Kann-
aber nicht von Text die Rede sein, wie bereits in Kapitel 3.4 diskutiert wurde. Auch bei Beschreibung, zudem aber auch mit den ersten drei des B2-Zertifikats. Erneut stellt sich
diesem Deskriptor ist nicht ersichtlich, wann zwei (2) und wann ein (1) Punkt dafr die Frage, inwiefern sich Wortschatzspektrum und Wortschatzbeherrschung innerhalb der
vergeben werden. Das Schlsselwort scheint in dieser Definition das Wort fast zu sein. Schwellenniveaus B2 und C1 unterscheiden. Darauf wird am Ende der Diskussion beider
Fast ohne logische Verknpfung heit dann wohl, dass es an der harten Annahme Niveaus eingegangen.
angrenzt, durch fehlende logische Satzverknpfungen auf einen unlogischen Text zu
Der vierte der fnf Deskriptoren vergibt fr die Definition begrenzte
schlieen, dass der Text unlogisch wird oder dass es lediglich um eine
Ausdrucksfhigkeit, Kommunikation stellenweise gestrt entweder zwei (2) oder einen
Satzaneinanderreihung geht, die jedoch dem C1-Niveau nicht gerecht wird. In Kapitel
(1) Punkt. Die Vergabe dieser Punkte kann sich meines Erachtens hier nur an dem
5.1.2.2 habe ich den Kohrenz- und Textbegriff bereits ausfhrlich angefhrt. Was den
strengeren oder milderen Urteil des Raters orientieren. Das hngt im Einzelnen davon ab,
letzten Deskriptor anbelangt, definiert er ber weite Strecken unlogische Texte. Bereits
wie begrenzt den jeweiligen Ratern die Ausdrucksfhigkeit erscheint und an wie vielen
die Definitionskonstellation unlogischer Text lsst aus textlinguistischer Sicht zu
Stellen sie die Kommunikation als gestrt empfinden, damit sie zwei oder einen Punkt/e
wnschen brig, denn entweder wird ein Text produziert oder es handelt sich nur um
vergeben. Der bergang zum Deskriptor, der mit Null (0) Punkten bewertet, ist
eine Aneinanderreihung von Stzen, ohne im Zeichen der Kohrenz zu stehen.
schlielich sehr konsequent. An dieser Stelle stoen Rater auf einen Text, der ihnen in
groen Teilen vllig unverstndlich erscheint. Es gilt zu klren, wodurch ein Text
unverstndlich wird, denn wie im nchsten Kriterium Korrektheit zu sehen sein wird,
5.2.2.3 Kriterium: Ausdrucksfhigkeit
vergibt auch hier der letzte Deskriptor Null (0) Punkte, wenn der Text wegen groer
Fehlerzahl unverstndlich ist. Unklar ist bislang, worin der Unterschied der
KRITERIUM III Unverstndlichkeit eines Textes zwischen den zwei Kriterien begrndet liegt. Es scheint,
5 Punkte 4 Punkte 3 Punkte 2-1 Punkte 0 Punkte als ginge es lediglich um die Quantitt der Ausdrucksfehler und der Fehler insgesamt. Im
Ausdrucksfhigkeit
Folgenden soll aber das Kriterium Korrektheit ganzheitlich aufgezeigt und diskutiert
Wortschatzspektrum werden.
Sehr gut Gut und Stellenweise Begrenzte Text in groen
Wortschatzbeherrschung
und angemessen gut und Ausdrucksfhigkeit, Teilen vllig
angemessen angemessen Kommunikation unverstndlich
5.2.2.4 Kriterium: Korrektheit
stellenweise
gestrt KRITERIUM IV
6 Punkte 5-4 Punkte 3 Punkte 2-1 Punkte 0 Punkte
Korrektheit

Tabelle 33: Ausdruck im C1Zertifikat des Goethe-Instituts Morphologie


Nur sehr Einige Fehler, Einige Hufige Text wegen
Das dritte Kriterium, das die Bewertungsskala fr die C1-Prfung des Goethe-Instituts Syntax
kleine die das Fehler, die Fehler, die groer
ausmacht, ist die Ausdrucksfhigkeit. Das Spektrum sprachlicher Mittel allgemein wird im Orthografie, Fehler Verstndnis den den Fehlerzahl
GER fr das C1-Niveau folgendermaen definiert (GER 2001:110): Interpunktion aber nicht Leseprozess Leseprozess unverstndlich
beeintrchtigen stellenweise stark
Kann aus seinen/ihren umfangreichen Sprachkenntnissen Formulierungen auswhlen,
behindern behindern
mit deren Hilfe er/sie sich klar ausdrcken kann, ohne sich in dem, was er/sie sagen
mchte, einschrnken zu mssen.
Tabelle 34: Korrektheit im C1Zertifikat des Goethe-Instituts
Detaillierter ausgedrckt geht es hier um das Wortschatzspektrum und die
Wortschatzbeherrschung. Im GER lauten die Kann-Beschreibungen fr diese beiden Fr das C1-Zertifikat des Goethe-Instituts wird dieses Kriterium mit einer Gewichtung
Aspekte jeweils (GER 2001:112ff): von insgesamt 30% (maximal 6 von 20 zu erreichenden Punkten) reprsentiert. Es kann
Wortschatzspektrum also davon ausgegangen werden, dass auf dieser Stufe nun Morphologie, Syntax,
Orthografie und Interpunktion die entscheidende Rolle hinsichtlich der schriftlichen
Beherrscht einen groen Wortschatz und kann bei Wortschatzlcken problemlos Textproduktion ausmachen. Dennoch kann diese Annahme trotz der Gewichtung dieses
Umschreibungen gebrauchen; offensichtliches Suchen nach Worten oder der Kriteriums revidiert werden, denn die 0-Punkte-Marke jedes Kriteriums dieser Skala fhrt
Rckgriff auf Vermeidungsstrategien sind selten. Gute Beherrschung idiomatischer zu keiner Mglichkeit eines Ausgleichs. In diesem Kriterium ist der Punktabfall
Ausdrcke und umgangssprachlicher Wendungen. inhomogen. Der erste Deskriptor ist mit sechs (6), der zweite mit fnf bis vier (5-4), der
Wortschatzbeherrschung dritte mit drei (3), der vierte mit zwei bis einen (2-1) und der letzte schlielich mit Null
(0) Punkten besetzt. Auch fr dieses Kriterium definiert der GER Kann-Beschreibungen
Gelegentliche kleinere Schnitzer, aber keine greren Fehler im Wortgebrauch.
(GER 2001:114,118):

149 150
Grammatische Korrektheit ob viele Anomalien auch automatisch die Unverstndlichkeit fr alle Rater implizieren, so
dass man Null (0) Punkte dafr bekommt. Diesbezglich erscheint mir dieser Deskriptor
Kann bestndig ein hohes Ma an grammatischer Korrektheit beibehalten. Fehler
eher als eine sehr subjektiv wahrzunehmende Untergruppierung des Kriteriums
sind selten und fallen kaum auf.
Korrektheit, wobei die betrchtliche Fehlerzahl das Textverstndnis mglich oder
Beherrschung der Orthografie unmglich macht.
Die Gestaltung, die Gliederung in Abstze und die Zeichensetzung sind konsistent
und hilfreich.

Die Rechtschreibung ist, abgesehen von gelegentlichen Verschreiben, richtig. 5.2.3 Diskussion von Lernerreaktionen auf die Aufgabenstellung und
deren Originalbewertungen

Die maximal zu erreichende Punktzahl von sechs Punkten erlangt man, wenn es sich
um nur sehr kleine Fehler handelt. Es muss zunchst erwhnt werden, dass die Im Weiteren sollen nun originale C1-Lernerproduktionen, die vom Goethe-Institut anhand
Untergliederungen in diesem Kriterium keine Aussage darber machen, ob sie als der vorgestellten Bewertungskriterien korrigiert und bewertet worden sind, angefhrt
gleichwertig zu betrachten sind. Unbeachtet der Tatsache, dass ich diese Kombination fr werden. Es soll untersucht werden, ob die aufgestellten Bewertungskriterien anhand der
ungerechtfertigt halte, ist es nicht ersichtlich, welche der Unterkriterien Morphologie, definierten Deskriptoren fr dieses Niveau der Validitt gerecht werden und ob die
Syntax, Orthografie und Interpunktion eine grere oder geringere Rolle bei dem Bewertung durch die Rater insgesamt gerechtfertigt erscheint.
Korrektheitsanspruch spielen.139 Man knnte die Vermutung anstellen, dass sie mit
jeweils 33,33 % als gleichwertig zu betrachten sind. Das erscheint aber fr die
Bewertung und im Sinne der Testentwicklung als weniger praktikabel, was durchaus
nachvollziehbar ist und auf einen schriftlichen Text bezogen vom Auge des Raters eine Lsungsvorschlag A 193 Wrter
derartige prozentuale Aufteilung des Kriteriums nicht abverlangt werden kann. Trotzdem
Laut der Statistik mgen die meisten Jugendlichen zwischen 12 und 25 Jahren sich mit
bleibt es unklar, was man unter sehr kleinen Fehlern zu verstehen hat. Ist eine falsche
Leuten treffen und fernsehen.
Adjektivendung, ein falsch gesetztes Komma oder ein fehlendes Dehnungs-h ein sehr
kleiner Fehler? Interessant wre die Antwort auf die Frage, wie die einzelnen Rater diese Diese Freizeitbeschftigung erfreuen sich groer Beliebtheit sowohl bei Mdchen, als
Definition interpretieren, denn es ist durchaus denkbar, dass es zu verschiedenen auch bei den Jungen. Auf dem dritten Platz sind Bcher, wobei sie mehr von Mdchen
Interpretationen eines Fehlers und insgesamt dieses Deskriptors kommen kann. Im gelesen werden (32%).
nchsten Deskriptor gibt es fr die Definition einige Fehler, die das Verstndnis aber
Es lassen sich auch andere Unterschiede zwischen Jungen und Mdchen erkennen. Die
nicht beeintrchtigen zwei alternative Punkte zu vergeben (5-4). In welchem Fall dem
berwiegende Mehrheit von Mdchen shoppt gern (27%) und unternimmt etwas mit der
Korrektheitsanspruchs einer C1-Leistung fnf oder vier Punkte gengen, geht aus diesem
Familie (21%), whrend Jungen sich mehr frs Internet, Computer interessieren (34 und
Deskriptor nicht hervor. Wie auch im B2-Zertifikat erzielt eine schriftliche Leistung auf
33). Sport ist bei den beiden Geschlechter sehr beliebt, obwohl die Anzahl der
C1-Niveau ganze drei (3) Punkte, wenn es sich um einige Fehler, die den Leseprozess
spotinteressierten Jungen ein bisschen berwiegt.
stellenweise behindern handelt. Diese Deskriptorendefinition ist bereits in der B2-
Diskussion errtert und hinterfragt worden (s. Kap. 5.1.2.4). Der vorletzte Deskriptor Meiner Meinung nach ist diese Grafik typisch fr die jungen Leute berall auf der Welt,
vergibt zwei bis einen Punkt (2-1), wenn hufige Fehler, die den Leseprozess stark denn es sind hier die verbreitesten und beliebtesten Freizeitaktivitten von Jugendlichen
behindern, auftreten. Zunchst msste definiert werden, was unter hufigen Fehlern zu dargestellt, die unabhngig von der Nationalitt sind.
verstehen ist. Sind es immer wiederkehrende gleiche Fehler (Wiederholungsfehler) oder Heutzutage bleibt den jungen Menschen ziemlich wenig Zeit fr ihre
ist damit die Fehlerfrequenz gemeint? Was Wiederholungsfehler anbelangt, so ist aus den Lieblingsbeschftigungen brig. Es gibt nmlich so viele Herausforderungen, die man
Deskriptoren nicht ersichtlich, ob sie doppelt bewertet werden oder nicht. Geht es meistern muss und im Vergleich zu der lteren Generation stehen die Jugendlichen mehr
andererseits um die Frequenz der Fehler, dann msste lediglich geklrt werden, welche unter dem Zeitdruck. Ich persnlich verbringe meine Freizeit so, wie die anderen jungen
Fehlerarten den Leseprozess derart stark behindern. Auerdem muss explizit definiert Leute berall auf der Welt. Am liebsten treffe ich mich mit Freunden oder lese.
werden, wie stark die Leseprozessbehinderung sein muss, dass man im besten Fall zwei
(2) und im schlimmsten Fall einen (1) Punkt vergibt, obwohl die Definition dieses
Deskriptors fr beide Alternativpunkte gleichbedeutend ist. Geht man zur nchsten und
letzten Deskriptorendefinition Text wegen groer Fehlerzahl unverstndlich ber, dann
stellt sich die Frage, ob denn jegliche Fehlerarten notwendigerweise zur
Unverstndlichkeit einer Lernerproduktion fhren mssen. Es muss hinterfragt werden,

139 In Kapitel 6 werde ich genauer Bezug dazu nehmen, warum die Kombination dieser Unterkriterien nicht angemessen
scheint.

151 152
Mit einer erzielten Bewertung von 19 von maximal zu erreichenden 20 Punkten gilt und einwandfrei ist und durch das nicht in Anspruch nehmen eines Korrekturstiftes von
diese Lernerproduktion als eine sehr gute Leistung. Kommentiert wird, dass die jedermann als eine fehlerlose Leistung betrachtet werden wrde. Es handelt sich um
Teilnehmende einen flssig lesbaren, in sich klar strukturierten Text verfasst und trotz verschiedene Abstufungen von Interlanguages einzelner Lerner eines bestimmten
der Krze des Textes eine berzeugende Leistung ihrer Sprachbeherrschung auf C1- Niveaus, auf die innerhalb des Bewertungskatalogs insofern Rcksicht zu nehmen ist,
Niveau gezeigt hat.140 Der ausfhrliche und auf die einzelnen Bewertungskriterien dass auch diese von allen gleichermaen wahrgenommen und entsprechend eingestuft
bezogene Kommentar und wie sich die erreichten 19 Punkte zusammen setzen sei im werden.
Folgenden aufgezeigt und diskutiert:141

Lsungsvorschlag B 285 Wrter


Kriterium Kommentar Bewertung

Inhaltliche Die Textlnge ist gerade noch ausreichend. Nur 3 Punkte


Freizeit der Jugend
Vollstndigkeit ein Inhaltspunkt (Freizeitverhalten der lteren
Generation) wird zu knapp, alle anderen werden Wie jeder die Freizeit verbringt, ist eine ganz persnliche Sache. Heutzutage gibt es
ausreichend behandelt. besonders viele Mglichkeiten, sich zu erholen und dem eignen Interesse entsprechend
Zeit zu verbringen.
Textaufbau und Der Text liest sich flssig und ist klar strukturiert. 5 Punkte
Kohrenz Eine eindeutige Einleitung fehlt zwar, aber dies Was mir auf dem ersten Blick in der Statistik auffllt, ist der Wunsch einer Mehrheit der
fllt kaum auf. Deswegen kein Punktabzug Jugend mglichst viel Zeit miteinander zu verbringen; sogar mehr so bei den Mdchen
als bei Jungen. Dass das Fernsehen die nchst beliebteste Ttigkeit der Jugend ist, ist
Ausdrucksfhigkeit Der Wortschatz des Textes ist dem Niveau 5 Punkte
kaum zu erstaunen, wie auch die Tatsache, dass Jungen viel lnger fernsehen als
entsprechend gewhlt (erfreuen sich groer
Mdchen.
Beliebtheit; die Anzahl berwiegt;
Herausforderungen, die man meistern muss) und Was unter den markanten Unterschieden zwischen Jungen und Mdchen ins Auge
es gibt keine falsch verwendeten Ausdrcke. sticht, ist die Beschftigung mit dem Computerspiel und Internet surfen. Beide sind
Bereiche der Jungen; whrend nur 8 % der Mdchen am Computer spielen, interessieren
Korrektheit Es treten nur sehr vereinzelt Fehler auf (bei 6 Punkte sich 33 % der Jungen daran! Auch beim Internetsurfen ist die Zahl der Jungen das
beiden Geschlechter). Nach Diskussion Doppelte als der Mdchen.
Entscheidung fr sechs Punkte.
Ganz erwartet war die Sache mit dem Einkaufen, das typisch weiblich ist. In den
Geschften sieht man doch fnfmal mehr Mdchen als Jungen! Das Lesen als
Tabelle 35: Originalbewertung einer C1- Produktion Freizeitbeschftigung interessiert Mdchen viel mehr als Jungen: in Zahlen sind sie
Ganz gezielt wurde diese Lernerproduktion als erste ausgewhlt, um aufzuzeigen, dass beziehungsweise 32 % und 18 %. Diese Grafik knnte man als fast typisch fr die
die Validitt der Bewertungskriterien prinzipiell nur durch tatschlich objektiv zu Jugend berall auf der Welt nennen. Die junge Menschen genieen selbstverstndlich viel
betrachtende einwandfreie Leistungen beibehalten werden kann. Es gibt die definierten mehr Freizeit im Vergleich zu den lteren. Mit Alter kommen mehrere Verantwortungen:
Bewertungskriterien und die Rater, die diese anwenden. Die Bewertung eines Textes der Beruf, der Haushalt, die Familie, die Kinder usw. Die ltere Generation besonders in
kann nicht besser sein, als die Bewertungskriterien bestimmen. Die definierten Indien hat viel weniger Freizeit. Damals gab es keine technische Gerte als Hilfe wie zum
Bewertungskriterien beziehen sich auf das zugrunde liegende Konstrukt, was hier der Beispiel Waschmaschine, Geschirrspler, Elektroherd, u.. Man wohnte frher in
schriftliche Ausdruck ist. Die Validitt der Bewertungskriterien ergibt sich damit daraus, Grofamilien und das machte viel Arbeit und kaum Freizeit. In meiner Freizeit schreibe
wie gut diese das Konstrukt widerspiegeln. Die Umsetzung dieser Bewertungskriterien ich gern Briefe die sind oft E-mails, auerdem hre ich Musik, lese Bcher oder
soll aufzeigen, ob Rater diesem Validittsniveau mittels ihrer Bewertung entsprechen unterhalte mich mit Freunden.
knnen. Das Paradoxon, das sich aber an dieser Stelle zeigt ist, dass es offensichtlich
einerseits Texte gibt, die besser zu den Kriterien passen und andererseits Texte, die nicht
Die als zweite hier angefhrte Lernerproduktion einer C1-Prfung wird vom Goethe-
sehr kompatibel mit den Bewertungskriterien zu sein scheinen. Die Bewertungskriterien
Institut als eine gute Leistung kommentiert:142 Der Text ist gut gegliedert und lesbar, nur
sollten aber derart stabil sein, dass mit ihrer Hilfe aufgezeigt werden kann, wie gut ein
vereinzelt fehlen Verknpfungen. Jedoch gibt es beim Ausdruck noch einige unpassende
Text den Kriterien entspricht und wie die Kompetenz im schriftlichen Ausdruck als Teil
Wortverwendungen, die den Gesamteindruck etwas trben.
der gesamten Sprachkompetenz schlielich eingeschtzt werden kann. Eine
Bewertungsskala kann also nicht nur dann valide sein, wenn die Leistung vorbehaltlos

140 Goethe-Zertifikat C1. Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707, S. 11


141 Goethe-Zertifikat C1. Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707, S. 11 142 Goethe-Zertifikat C1. Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707, S. 15

153 154
deckt sich absolut mit dem zweiten Deskriptor, der fr die schlssige und angemessene
Darstellung von vier Inhaltspunkten steht.
Inhaltliche Der Text ist fast um ein Drittel lnger als 4 Punkte
Vollstndigkeit gefordert. Alle Inhaltspunkte werden behandelt, Bei der Betrachtung des zweiten Kriteriums wird der Text als berwiegend flssig
bis auf einen alle ausfhrlich. Aufgrund des lesbar kommentiert und bekommt dafr die Punktzahl vier (4), die dem zweiten
ausgewogenen Textes wird fr die kurze Aussage Deskriptor zu verdanken ist. Meines Erachtens decken sich die Definitionsabschnitte
zum dritten Inhaltspunkte (Vergleich Heimatland) berwiegend flssig und liest sich noch flssig. Es folgt aber der Zusatz, dass an einigen
kein Punkt abgezogen. Stellen Verknpfungen zwischen den einzelnen Abschnitten fehlen. Wenn dies von
geschulten Ratern so verzeichnet wird, stellt sich die Frage, wo dies auf der definierten
Textaufbau und Der Text ist berwiegend flssig lesbar, an einigen 4 Punkte
Skala dieses Kriteriums am besten Platz finden wrde. Es ist nicht eindeutig, ob dieser
Kohrenz Stellen fehlen Verknpfungen zwischen den
feine Makel bereits in diesem Deskriptor oder in der Teildefinition einige fehlerhafte
einzelnen Abschnitten.
Konnektoren zu suchen ist. Auerdem gilt zu klren, ob fehlende Verknpfungen
Ausdrucksfhigkeit Die Wortschatzkenntnisse werden differenziert 4 Punkte gleichzeitig auch als fehlerhaft gelten.
eingesetzt. An einigen Stellen fehlen jedoch
Betrachtet man des Weiteren die Bewertung der Ausdrucksfhigkeit, so entdeckt man
adquate Ausdrcke und es werden nahe
innerhalb der kommentierten Bewertung einen Widerspruch. Obwohl den Ratern die
Ausdrcke verwendet (kaum zu erstaunen; ganz
Wortschatzkenntnisse differenziert eingesetzt zu sein scheinen, fehlen an einigen Stellen
erwartet; Verantwortungen statt
adquate Ausdrcke. Fr diese Gegenstzlichkeit werden vier (4) Punkte vergeben, die
Verpflichtungen). Das Verstndnis bleibt
aber unter den Deskriptor gut und angemessen fallen. Die Definition gut und
gesichert, jedoch wird ein Punkt angezogen.
angemessen enthlt aber keinerlei negative Einschrnkung oder jegliche Form von
Korrektheit Es gibt vereinzelt Fehler (interessieren daran), die 4 Punkte inkompetenter Verwendung. Diese Raterbeobachtung fnde besser Platz im Deskriptor
beim Lesen jedoch kaum auffallen und den stellenweise gut und angemessen, was jedoch lediglich mit drei (3) Punkten honoriert
Leseprozess nicht behindern. wrde.
Diese Leistung erzielt bei dem am strksten gewichteten Bewertungskriterium
Tabelle 36: Originalbewertung einer C1- Produktion Korrektheit vier (4) Punkte. Folglich werden die vereinzelten Fehler, die beim Lesen
kaum auffallen und den Leseprozess nicht behindern dem zweiten Deskriptor
zugeschrieben. Interessant ist an dieser Stelle jedoch, dass dieser Deskriptor entweder
Erstrangig geht es bei dieser kommentierten Bewertung darum, ob die angesetzten fnf (5) oder vier (4) Punkte fr einige Fehler, die das Verstndnis aber nicht
Bewertungskriterien des Goethe-Instituts fr das C1-Niveau auch adquat benutzt beeintrchtigen, vergibt. Der angewandte Mastab oder das Kriterium gehen aus der
werden, sodass sich der Kommentar und die reale Bewertung mit dem Skalenkonstrukt Punktevergabe von fnf (5) oder vier (4) Punkten nicht hervor, da in beiden Fllen die
tatschlich deckt. gleiche Definition gilt. Man knnte zum Beispiel an dieser Stelle konkret hinterfragen,
wieso die vorliegende Lernerproduktion nicht fnf (5) Punkte erzielt. Es scheint, dass
Das Kriterium der inhaltlichen Vollstndigkeit scheint sich unabhngig von der
gerade bei Deskriptoren, die aus zwei Punkten bestehen, dem Rater ein sehr groer
Definition der einzelnen Deskriptoren nicht nur auf die zu bearbeitenden fnf
Freiraum gegeben wird, diese ganz individuell und funktional einzusetzen. Man sieht,
Inhaltspunkte zu beziehen, sondern auch auf die Mindestanforderung der Textlnge
dass sobald Mngel innerhalb der angesetzten Kriterien zu verzeichnen sind, die
(hier: ca. 200 Wrter). Dies geht lediglich aus der kommentierten Bewertung hervor, die
Schwierigkeit beginnt, diese den definierten Deskriptoren genau zuzuordnen. Die
sich auf die Textlnge bezieht. Kein einziger Deskriptor dieses Kriteriums erwhnt neben
Begrndungen, die teilweise fr die Vergabe von Punkten gegeben werden, sind
der Inhaltspunktedarstellung diesen Umstand. Inwiefern aus den Begriffen schlssig,
ratersubjektive Ausnahmedefinitionen, die in den Deskriptoren nicht einmal ansatzweise
angemessen oder sogar ansatzweise auf die Textlnge geschlossen werden kann, ist sehr
angefhrt sind.
fraglich. Laut Bewertungskommentar werden die maximal zu erreichenden vier (4)
Punkte vergeben, da der Text ausgewogen ist. Die Tatsache, dass lediglich vier (4) von
fnf (5) Inhaltspunkten ausfhrlich behandelt worden sind, msste laut der definierten
Deskriptoren in der Bewertungsskala zu drei (3) Punkten fhren. Dies impliziert, dass die
Definition des konkret zu benutzenden Deskriptors keinerlei Einfluss auf die Bewertung
hat. Statt dessen wurde spontan und wohl ratersubjektiv eine interne Ausnahmeklausel
fr vorliegenden Fall geschaffen. Dies ist aber nirgendwo im Definitionsraster des
Kriteriums inhaltliche Vollstndigkeit verzeichnet. Ganz strikt und objektiv betrachtet,
mssten im Sinne der Definition und der Deskriptorenkategorisierung dieses Kriteriums
drei (3) Punkte vergeben werden, denn wie bereits von den Ratern selbst kommentiert
wurde, sind nur vier (4) von fnf (5) Inhaltspunkten ausfhrlich behandelt worden. Das

155 156
Ausdrucksfhigkeit Der Wortschatz ist berwiegend angemessen, es 3 Punkte
gibt nur vereinzelt Fehler (kann man sich nicht
verallgemeinern) bzw. unklare Ausdrcke (wenn
Lsungsvorschlag C 274 Wrter ein Junge gar nicht arbeiten will).
Ich beschftige mich mit dem Thema Freizeit und Jugend. Dafr habe ich vor mir die Korrektheit Es gibt zahlreiche Fehler im Bereich der Syntax 2 Punkte
Statistiken Angaben. Die vorliegende Statistik verdeutlicht, dass die meisten Jugendliche und der Morphologie, auch beim Genus (dass die
ihrer Freizeit sich mit den Leuten zu treffen verbringen. Im Vergleich zu den Jungen meisten Jugendlichen ihrer Freizeit sich mit den
verbringen die Mdchen ihrer Freizeit damit. In diesem Zusammenhang fllt mir auf, dass Leuten treffen verbringen; man fr solche
ihre Interessen an etwas mit der Familie zu unternehmen steht an der siebten Stelle. Es aktivitten ausgeben willst; keinen Hobby). Nach
gibt einen groen Unterschied zwischen den Interessen der Mdchen und der Jungen. Diskussion Entscheidung fr zwei Punkte.
Whrend 33 Jungen von den 100 Befragten sich fr den Computer interessieren,
interessieren sich nur 8 Mdchen dafr. Merkwrdig ist, dass nur 5 Jungen gerne
einkaufen, wogegen 27 Mdchen gern zum Einkaufen gehen. Aber meiner Meinung nach Tabelle 37: Originalbewertung einer C1- Produktion
ist diese Grafik nicht fr die jungen leute berall auf der Welt typisch. Mit den Interessen
der Jugend kann man sich nicht verallgemeinern. Dafr gibt es verschiedene Grnde
Die inhaltliche Vollstndigkeit dieser Textproduktion wird mit vier (4) Punkten bewertet
nhmlich wie viel Zeit man fr sich selbst hat, woran hat man Interesse oder wie viel
und dem ist nichts auszusetzen, denn es wurde der entsprechende Deskriptor dafr
Geld man fr solche aktivitt ausgeben willst oder kannst usw. dafr spielt der Alter auch
angewandt, ohne dass irgendwelche Einschrnkungen von Seiten der Rater zu
eine groe Rolle. Ich bin der Meinung, dass die ltere Generation mehr Zeit zur
verzeichnen sind.
Verfgung hat um sich zu erholen oder einen Hobby zu treiben, besonders wenn man
pensioniert oder in der Rente ist. Im solchen Zeitraum hat man viel Zeit fr sich selbst. Das Kriterium, das sich auf den Textaufbau und seine Kohrenz bezieht, wird dem
Auf der anderen Seite, wenn ein Junge gar nicht arbeiten will, hat er auch viel Zeit zur Deskriptor liest sich noch flssig, der vier (4) Punkte vergibt, zugeordnet. Im Kommentar
Verfgung. dieser Bewertung werden sowohl Textstruktur und Lesefluss als auch
Textsortenmerkmale (z.B. Einleitung, Schluss) und Verknpfungen innerhalb des Textes
Zum Schluss mchte ich Ihnen von meinem eigenen Interesse erzhlen. Obwohl ich
positiv gekennzeichnet. Dennoch wird auf der Grundlage, dass die Lesbarkeit durch die
kein Hobby habe, beschftige ich ich mit der Vorbereitung der Arbeitsbltter fr die
hohe Fehlerzahl beeintrchtigt wird, ein Punkt abgezogen. Es wurde bereits in
Unterrichtsstunden. Das gefllt mir und deshalb nenne ich diese Ttigkeit als mein
vorangegangenen Kapiteln diskutiert, was die Lesbarkeit ausmacht. Dieses Kriterium hat
Hobby.
meines Erachtens keinerlei Funktion, um Fehler zugerechnet zu bekommen. Zudem wird
im Kommentar doch explizit darauf hingewiesen, dass der Text strukturiert und flssig
Diese Leistung bekommt 13 von 20 Punkten und gilt als auf niedrigem C1-Niveau lesbar ist. Kontrr dazu steht am Ende des Kommentars, dass die Lesbarkeit durch die
begrndet, obwohl der Text in sich gegliedert und gut verknpft ist. Kommentiert wird hohe Fehlerzahl beeintrchtigt wird. Ob fr die Rater diese Textproduktion schlielich
aber, dass der Gesamteindruck durch die hohe Fehleranzahl beeintrchtigt wird.143 Zu flssig lesbar ist oder ob dadurch ihr Lesefluss gestrt wird, kann diesen
vermerken wre an dieser Stelle, wieso von Gesamteindruck die Rede ist, wenn es nicht Bewertungskommentaren nicht entnommen werden, da sie sich widersprechen.
um eine holistische Bewertungsskala geht, die dem subjektiven Eindruck der Rater Drei (3) von fnf (5) Punkten erzielt diese Lernerproduktion fr das Kriterium der
gengend Entfaltungsmglichkeiten lsst. Konkreter werden die einzelnen Ausdrucksfhigkeit. Die Erklrung des Kommentars, dass der Wortschatz berwiegend
Bewertungskriterien wie folgt kommentiert und aufgezeigt:144 angemessen ist und es nur vereinzelt zu Fehlern oder unklaren Ausdrcken kommt wird
Inhaltliche Die Textlnge ist mehr als ausreichend. Alle 4 Punkte dem Deskriptor stellenweise gut und angemessen zugeordnet. Der Zusatz der
vereinzelten Fehlerstreuung wird in dieser Deskriptorendefinition jedoch nicht explizit
Vollstndigkeit Inhaltspunkte werden angemessen behandelt
aufgefhrt. Diese latente Information mag im Begriff stellenweise inbegriffen sein. Aus
Textaufbau und Der Text ist strukturiert und flssig lesbar, es gibt 4 Punkte den fnf Deskriptoren, die das Kriterium der Ausdrucksfhigkeit definieren, ist wohl der
Kohrenz sowohl eine Einleitung als auch einen Schluss. Im ausgewhlte Deskriptor der passende, jedoch lediglich hinsichtlich der Betrachtung und
gesamten Text sind die Stze und Abschnitte Wahrnehmung der Rater.
miteinander verknpft. Die Lesbarkeit wird durch
Das Kriterium Korrektheit soll auch hier, wie der Begriff selbst besagt, die korrekte
die hohe Fehlerzahl beeintrchtigt und bei diesem
Anwendung der Syntax, der Morphologie, der Orthografie und der Interpunktion
Kriterium bewertet.
untersuchen. Von maximal sechs (6) zu erreichenden Punkten erzielt diese Leistung fr
dieses Kriterium zwei (2) Punkte. Das wird dermaen gerechtfertigt, dass es zahlreiche
Fehler im Bereich der Syntax und der Morphologie gibt. In der Bewertung des Ausdrucks
143 Goethe-Zertifikat C1. Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707, S. 23 wurde die hohe Fehlerfrequenz aber bereits miteinbezogen, da die Lesbarkeit des Textes
144 Goethe-Zertifikat C1. Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707, S. 23

157 158
dadurch beeintrchtigt wird. Explizit wird im Kommentar vermerkt, dass dieser Umstand In der Diskussion einzelner Lernerbewertungen ging es bezglich der Wortschatz- und
in diesem Kriterium Anwendung fr die Punktevergabe findet. Daher drfte die Grammatikkenntnisse auch darum, welche Kenntnisse von Strukturen und
Fehlerfrequenz nicht erneut im Kriterium Korrektheit bewertet werden, denn dann wrde Wortschatzlisten wie zu bewerten und welchen Deskriptoren zuzurechnen sind. In dem
der Fall der Doppelsanktionierung eintreten. Kommentierte man nicht, dass die Fehler im vom Goethe-Institut formulierten Handbuch zu Prfungszielen und zur Testbeschreibung
Ausdruckskriterium verbucht werden, dann wrden dennoch vier (4) Punkte vergeben. steht paradoxerweise folgendes:148
Anders beim Korrektheitskriterium. Die Fehlerfrequenz, die hier Anwendung findet, wird
Wortschatz- und Grammatikinventare zum Goethe-Zertifikat C1 gibt es () nicht.
dem vierten Deskriptor (2-1 Punkte) zugeordnet. Dieser definiert hufige Fehler, die den
Leseprozess stark behindern. Kommentiert wird unter dem Kriterium Ausdruck, dass die Dies wird damit begrndet, dass sich durch die Benutzung authentischer Texte keine
Lesbarkeit beeintrchtigt wird. Es wird aber nichts ber die Strke dieser verbindliche Wortschatzeingrenzung vornehmen lassen kann. Dass Wortschatz nicht
Beeintrchtigung besagt. Daher knnte diese Leistung fr den Korrektheitsanspruch auch eingegrenzt werden kann, widerspricht aber den einzelnen Deskriptorendefinitionen des
drei (3) Punkte erzielen. Unklar bleibt des Weiteren, wann laut des vierten Deskriptors Kriteriums Ausdrucksfhigkeit. In der Diskussion wurde bereits ausfhrlich Bezug darauf
hufige Fehler einer Lernerleistung zwei (2) bzw. einen (1) Punkt erlangen. genommen. Auf der Basis des kommunikativen Modells von Bachman/Palmer (1996) wird
das funktionale und soziolinguistische Wissen dem Kriterium der Ausdrucksfhigkeit
zugerechnet. Es soll bei diesem Kriterium demnach bercksichtigt werden, wie flexibel
und angemessen die Sprache je nach kommunikativer und kontextueller Situation, sowie
Fazit
nach Ziel und Adressaten Anwendung findet.149 Die Definition dieses Kriteriums wurde
Es wurde der gesamte Kriterienkatalog fr die freie schriftliche Produktion des C1- bereits ausfhrlich errtert und besteht lediglich aus den Unterpunkten
Zertifikats prsentiert und kritisch betrachtet. Auerdem habe ich anhand der Wortschatzspektrum und Wortschatzbeherrschung. Die entsprechende Sprachkomplexitt
Originalbewertungen von Lernerproduktionen versucht aufzuzeigen, wie diese ist meines Erachtens in diesem Kriterium nirgendwo definiert.150
Bewertungskriterien eingesetzt werden, so dass schlielich auch von Leistungsvaliditt
Abschlieend lsst sich feststellen, dass, je hher das zu prfende Niveau ist, Sprache
ausgegangen werden kann.
auch komplexer wird. Dies allein fhrt schon dazu, dass der Subjektivitt der Rater durch
Bei den Originalkommentaren und Bewertungen der ausgewhlten Lernerreaktionen die teilweise defizitren Bewertungskriterien mehr Freiraum gegeben wird. Es kann schon
wurde darauf hingewiesen, dass die Bewertungskriterien nicht immer dieselbe aus dem Grund nicht von Objektivitt der Sprachwahrnehmung ausgegangen werden,
Anwendung finden. Auerdem gehen aus den definierten Deskriptoren viele von Ratern denn sowohl Profile als auch das Goethe-Institut knnen Wortschatz und Grammatik bei
dokumentierte Merkmale nicht hervor, trotzdem finden sie bei der Bewertung Beachtung. ansteigenden Niveaus nicht eingrenzen und definieren. Im nchsten Kapitel soll auf diese
Ein Beispiel ist die Nicht-Einhaltung der erforderlichen Textlnge. In keinem der Problematik kontrastiv eingegangen werden.
Deskriptoren wird dieser Punkt angesprochen. Rater ziehen dennoch Punkte ab, wenn
dieses Erfordernis nicht erfllt scheint145.

In der Testbeschreibung und in den Prfungszielen fr das C1-Zertifikat wird auf Seite 5.3 Kontrastiver Ausblick und Neuansatz der Kriterien fr das B2-
15 vermerkt, dass das Textwissen im Kriterium Textaufbau und Kohrenz bercksichtigt und C1-Zertifikat des Goethe-Instituts
und bewertet wird.146 Einsicht in diese Tatsache, auf die bereits ausfhrlich Bezug
genommen wurde, konnte lediglich durch die originalen Bewertungskommentare der vom
Goethe-Institut geschulten Rater erzielt werden. Das Kriterium selber gibt keinen Im Herbst 2007 hatten das B2- und C1-Zertifikat des Goethe-Instituts ihre weltweite
Anhaltspunkt dafr, dass es darin Anwendung zu finden hat. Des Weiteren wurde die Premiere. Zum ersten Mal haben sich Lernende aus aller Welt diesen neuen Prfungen
Problematik angesprochen, dass es sehr schwierig ist, Fehler den Kriterien Ausdruck oder unterzogen. Die Kriterienkataloge sind Werkzeuge fr Rater, um den schriftlichen
Korrektheit zuzuordnen. Im Handbuch fr das C1-Zertifikat wird angefhrt, dass das Ausdruck dieser zwei Niveaus zu bewerten. Die APA definiert in ihrem Unterkapitel
grammatische Wissen mit dem Kriterium Ausdruck und Korrektheit bewertet wird.147 Supporting documentation for tests diesbezglich (APA-Standard 6.13:70).:
Schwarz auf Wei wird diese Problematik also zustzlich verstrkt. Eindeutige
When substantial changes are made to a test, the tests documentation should be
Regelungen diesbezglich scheinen aber nicht definiert zu sein. Aber allein durch den
amended, supplemented, or revised to keep information for users current and to provide
Umstand, dass das Kriterium Korrektheit die Unterpunkte Morphologie und Syntax
useful additional information or caution.
beinhaltet, drfte dieser Toleranzbereich nicht gegeben sein. Die Gefahr der
Doppelsanktionierung ist prinzipiell voraussehbar und, wie aufgezeigt, oft auch prsent.

148 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 20


145 Nach internen Informationen wird dies ab dem Prfungssatz 3 ausdrcklich erwhnt. Im vorliegenden Modellsatz ist jedoch 149 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 15
noch nicht die Rede davon, wie Rater das Einhalten oder Nicht-Einhalten der Textlnge handhaben sollen.
150 Die Thematik der Sprachkomplexitt werde ich abschlieend in Kapitel 6 behandeln, um der Problematik der Validitt von
146 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 15 Bewertungskriterien entgegenzuwirken, um dadurch mglicherweise Verbesserungsvorschlge und weiterfhrende Optionen
147 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 15 zu erreichen

159 160
Prfer werden ganz sicher ber Vernderungen bezglich des Testprozesses informiert der zwei Niveaus meines Erachtens sehr leicht zu den von North (1993) definierten
und hinsichtlich der Bewertungskriterien und den gesetzten Anforderungen intensivst Ratingfehlern154 (vgl. Kap. 4.5.2), wodurch die Subjektivitt der Rater begnstigt werden
geschult. In der Prfungsordnung der offiziellen und schlielich endgltigen Fassung des kann. Das Goethe-Institut selber betont, dass es nirgendwo die Nicht-Existenz der
B2-Zertifikats wird mit dem 18 darber informiert, dass die Mitglieder durch Ratersubjektivitt anfhrt.155
Trainingsmaterialien und seminare auf ihre Aufgabe vorbereitet werden.151 Es stellt
In internen Prferunterlagen des Goethe-Institus156 fr die Niveaus B2 und C1 wurden
sich natrlich allgemein und speziell hinsichtlich von internen Vernderungen trotzdem
jeweils Fokuspunkte fr die einzelnen Kriterien definiert, die die Grundstze der
die Frage, inwieweit Rater innerhalb der einzelnen Bewertungskriterien eine
Bewertung betreffen sollen. In einer Tabelle sollen diese kommentierten Anhaltspunkte
Interraterreliabilitt bzw. eine Homogenitt erreichen werden.152 Es wird in 18 zwar
fr die Niveaus B2 und C1 zusammenfassend kontrastiv gegenber gestellt werden: 157
betont, dass Rater auf ihre Aufgabe vorbereitet werden, dennoch habe ich bereits in
Kapitel 4.5.3 die Thematik der Rater angefhrt und entsprechend diskutiert. Die APA
definiert in diesem Zusammenhang im Kapitel Test administration, scoring and reporting
(APA-Standard 5.9:64f):
When test scoring involves human judgement, scoring rubrics should specify criteria for
scoring. Adherence to established scoring criteria should be monitored and checked
regularly. Monitoring procedures should be documented. B2 C1
Es wurde bei der Definition der einzelnen Bewertungskriterien hinsichtlich der Niveaus Inhaltliche Bercksichtigung der Textlnge Bercksichtigung der Textlnge
B2 und C1 aufgezeigt, dass nicht nur die Bewertungskriterien identisch sind, sondern Vollstndig (ist der Brief zu kurz, d.h. weniger (ist der Brief zu kurz, d.h. weniger
dass auch einige der Deskriptoren deckungsgleich sind. Die Frage, die sich in diesem keit als 150 Wrter, fhrt dies zu als 175 Wrter, fhrt dies zu
Zusammenhang stellt, ist demnach, worin die Unterschiede beider Niveaus zu suchen Punktabzug, ist er zu lang, so Punktabzug, ist er zu lang, so
sind. Whrend das B2-Niveau die oberste Stufe der selbstndigen Sprachkompetenz bleibt dies unbercksichtigt) bleibt dies unbercksichtigt)
darstellt, grenzt es dennoch an die unterste Ebene der kompetenten Sprachverwendung,
Entscheidend: angemessene und Entscheidend: angemessene und
die durch das C1-Niveau reprsentiert wird. Insofern wre es interessant, wenn explizit
ausfhrliche Darstellung der ausfhrliche Darstellung der
definiert werden knnte, was die Unterschiede genau dieser zwei Schwellenniveaus sind.
Inhaltspunkte (ausfhrlich Inhaltspunkte (ausfhrlich
Das Goethe-Institut beschreibt in seinem Handbuch fr Prfungsziele und
bedeutet jeoch nicht, dass zu bedeutet jeoch nicht, dass zu
Testbeschreibung, dass der Unterschied sprachlichen Knnens dieser zwei Niveaus darin
jedem Inhaltspunkt ein voller jedem Inhaltspunkt ein voller
liegt, dass Sprache aufsteigend (also C1) eine grere Bandbreite syntaktischer
Textabschnitt zu schreiben ist) Textabschnitt zu schreiben ist)
Strukturen zur Verfgung hat und dass sprachliche Mittel flexibler eingesetzt werden
knnen.153 Dennoch liegt die Antwort in der Aufgabenstellung, die letztlich darauf abzielt,
dass diese z.B. bei C1 durch Abstraktionen sprachlich bewerkstelligt werden kann. Diese
so definierte Unterscheidung kann aber insofern keine Gltigkeit haben, denn es wurde
bereits explizit hervorgehoben, dass bei aufsteigenden Niveaus Kategorisierungen im
grammatischen und vokabularen Bereich schwierig sind. Interessant wre in diesem Textaufbau Textsorte: Leserbrief Klare und gute Struktur der
Zusammenhang ebenfalls, wie und ob sich die Bewertung schriftlicher und Texte (Hervorhebungen,
Text muss Briefform
Lernerproduktionen ndern wrde, wenn man die Bewertungskataloge fr B2 und C1 Kohrenz Beispiele)
aufweisen (Anrede, Gru,
entsprechend auswechselte. Da die Unterschiede oberflchlich minimal zu sein scheinen,
Bezug zur Legende) Fr die Kohrenz spielen
knnte bis auf ein paar Feinheiten eine Einheitsskala fr beide Niveaus geltend gemacht
insbesondere Satzanfnge eine
werden. Zwar wurde in der Diskussion angefhrt, dass sich die Kriteriengewichtungen Fr die Kohrenz spielen
Rolle sowie ein passender
innerhalb dieser zwei Niveaus leicht unterscheiden, aber der Umstand, dass im Falle des insbesondere Satzanfnge eine
Schluss, der den Text
Erreichens der 0-Punkte-Marke eines einzelnen Kriteriums in beiden Fllen zum entscheidende Rolle (Bezug zu
abrundet.
Nichtausgleich der Null Punkte fhrt, lsst die Gewichtungen fr den Fall, dass Null Vorhergehendem,
Punkte erreicht werden, offensichtlich wertlos erscheinen. Htten die gewichtigsten Abwechslungsreichtum)
Kriterien tatschlich die berechnete Dominanz, dann drfte das Erreichen der 0-Punkte-
Marke schwcherer Kriterien nicht unausgleichbar sein. Auerdem verleiten die
Definitionen der letzten Deskriptoren (Null Punkte) der einzelnen und gleichen Kriterien 154 Halo-Effekt, Zentraltendenz, Strengevariation
155 Dies wurde mir am 23. Februar 2008 in einem Gesprch mit Mitarbeitern des Goethe-Instituts Mnchen, die im Bereich der
Prfungserstellung ttig sind, vermittelt.
151 Goethe-Zertifikat C1. Prfungsordnung, Durchfhrungsbestimmungen. Stand 050707. 18, S. 3 156 Diese wurden mir vom Goethe-Institut Mnchen zur Verfgung gestellt mit der Erlaubnis diese benutzen zu drfen.
152 Siehe dazu Kapitel 6 157 Ich habe zur Hervorhebung die Unterschiede zwischen den Niveaus fett und unterstrichen markiert. Die restlichen
153 Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707. S. 20 Anhaltspunkte sind fr beide Niveaus identisch.

161 162
Ausdrucks- Differenziertes und Breites Spektrum von In den Originalbewertungen sind manche Kommentare hinsichtlich ihrer in den
fhigkeit nuanciertes Redemitteln Deskriptoren zu suchenden Relevanz diskutiert worden. Wie es scheint haben diese ihre
Ausdrucksvermgen Legitimitt nur in den Prferunterlagen, denn der jedem zugngliche Kriterienkatalog gibt
Bewertung verschiedener
keine Auskunft ber latentes Bewertungsvorgehen. Bereits im ersten Kriterium
Bewertung verschiedener Aspekte:
Inhaltliche Vollstndigkeit sieht man, dass die Nicht-Einhaltung der minimalen Textlnge
Aspekte:
a) falsche Verwendung von (B2:150 vs. C1: 175) zu Punktminderungen fhrt. Diskutiert wurde dies bereits, denn die
a) falsche Verwendung von Ausdrcken je nach Quantitt und Deskriptoren sind nicht entsprechend formuliert und danach ausgerichtet. Auerdem
Ausdrcken je nach Quantitt und Qualitt bewertet wurde in der vorangegangenen Diskussion der Punkt der Textsorte angesprochen, der in
Qualitt bewertet keinem der Kriterien und seinen deskriptiven Abstufungen bercksichtigt scheint. Die
b) der verwendete Wortschatz liegt
b) der verwendete Wortschatz liegt nicht oder nur stellenweise auf Aufgabenstellung des schriftlichen Ausdrucks fr das B2-Zertifikat besteht darin, einen
nicht oder nur stellenweise auf dem Niveau Leserbrief zu verfassen. Ich stellte die Frage, in welchem Kriterium diese
dem Niveau Schreibproduktion Anwendung findet. Ich konnte lediglich mgliche Erklrungen finden,
c) Stilbrche im Text (z.B. nicht weshalb und wo diese Textkompetenz zu bercksichtigen wre. Aus den internen
c) Stilbrche im Text (z.B. nicht angemessene Einbettung der Prferunterlagen geht eindeutig hervor, dass im Kriterium Textaufbau und Kohrenz
angemessene Einbettung der Vorgabe) darauf geachtet wird, dass diese Textsorte formgerecht umgesetzt wird. Dies ist natrlich
Vorgabe) von erheblicher Bedeutung. Dennoch geht es in dieser Arbeit in erster Linie um die
Korrektheit Fehler dem richtigen Kriterium Derart gute Bewertungskriterien und die definierten Deskriptoren, die in dieser Hinsicht aber nichts
zuordnen Sprachbeherrschung, dass darber aussagen. Es bleibt daher zu klren, ob Rater lediglich durch die
Fehler vereinzelt vorkommen Prferunterlagen diesen Umstand bercksichtigen, gerade wenn ausschlielich das
berkorrektur und
analytische Bewertungsraster fr die Bewertung des schriftlichen Ausdrucks als
Wiederholungsfehler im Text sind Fehler dem richtigen Kriterium
Instrument dienen soll. Wenn ein Deskriptor grundlegende Bedingungen nicht explizit
zu vermeiden zuordnen
macht, wirkt sich dies negativ auf die Bewertungsreliabilitt und validitt aus. Fr das
Fehlerklassifizierung spielt eine berkorrektur und C1-Niveau sollen die Rater lediglich darauf achten, dass die Struktur klar und gut ist (was
untergeordnete Rolle Wiederholungsfehler im Text sind diese Definition wiederum impliziert, soll hier nicht weiter ausgefhrt werden, da
zu vermeiden hnliches bereits in diesem Kapitel fortlaufend diskutiert wurde) und dass der Text
Wichtig und im Vordergrund:
(behinderte) Verstndlichkeit Fehlerklassifizierung spielt eine abgerundet wird. Der Begriff der Kohrenz soll sowohl bei B2 als auch bei C1 exakt die
gleiche Beachtung bekommen. Es wird hier kein Niveauunterschied verzeichnet. Wert
untergeordnete Rolle
gelegt soll auf Verknpfungen, gerade bei Satzanfngen, die auf Vorheriges Bezug
Wichtig und im Vordergrund: nehmen. Die Definition und die Schwachstellen der einzelnen Deskriptoren beider
(behinderte) Verstndlichkeit Niveaus (B2/C1) wurden bereits ausfhrlich diskutiert. Fr das Kriterium der
Ausdrucksfhigkeit gilt insgesamt, dass aus den Materialien, die die Rater whrend ihrer
Schulung bekommen, hervorgeht, dass sowohl fr das Niveau B2 als auch fr das Niveau
Tabelle 38: Kontrastive Gegenberstellung interner Bewertungsrichtlinien fr die Niveaus B2 und
C1 die gleichen Aspekte bewertet werden sollen. Definiert wird lediglich der Anspruch des
C1 des Goethe-Instituts
Ausdrucksvermgens etwas unterschiedlich. An dieser Stelle muss aber erneut der Frage
nachgegangen werden, wo die Grenze des Wortschatzinventars berhaupt zu ziehen ist
Diese Fokuspunkte, die Rater innerhalb ihrer Prferschulung vorgelegt bekommen, sind und ob die Unterscheidung letztlich so offensichtlich sein kann, dass man von
keineswegs Inhalte der definierten Deskriptoren der einzelnen Bewertungskriterien und differenziert/nuanciert oder von einem breiten Spektrum ausgeht. In erster Linie gilt es,
Niveaus. Das knnte unter anderem dadurch erklrt werden, dass z.B. die Textsorte sich die unterschiedlichen Aufgabenstellungen fr derartige Ansprche je nach Niveau zu
gelegentlich im Bewertungskommentar angefhrt wird. Weiterhin besttigt sich meine betrachten. Auerdem geht es hierbei um die Qualitt und Quantitt des Wortschatzes
These, dass sich die Kriterienkataloge oder auch der Fokus auf die Niveaus B2 und C1 eines Lerners. Dabei soll der Wortschatz bei aufsteigendem Sprachniveau vom Konkreten
minimal unterscheiden. Dennoch sollen sich die Textproduktionen hinsichtlich ihrer zum Abstrakten bergehen. Whrend also die Aufgabenstellung fr das B2-Niveau eine
Komplexitt (z.B. Kohsion etc.)158, die aus unterschiedlichen Schwierigkeitsgraden der Reaktion auf eine Internet- oder Zeitungsmeldung erwartet, behandelt die
Aufgabenstellung ( Vergleich vs. Abstraktion) resultieren, unterscheiden. Aufgabenstellung fr das C1-Zertifikat bergreifende Themen, die unter anderem auch
voraussetzen, dass man einen diskontinuierlichen Input (z.B. eine Grafik oder ein
Balkendiagramm) soweit versteht, dass man darauf schriftsprachlich reagiert.

158 Der Begriff der Komplexitt wird in Kapitel 6 angefhrt.

163 164
Interessant sind auch die zu beachtenden Punkte und die Vorgaben fr das Kriterium 5.4 Der TestDaF
Korrektheit. Der Zusatz fr das C1-Niveau derart gute Sprachbeherrschung, dass Fehler
Der Test Deutsch als Fremdsprache bzw. der TestDaF wurde erstmals im Jahre 2001
vereinzelt vorkommen, kann lediglich die ersten zwei Deskriptoren bzw. die oberen
eingefhrt. Bei der berprfung der vier klassischen Fertigkeiten soll die entsprechende
Stufen dieses Kriteriums vollkommen decken. Rater werden weiterhin darber aufgeklrt,
sprachliche Kompetenzstufe des Testteilnehmers fr den Hochschulzugang definiert
dass die Fehlerzuweisung explizit und nicht doppelt erfolgen darf. Inwiefern die
werden. Es stellt sich in diesem Zusammenhang die Frage, inwieweit die geforderten
Unterkriterien dieses Kriteriums bei beiden Niveaus gewichtet sind, wird durch Einsicht in
Leistungen mit den tatschlichen Anforderungen im Studium korrelieren und somit das
diese Schulungsmaterialien beantwortet: Fehlerklassifizierung spielt eine untergeordnete
Kriterium der Authentizitt decken, wobei es echte Authentizitt in einem Test nie zu
Rolle. Das wichtigste Kriterium dieses Kriteriums (!) heit Verstndlichkeit. Inwiefern
geben scheint (vgl. Arras/Grotjahn (2002). Wie in Kapitel 2.5. bereits angefhrt, lehnen
aber Verstndlichkeit immer dem Korrektheitsanspruch gengen muss, sei unbeantwortet
sich die TestDaF-Niveaustufen (im Weiteren TDN) an die Kann-Beschreibungen der ALTE
gelassen. Wie gut etwas verstanden wird, ist eine ganz subjektive Angelegenheit. Die
und des GER. Das Leistungsspektrum des TestDaF bewegt sich gem des GER im
Rater lesen den Text, der von den Prfungskandidaten verfasst wurde. In diesem
Bereich B 2.1 C 1.2 und auf der ALTE-Skala auf der Stufe 3. Ein erheblicher
Zusammenhang sieht Urquhart (1987:389) die Variation im Produkt des Lesens in zwei
Unterschied besteht zudem noch im zu berprfenden sprachlichen Kontext. Whrend
Dimensionen wirken:
der GER handlungsorientiert die allgemeine Sprachfhigkeit erfasst, bezieht der TestDaF
seine Messung auf die Sprachverwendung im akademischen Kontext.
Durch die Interpretation besteht zum einen die Mglichkeit, dass es sich um Da es sich um eine Hochschulzugangssprachprfung handelt, ist der TestDaF im Sinne
Leser aus verschiedenen Kulturen handelt und zum anderen kann ein und von Qualittskriterien wie die der APA sehr um die Konstruktion, Analyse und Evaluation
derselbe Leser zu unterschiedlichen Zeiten mit unterschiedlichem Wissen einen bemht. Darauf basierend sollen sich deutsche Hochschulen auf den TestDaF verlassen
Text unterschiedlich interpretieren. knnen, um potentielle nicht-muttersprachliche Studienanfnger anhand ihrer
Was das Verstndnis betrifft, so ergibt sich die Variation im Leseprodukt aus ermittelten Strken und Schwchen in der deutschen Sprache entsprechend der
den unterschiedlichen Lesezielen und den damit verbundenen Lesestilen. Das jeweiligen Zulassungsordnung einzustufen, um sie dann entweder zu immatrikulieren
Problem der Verstndlichkeit knnte damit zusammenhngen, dass der Rater oder aber nicht. In der Prfungsordnung des TestDaF steht diesbezglich unter 1 Absatz
den Text nicht mehr liest, sondern nur noch interpretieren kann, weil aufgrund 2:159
der Fehler sein Verstndnis beeintrchtigt wird. Wenn alle Teilprfungen mindestens mit der TestDaF-Niveaustufe (TDN 4) abgelegt
worden sind, gilt dies gem 4 Abs. 5 RO-DT als Nachweis der sprachlichen
Studierfhigkeit fr die uneingeschrnkte Zulassung oder Einschreibung zu allen
Also sind die Persnlichkeit und das Profil des Raters magebilch dafr, ob der
Studiengngen und Studienabschlssen.(...) Gem 1, Abs. 3, 4 und 5 in Verbindung
Leseprozess oder das Verstndnis beeintrchtigt werden. Obwohl dieses Kriterium als das
mit 4, Abs. 7 RO-DT knnen auf Beschluss der jeweiligen Hochschule fr bestimmte
objektivste gelten msste, denn Syntax, Morphologie und Orthografie unterliegen Regeln,
Studienzwecke auch geringere sprachliche Eingangsvoraussetzungen festgelegt werden.
erweist sich auch dieses als der Subjektivitt eines Raters offen gegenber. Das Problem,
das sich aus der nicht adquaten Definition der Bewertungskriterien und ihrer Die Entwicklung eines TestDaF durchluft verschiedene testtheoretische Phasen, bevor
Deskriptoren ergibt, verletzt die Standards des wichtigsten Gtekriteriums der dieser schlielich zur berprfung der verschiedenen Kompetenzen bereit gestellt wird.
Testtheorie, der Validitt. Es ist eine Verzerrung, wenn das Kriterium nicht adquat Interessant ist die Tatsache, dass in der Phase der Vorerprobung die Kontrollgruppe, im
gemessen wird, was zu Punktabzug und zur Minderung des Testergebnisses fhren kann. Gegensatz zu den potentiellen Kandidaten, aus Muttersprachlern besteht. Dadurch soll
Validitt sollte als die fundamentalste Erwgung in der Testentwicklung und beispielsweise die Trennschrfe der Items sichergestellt werden (vgl. Kapitel 4.3.1.2). Es
Testevaluation angesehen werden. Die APA zieht die mehrfachen ist nicht ersichtlich, ob Muttersprachler die graue Masse der Durchschnittsbrger oder
Bewertungsausfhrungen in Betracht, doch zu diesem Zweck muss jede beabsichtigte ebenso potentielle Studienbewerber sind, mit denen die auslndischen
Interpretation valide sein. Der Testinhalt bezieht sich nach APA sowohl auf das Thema Prfungskandidaten konkurrieren. Von Bedeutung ist auch die Tatsache, anhand
und das Aufgabenformat als auch auf die Richtlinien der Prozesse hinsichtlich des welcher testtheoretischen Methode der TestDaF samt seinen Facetten berprft und
Bewertens. Grundlegend fr die Testentwicklung ist es folglich zu ermitteln, ob die bewertet wird. Mit dem Bewusstsein, dass Ratingverfahren in der Regel mit
passenden Kriterien angewandt werden, um von einem relevanten Validittsbeweis Urteilsfehlern oder rater bias (siehe Kapitel 4.5.1) behaftet sind, und die
sprechen zu knnen und inwieweit dieser fr verschiedene Testsituationen generalisiert Interraterreliabilitt meist nicht gewhrleistet werden kann, bedient sich der TestDaF der
werden kann. Die APA definiert hinsichtlich dieses Problems (APA-Standard 1.3:18): Hilfe eines probabilistischen Modells, dem so genannten Multifacetten-Raschmodell (vgl.
Kapitel 4.5.3). Dabei werden verschiedene Faktoren definiert, die die
If validity for some common or likely interpretation has not been investigated, or if the
Leistungsbeurteilung bestimmen (Eckes 2003:57):
interpretation is inconsistent with available evidence, that fact should be made clear
and potential users should be cautioned about making unsupported interpretations.

159 http://www.testdaf.de/teilnehmer/pdf/pruefungsordnung.pdf

165 166
Fhigkeit der Testperson Beim schriftlichen Ausdruck des TestDaf-Tests geht es lediglich um eine Aufgabe hoher
Komplexitt, die unterschiedliche Schreibhandlungen umfasst und die es anhand einer
Schwierigkeit des Kriteriums/Schwierigkeit des Items
Skala mit Hilfe definierter Einzelkriterien und Deskriptoren zu bewerten gilt (Eckes
Strenge der Rater 2004:486). Die schreibproduktive Leistung bzw. das Bewertungsresultat kann nicht durch
Diese drei Facetten bedingen sich gegenseitig, wenn es um den Ratingprozess geht. die Leistungen in den anderen Subtests kompensiert werden (Arras/Grotjahn 2002:65f).
Die Interpretation der Fhigkeit einer Testperson sollte in ihrer Einstufung adquat sein. Um hinter die Kulissen des TestDaF-Tests und seiner Bewertung zu schauen, habe ich am
Was die Schwierigkeit der Kriterien oder auch der Items angeht, so implizieren diese, 3./4.3.2007 an dem Workshop Beurteilung schriftlicher und mndlicher Leistungen im
dass die Streuung der Einstufungen daran festgemacht werden kann. Der dritte Punkt TestDaF teilgenommen, den das TestDaF-Institut in Fulda organisiert hat. Neben den
betrifft die Strenge eines Raters. Anders ausgedrckt gibt es mildere und strengere einfhrenden Teilen wurde der schriftliche Ausdruck und dessen Bewertung zum
Rater, was dazu fhrt, dass man nicht von einer fairen Bewertung sprechen kann. Schwerpunkt dieses Workshops. Durch die schriftliche Lernerproduktion des TestDaF soll
Anhand der Multifacetten-Analyse wird fr den TestDaF im Sinne des fairen Aufschluss darber gegeben werden, ob der Testkandidat hochschultauglich ist. Die
Durchschnitts zum einen der Strengekoeffizient eines jeden Raters ermittelt, zum Prfungsordnung definiert das Ziel dieser Teilprfung folgendermaen: Der Kandidat soll
anderen auch die Schwierigkeit von Kriterien und Items (Eckes 2004:501). zeigen, dass er Schreibhandlungen, die im hochschulbezogenen Kontext relevant sind,
angemessen ausfhren kann. Dabei werden anhand der vorgelegten Aufgabe zur
Was schlielich das Testformat des TestDaF angeht, so handelt es sich, wie bereits
schriftlichen Produktion unter anderem vom Kandidaten folgende Teilkompetenzen,
angefhrt, um eine Testform, die die vier klassischen Kompetenzen (LV, HV, SA, MA) in
Strategien und Techniken erwartet:161
vier verschiedenen Subtests berprft. Laut 2 der Prfungsordnung werden auf dem
TestDaF-Zeugnis die Prfungsergebnisse nach Fertigkeiten getrennt ausgewiesen, um Logischer Aufbau und Strukturierung schriftlicher uerungen
den Hochschulen ein differenzierteres Leistungsprofil des Studienbewerbers zu Beschreibung statistischer Daten in Grafiken oder Tabellen
vermitteln. Die erreichten Leistungen in den jeweiligen Subtests werden den TDN-Stufen
Unterscheidung zwischen Beschreibung und Interpretation
3, 4 und 5 zugeordnet. Das Niveau unter TDN 3 informiert lediglich darber, dass das
Eingangsniveau dieses Tests nicht erreicht wurde (Arras/Grotjahn 2002:65). Argumentationen entwickeln knnen

Unterscheidung zwischen sachlicher Information und persnlicher Stellungnahme


Stellung zu kontroversen Fragen zu nehmen
5.4.1 Der schriftliche Ausdruck im TestDaF
verschiedene Standpunkte begrndet darzustellen
Im Mittelpunkt dieser Arbeit steht der schriftliche Ausdruck und die dafr erstellten
Kriterienkataloge, um schreibproduktive Kompetenz zu definieren. Schriftlicher Vor- und Nachteile gegeneinander abzuwgen
Ausdruck kann dabei den drei TestDaF-Niveaustufen (TDN) zugeordnet werden, welche Verwendung von kohsionsstiftend sprachlichen Mitteln
generisch folgendermaen beschrieben werden:160
Kompensationsstrategien fr nicht bekannte Redemittel

TDN 3: Kann sich in studienbezogenen Alltagssituationen (u.a. Bericht fr


Stipendiengeber) weitgehend verstndlich und zusammenhngend schriftlich Der TestDaF versteht sich als eine kriteriumsorientierte Prfung, deren Ziel der
uern; kann sich im fcherbergreifenden wissenschaftlichen Kontext (u.a. Vergleich einer individuellen Leistung mit der gewnschten Fhigkeit ist. Es werden
Protokolle, Thesenpapiere) vereinfacht uern, sprachliche und strukturelle verschiedene Bewertungskriterien aufgestellt, die dabei behilflich sein sollen. Im
Mngel knnen das Textverstndnis beeintrchtigen. Folgenden wird eine Aufgabenstellung des schriftlichen Ausdrucks angefhrt und
diskutiert. Im Anschluss daran werden Lernerproduktionen und die vom TestDaF
TDN 4: Kann sich in studienbezogenen Alltagssituationen (u.a. Bericht fr begrndete Bewertung folgen, welche dokumentiert und auf ihre Gltigkeit berprft
Stipendiengeber) sowie im fcherbergreifenden wissenschaftlichen Kontext (u.a. werden. Der Kriterienkatalog soll das Ganze abrunden, indem die Einzelkriterien zunchst
Protokolle, Thesenpapiere) weitgehend zusammenhngend und strukturiert sowie separat und dann als Ganzes betrachtet und analysiert werden sollen, um diese
weitgehend angemessen uern; sprachliche Mngel beeintrchtigen das schlielich auf die Lernerproduktion zu beziehen und anzuwenden.
Textverstndnis nicht.

TDN 5: Kann sich in studienbezogenen Alltagssituationen (u.a. Bericht fr


Stipendiengeber) sowie im fcherbergreifenden wissenschaftlichen Kontext (u.a.
Protokolle, Thesenpapiere) zusammenhngend und strukturiert sowie sprachlich
angemessen und differenziert uern.

160 http://www.testdaf.de/teilnehmer/tn-info_nivea.php 161 Workshop Beurteilung schriftlicher und mndlicher Leistungen im TestDaF am 3./4. 3. 2007 in Fulda

167 168
5.4.1.1 Aufgabenstellung im schriftlichen Ausdruck Was die Wahl des Hochschulorts betrifft, so gibt es unterschiedliche Meinungen:

Der Subtest schriftlicher Ausdruck mchte Schreibfertigkeiten, die im Das Studium an einer Hochschule in einer Grostadt ist sehr viel interessanter, denn
Hochschulkontext von Bedeutung sind, berprfen. Anhand einer Grafik, die beschrieben man hat dort ein reiches kulturelles Angebot und bessere Chancen, einen Nebenjob
werden soll, wird eine Stellungnahme zu konkreten Aspekten des Themas verlangt. oder einen Praktikumsplatz zu finden.
Anreiz dafr knnen Zitate oder verschiedene Statements sein.162 Es sei die
Das Studium an einer kleinen Hochschule fernab der Grostdte ist effektiver, weil
Aufgabenstellung aus dem Modellsatz 02 des TestDaF-Instituts angefhrt, um den Typus,
man sich besser auf das Studium konzentrieren kann und einen engeren Kontakt zu
seine Thematik und die Eindeutigkeit zur Bearbeitung zu dokumentieren:
den Lehrkrften und Mitstudierenden pflegt.

Schreiben Sie einen Text zum folgenden Thema: 60 Minuten


Geben Sie beide Aussagen mit eigenen Worten wieder.
Wahl des Hochschulorts
Nehmen Sie Stellung zu beiden Aussagen und begrnden Sie Ihre Meinung.
Wo soll ich studieren? Diese Frage stellt sich, wenn man sich entschlossen hat, ein
Gehen Sie auf die Situation in Ihrem Heimatland ein.
Hochschulstudium aufzunehmen. Ist eine groe Hochschule in einer Grostadt oder aber
eine Hochschule mit weniger Studierenden in einer kleineren Stadt empfehlenswert? Fr
die Entscheidung ist nicht nur die Attraktivitt der Universittsstadt ausschlaggebend. Das Aufgabenformat fr den schriftlichen Ausdruck bei TestDaF besteht aus einer
Auch das Betreuungsverhltnis an der Hochschule ist ein wichtiges Texterstellungsaufgabe und fordert eine deskriptive und argumentative
Entscheidungskriterium, d. h. die Frage: Wie viele Studierende werden von einer Schreibhandlung.163 Zum einen wird ein einfhrender Text mit hoher Informationsdichte,
Professorin oder einem Professor betreut? im vorliegenden Fall Wahl des Hochschulorts, zur Verfgung gestellt, um einen Einblick
Bevlkerung sowie Studierende und ProfessorInnen an ausgewhlten in die Thematik anhand von bereit gestellten Hintergrundinformationen zu liefern. Dieser
Hochschulstandorten in Deutschland als Stimulus fungierender Einfhrungstext sollte auf TDN 3 platziert sein, damit alle
Prfungskandidaten im Sinne der APA die gleichen Bedingungen, folglich Fairness, haben.
Darber hinaus kommt es erst durch die Bereitstellung der Tabelle zu der eigentlichen
Anzahl Anzahl Anzahl Betreuungs- Aufgabenstellung. Verlangt wird an dieser Stelle von den Prfungskandidaten zunchst,
Einwohner Student- Professor- verhltnis die Tabelle unter bestimmten Bedingungen zu beschreiben und zu vergleichen. Die
-Innen Innen Innen weiter unten angefhrten Statements sollen in den Text mit eingebunden werden, indem
sie mit eigenen Worten wiedergegeben, dann abgewogen und diskutiert werden sollen.
Greifs- 54.000 6.970 160 ca. 44:1
Die eigene Meinung wird insofern verlangt, als man sich fr das eine oder andere
wald
Statement argumentativ entscheiden muss. Auch spielt die kulturkontrastive Facette eine
Freiburg 205.000 17.520 320 ca. 54:1 Rolle, indem die definierte Situation auf das jeweilige Heimatland zu beziehen ist. Ein
wichtiger Punkt ist, inwieweit bei einer derartigen Aufgabenstellung fr die
Prfungsteilnehmer eindeutig ist, was genau sie schriftlich produzieren sollen. Diese
Leipzig 493.000 24.820 405 ca. 61:1 Frage stellt sich auf, denn das Aufgabenformat ist in verschiedene Subkategorien
Hamburg 1.715.400 36.140 630 ca. 57:1 unterteilt, was sehr leicht dazu fhren kann, dass man zum Beispiel durch den
Zeitdruck bedingt den berblick verlieren kann, obwohl die bereit gestellte Information
Kln 963.000 60.300 410 ca. 147:1 sehr detailliert ist. Interessant ist an dieser Stelle ebenso zu erwhnen, dass keine
bestimmte Textsorte gefordert wird, wie das zum Beispiel beim Goethe-Institut der Fall
ist.
Beschreiben und vergleichen Sie, wie sich die unterschiedlichen Universitten

hinsichtlich der Anzahl an Studierenden und ProfessorInnen sowie 5.4.1.2 Lernerproduktion

hinsichtlich des Betreuungsverhltnisses unterscheiden Im Folgenden soll eine Lernerproduktion auf die Aufgabenstellung des Modellsatzes 02
des TestDaF-Instituts aufgezeigt und anhand der zu bearbeitenden Aufgabe diskutiert
Beziehen Sie dabei auch die Gre des Hochschulorts ein.
werden. Daraufhin wird die dokumentierte Bewertung der Lernerproduktion des TestDaF-
Instituts angefhrt werden. Die Bewertungsskala und ihre Deskriptoren sollen darauf
aufbauend schlielich hinsichtlich ihrer Eindeutigkeit untersucht werden, um sie des
Weiteren zu analysieren und zu diskutieren.

162 TestDaF: Bewertungsanleitung zum Modellsatz 02. Bezogen aus dem Workshop Beurteilung schriftlicher und mndlicher
Leistungen im TestDaF am 3./4.3.2007 in Fulda 163 Zur Bewltigung dieses Subtests stehen 60 Minuten zur Verfgung, wobei keinerlei Hilfsmittel zugelassen sind.

169 170
Lernerproduktion 1 auf die Aufgabe des schriftlichen Ausdrucks in Modellsatz 02: 164 Global betrachtet scheint diese Textproduktion anfangs solide zu sein. Setzt man sich
aber nun nher mit der Legende, dem tabellarischen Input und den angefhrten
Statements auseinander, so wird ersichtlich, dass der Kandidat sprachproduktiv die
Die Tabelle zeigt, wie die Anzahle der Bevlkerung sowie Studierende und vorgelegten Informationen nicht strukturiert und exakt wiedergegeben hat. Ebenso
ProfessorInnen in verschiedenen Stdten bzw. die Betreuungsverhltnis in verschiedenen scheinen die Argumentationsdarlegungen nicht ausreichend gegenber gestellt und
Universitten aussehen. Ganz deutlich ist es, dass es in einer Grostadt zwar viel mehr begrndet worden zu sein.
Studierende und ProfessorInnen gibt, aber die Betreuungsverhltnis ist auch relativ gro.
Das TestDaF-Institut hat nicht den Anspruch eines grammatisch und orthografisch
Z.B. in Kln mit 963.000 EinwohnerInnen gibt es 60.300 Studierende und 410
perfekten Textes. Es geht hier vielmehr um
ProfessorInnen. Daraus folgt die Betreuungsverhltnis 147:1. Im Gegenteil dazu ist die
Betreuungsverhltnis in einer Kleinstadt viel kleiner, obwohl es dort wenigere
Studierende und ProfessorInnen. Z.B. in Stadt Greifswald mit nur 54.000 die gute Textstruktur und ihre Verstndlichkeit
EinwohnerInnen gibt es 6.970 Studierende und 160 ProfessorInnen. Die
Betreuungsverhltnis ist aber 44:1. die vollstndige, sachliche und folgerichtige Bearbeitung der Aufgabenpunkte

Das Studium an einer Grohochschule in einer Grostadt ist sehr interessant. Man fhlt das Aufzeigen, dass der Prfungskandidat in der Lage ist auf Hochschulniveau
sich nie langweilig. Denn man kann immer viele Kontakte mit Leute aus verschiedene eine schriftliche Arbeit anzufertigen.166
Kulturen lernen, sonder auch lernt, wie man mit einem anderen Mensch besser umgehen
soll. Und es ist allen bekannt, dass die Kommunikation eine groe Rolle spielt. Auerdem
Wie eine derartige Produktion vom TestDaF bewertet wird, soll im Weiteren
gibt es hier in einer Grostadt zahlreiche Firmen und Geschften. Deshalb existieren ber
demonstriert werden. Im Vorfeld sollen zunchst die zur Bewertung definierten und
kein Problem, einen Nebenjob sowie Praktikumsplatz zu finden. Die beide Sache sind
bentigten Kriterien angefhrt und im Sinne der Validitt diskutiert werden.
unheimlich wichtig. Mit einem Nebenjob kann ein Studierender seine finanzielle Lastung
erleichtern. Bei Praktikum kann er wertvolle Erfahrungen sammeln.

Das Studium in einer Kleinstadt ist im Vergleich zu einer Grostadt viel effektiver Denn
5.4.2 Bewertungskriterien fr den schriftlichen Ausdruck im TestDaF
es herrscht in einer Kleinstadt immer nur Ruhigkeit. Studierende knnen sich fr Ihr
Studium richtig Mhe geben. So kann man sein Studium frher abschlieen und mit Fr die Bewertung des schriftlichen Ausdrucks im TestDaF werden gleich gewichtete
seiner Karriere besser anfangen. Weil es nicht viele Leute in einer Kleinstadt gibt, kann Bewertungskriterien herangezogen, die je nach TDN- Stufe (TDN 3, TDN 4 oder TDN 5)
man die Beziehungen zwischen ProfessorInnen und KomilitoneInnen gut pflegen. Und bewertet werden und jeweils aus drei Unterkriterien bestehen. Anders ausgedrckt,
man kann schnell die Hilfe beim Studium bekommen und voneinander besser lernen. Die knnen die einzelnen Kriterien verschiedenen Stufen zugeordnet werden. Diese
Situation in meinem Heimatland sieht ganz anders aus. Fast alle Studierende mchte nur differenzierte Bewertung dient dem TestDaF dazu, Prfungskandidaten den jeweiligen
in einer Grostadt gehen und studieren. Weil es nur in Grostadt die Universitten mit Niveaustufen zuzuordnen um daraus eine facettenreichere Sprachstandsdiagnose zu
hohe Ruf gibt, und die Ruf spielt eine groe Rolle, deshalb mchte fast jeder an Uni mit ermitteln. Die Ansprche und Can-Dos dieser drei Stufen decken den Bereich B 2.1. C
hohe Ruf studieren. 1.2. ab (siehe Tabelle in Kapitel 2.5.). Es gibt fr die Bewertung des Subtests schriftlicher
Ausdruck zunchst drei Hauptkriterien, die wie folgt definiert sind:167

Gesamteindruck
Als aller erstes fllt auf, dass in der Aufgabenstellung nicht explizit gemacht wird, was
fr eine Textlnge erfordert wird. Obwohl die facettenreiche Aufgabenstellung Dieses Kriterium erfasst den Text als Ganzes in seiner Wirkung auf den Rezipienten
wissenschaftliches und hochschulbezogenes Schreiben voraussetzt, definiert das bzw. auf die Rezipientin. Die Bewertung erfolgt danach, inwieweit
TestDaF-Institut nicht das Ausma der zu berprfenden Schreibfertigkeit in diesem MuttersprachlerInnen den Text flssig lesen und dem Gedankengang folgen knnen.
Subtest. Im besuchten Workshop wurde bezglich dieser Fragestellung ebenfalls nichts Behandlung der Aufgabe
Konkretes geuert. Wichtig sei vielmehr, ob der Lernertext den Anforderungen auf
Dieses Kriterium erfasst die Ausfhrlichkeit und Komplexitt, mit der die
textueller Ebene genge.165 Demnach kann man in diesem Sinne davon ausgehen, dass
Aufgabenstellung behandelt wird. Die Bewertung erfolgt danach, inwieweit die
der schriftliche Ausdruck nicht anhand seiner Lnge und Quantitt gemessen wird. Ich
geforderten Schreibhandlungen elaboriert sind und auf die Punkte der
werde im Weiteren die definierten und gesetzten Anforderungen fr den Subtest
Aufgabenstellung eingegangen wird.
schriftlicher Ausdruck dokumentieren.

164 TestDaF, Bewertungsanleitung zum Modellsatz 02, Text 3, 10/2005. S. 16.


165 Informationen aus dem Workshop Beurteilung schriftlicher und mndlicher Leistungen im TestDaF am 3./4. 3. 2007 in 166 http://www.testdaf.de/teilnehmer/pdf/modellsatz02/tipps02_sa.pdf
Fulda 167 TestDaF-Institut: Bewertungsanleitung zum Modellsatz 02. 10/2005. S. 8

171 172
Sprachliche Realisierung 5.4.2.2 Das Kriterium: Behandlung der Aufgabe

Dieses Kriterium erfasst die sprachlichen Mittel des Textes. Dazu gehren das Ma Das zweite Kriterium wird Behandlung der Aufgabe genannt und scheint ebenfalls mit
an Kohsion und Ausdrucksfhigkeit sowie die Richtigkeit der verwendeten insgesamt 33, 33 % auf die inhaltliche Realisierung der Aufgabe fokussiert zu sein. Hier
Sprachmittel. Die Bewertung erfolgt nach Breite, Korrektheit und Angemessenheit der geht es um die Frage, wie die gestellte Aufgabe inhaltlich bearbeitet wurde. In diesem
eingesetzten sprachlichen Mittel. Sinne sollten Rater auf folgende Richtlinien Acht geben:169

Sind alle Punkte der Aufgabenstellung ausreichend behandelt oder fehlt etwas?
(Unterkriterium: Punkte der Aufgabenstellung)
5.4.2.1 Das Kriterium Gesamteindruck
Wie ist die Grafik beschrieben? Sind alle wichtigen Informationen folgerichtig
Das Kriterium des Gesamteindrucks scheint mit insgesamt 33,33 % holistisch und vom zusammengefasst? Oder sind die Informationen der Grafik ungenau und eventuell
individuellen Eindruck eines Raters geprgt zu sein. Einwnde gegen die fehlerhaft wiedergegeben? Werden Entwicklungen aufgezeigt? Kann man die
Kriteriumsdefinition sind hinsichtlich der Wirkung auf muttersprachliche Rezipienten aus Beschreibung der Grafik verstehen? (Unterkriterium: Beschreibung)
zweierlei Grnden zu erheben. Zum einen ist die Wirkung eines Textes auf eine Person
Wie ist der argumentative Teil bearbeitet? Sind die vorgegebenen Meinungen mit
nicht zu ergrnden, denn wie bereits in Kapitel 4.5.3 mehrfach erwhnt wurde, ist die
eigenen Worten wiedergegeben, oder wurden sie abgeschrieben? Sind die
Wahrnehmung bzw. das Auffassungsvermgen eines jeden Raters individuell und wenn
Argumente fr oder gegen ein Problem immer begrndet? Oder ist einfach nur
man so will, letztendlich subjektiv. Wie flssig ein Text gelesen werden kann und ob man
die persnliche Meinung ohne Begrndung geschrieben worden? Sind Vor- und
dem Gedankengang folgen kann, ist meiner Meinung nach ein nicht zu objektivierender
Nachteile einer Frage begrndet vorgebracht, oder nur aufgezhlt. Ist der Text
Umstand. Zum anderen stellt sich die Frage was die muttersprachliche Norm
sachlich? Oder wurden nur ganz persnliche Ansichten vorgebracht? Ist die
auszumachen scheint. Abgesehen von all dem bekommen speziell geschulte Rater bei
Situation im Heimatland verstndlich beschrieben und in die Argumentation
diesem Kriterium vom TestDaF-Institut folgende Anleitungen:168
eingebaut? (Unterkriterium: Argumentation)

Was das Unterkriterium der Punkte der Aufgabenstellung anbelangt, so wurde bereits
Wie liest sich der Text? Ist er gut lesbar oder muss man manche Textstellen erwhnt, dass ber das Ausma der schriftlichen Textproduktion nichts vermerkt scheint.
zweimal lesen? (Unterkriterium: Lesefluss) Zu hinterfragen ist, wie man als Rater dennoch von ausreichender Behandlung der
Ist der Gedankengang in Ordnung oder gibt es Widersprche und Aufgabe ausgehen kann oder auch nicht, und worauf man diese Definition bezieht. Beim
Gedankensprnge, so dass man manchmal nicht wei, was eigentlich ausgedrckt Unterkriterium Beschreibung geht es um die korrekte Auffassung der Grafik. Der Fall,
werden soll? (Unterkriterium: Gedankengang) dass ein Prfungskandidat die Grafik durch seine L1 zwar verstanden hat, jedoch
aufgrund fehlender Sprachkompetenz Fehler an die Oberflche gelangen lsst, sollte
Wie ist der Text aufgebaut? Gibt es eine Einleitung? Gibt es berlegungen
jedoch vorsichtig angegangen werden. Derartige Flle fhren leicht zur
zwischen den Abschnitten, also z.B. zwischen der Grafikbeschreibung und dem
Doppelsanktionierung, so dass die Gefahr der falschen Bewertung einer
argumentativen Teil? Gibt es eine Schlussfolgerung, ein Fazit? (Unterkriterium:
Lernerproduktionen besteht. Interessant ist auch die Frage, was gemessen wird, wenn
Textaufbau)
der Schreiber selbst aus seinem muttersprachlichen Verstndnis heraus die Grafik nicht
verstanden hat und dementsprechend sprachlich nichts Adquates produzieren kann. Zu
betonen ist an dieser Stelle, dass das Verstndnis einer Grafik eine rein kognitive und
Obwohl dieses Kriterium lediglich den Gesamteindruck eruieren soll, so wird dieser
keine sprachliche Leistung ist. Wenn also die Grafik vom Prfungskandidaten nicht
trotzdem an den einzelnen Defiziten festgemacht. Das Unterkriterium Lesefluss ist eine
verstanden wird, so kann der sprachliche Output nicht die erforderte Leistung erbringen.
potentielle Doppelsanktionierungsquelle, denn dieser findet sich erneut bei der Kohsion
Leider wird hier Kognition und Verstndnis einer sprachunabhngigen Komponente (in
der sprachlichen Realisierung wieder. Es ist auffllig, wie die im Folgenden aufgezeigten
unserem Fall die Grafik) mit der Sprachproduktion gleichgesetzt. Wichtig ist es deshalb
Bewertungskriterien in ihrer Form eher analytisch sind, und zum Teil Sprachfacetten
die Kriterien untereinander sehr strikt zu trennen, so dass die Einstufung von Leistungen
behandeln, die bereits im Kriterium Gesamteindruck eine Rolle zu spielen scheinen.
bzw. Fehlleistungen der richtigen Kategorie zugeordnet werden knnen. Im
Unterkriterium Argumentation wird auf die Mglichkeit verwiesen, dass ein
Prfungskandidat den Wortschatzinput der Legende und der Grafik fr seine Produktion
bernehmen kann, diese jedoch in aller Regel nicht ausreichend ist. Es wird aber nichts
darber ausgesagt, was die Konsequenz daraus ist und wie Derartiges schlielich zu
bewerten ist.

169 http://www.testdaf.de/teilnehmer/pdf/modellsatz02/tipps02_sa.pdf

168 http://www.testdaf.de/teilnehmer/pdf/modellsatz02/tipps02_sa.pdf

173 174
5.4.2.4 Der Kriterienkatalog

5.4.2.3 Das Kriterium: sprachliche Realisierung


Um einen besseren Eindruck darber zu bekommen, wird im Folgenden der ausfhrliche
Mit den letzten 33, 33 % der Gesamtbewertung des schriftlichen Ausdrucks soll das
Bewertungskatalog fr den schriftlichen Ausdruck des TestDaF-Instituts vorgestellt:171
Kriterium der sprachlichen Realisierung Aufschluss darber geben, welche sprachlichen
Mittel eine Textproduktion eines TestDaF aufweist. Rater sollen dabei in diesem Sinne
allgemein auf folgende Fragestellungen Rcksicht nehmen:170
TDN 5 TDN 4 TDN 3 Unter TDN 3

Gesamt- 1.Der Text liest 1. An einzelnen 1. An manchen 1. Der Text liest sich
Sind die Stze im Text miteinander verbunden, d. h. ist der Text kohrent? Wird eindruck sich durchgngig Stellen gert der Stellen ist insgesamt nicht
stets nur und verwendet oder werden auch andere Konjunktionen benutzt? flssig Lesefluss ins wiederholtes flssig.
Variieren die Konjunktionen sinnvoll? (Unterkriterium: Kohsion) Stocken. Lesen
2.Der Gedanken- 2. Der Gedan-
Werden immer die gleichen einfachen Stze (z. B. Hauptstze) geschrieben oder erforderlich.
gang kann 2. Der Gedan- kengang kann nur
auch Nebenstze verwendet? Werden immer die gleichen Nebenstze geschrieben problemlos kengang kann 2. Der Gedan- mhsam oder
oder variieren die Konstruktionen? (Unterkriterium: syntaktische Strukturen) nachvollzogen nachvollzogen kengang kann von bruchstckhaft
Wie breit und genau ist der Wortschatz? Werden z. B. immer die gleichen Verben werden werden, wenn einem nachvollzogen
benutzt oder variiert der Wortschatz? Werden die treffenden Ausdrcke benutzt? auch vereinzelt kooperativen werden.
3.Der Text ist klar
(Unterkriterium: Wortschatz) die Rezeption Leser
strukturiert 3. Der Text ist nicht
verzgert wird. nachvollzogen
Wie viele sprachliche Fehler gibt es in dem Text? Treten oft Fehler auf, oder nur klar strukturiert.
werden.
manchmal? Kann man den Text trotz einiger Fehler noch verstehen? Oder kann 3. Der Text ist
man ihn wegen der Fehler nicht immer verstehen? (Unterkriterium: Korrektheit) insgesamt noch 3. Der Text weist
strukturiert. Brche auf.

Behandlung Der Text wird der Der Text wird der Der Text wird der Der Text wird der
Bei dem Unterkriterium Kohsion der sprachlichen Realisierung geht es um kohsive der Aufgabe Aufgabenstellung Aufgabenstellung Aufgabenstellung Aufgabenstellung
Mittel. Dabei wird aber zunchst nicht deutlich, welche Verknpfungselemente jede inhaltlich gerecht: inhaltlich inhaltlich noch inhaltlich nicht
einzelne TDN definieren. Es zeigt sich wiederum, dass die Annahme, dass diese und jene weitgehend gerecht: gerecht: gerecht:
sprachlichen Mittel eine bestimmte Stufe ausmachen wrden, nicht gelten kann. Diese 1. Alle in der
Problematik lsst sich eher dadurch klren, wenn man darauf achtet, welche sprachlichen Aufgabenstellung 1. Alle in der 1. Fast alle in der 1. Nur einige in der
Mittel und wie diese im Gesamten eingesetzt werden. Die Referenzebene dafr ist damit genannten Aufgabenstellun Aufgabenstellung Aufgabenstellung
stets der Text. Es stellt sich die Frage hinsichtlich der Benutzung kohsiver Mittel und der Punkte werden g genannten genannten Punkte genannte Punkte
Einstufung dessen auf den TDN-Stufen 3, 4 oder 5. Gleiches gilt fr die syntaktischen in Punkte werden werden werden
Strukturen. Es gilt ebenso zu klren, wie viel Komplexitt Stze aufweisen mssen, dass ausreichendem behandelt, behandelt. behandelt.
man entsprechende Stufenzuweisung erlangt. Was den Wortschatz anbelangt, so ist ein Umfang manche jedoch
2. Die Informationen 2. Die Beschreibung
sehr groes Gebiet angesprochen, dass meines Erachtens vollkommen subjektiv im behandelt zu knapp.
der Grafik(en) der Grafik(en) ist
Empfinden der einzelnen Rater ist. Es wurde bereits angesprochen, dass Wortschatz nicht 2. Die Infor- 2. Die werden nicht
kategorisiert werden kann, auch wenn aufsteigend eine Wortschatzvariation erwartet mationen der Informationen berwiegend verstndlich.
wird. Grafik(en) der Grafik(en) aufzhlend
3. Im argumen-
werden werden klar und wiedergegeben.
tativen Teil
zusammen- folgerichtig
3. Im argumen- werden
gefasst; sie wiedergegeben.
tativen Teil Standpunkte/
werden klar und
3. Im argumen- werden berlegungen
folgerichtig
tativen Teil wird Standpunkte/ber nicht oder nur in
dargestellt
sachlich legungen deutlich Anstzen
3. Im argumen- begrndet, z.T. und ggf. Durch verdeutlicht.
tativen Teil wird nur knapp, und persnliche

170 http://www.testdaf.de/teilnehmer/pdf/modellsatz02/tipps02_sa.pdf 171 TestDaF-Institut: Bewertungsanleitung zum Modellsatz 02. 10/2005. S. 11

175 176
sachlich und ggf. Werden Wertungen
ausfhrlich Beispiele als verstrkt.
Ich habe bereits die einzelnen Kriterien separat vorgestellt. Im Weiteren sollen die
genug begrndet Belege
Kriterien bzw. Einzelkriterien anhand ihrer Deskriptoren diskutiert werden. Dabei werde
und ggf. Werden angefhrt.
ich horizontal vorgehen, indem die Definitionen der Einzelkriterien je nach TDN-Stufe
Beispiele als
aufgezeigt werden. Das Stufenniveau deckt den Bereich TDN 5 bis einschlielich unter
Belege
TDN 3. Letzteres bringt die nicht ausreichende Sprachkenntnis fr den Hochschulzugang
angefhrt.
mit sich und kann daher meines Erachtens als das Extrem der maximal zu erreichenden
Sprachliche Die sprachliche Die sprachliche Die sprachliche Die sprachliche TDN 5-Stufe angesehen werden.
Realisierung Realisierung ist der Realisierung ist der Realisierung ist der Realisierung ist der
Aufgabenstellung Aufgabenstellung Aufgabenstellung nicht Aufgabenstellung nicht
angemessen: weitgehend immer angemessen: angemessen:
angemessen: 5.4.2.4.1 Das Kriterium Gesamteindruck
1.Der Text hat 1. Der Text hat 1. Der Text hat
1. Der Text hat
- ein breites - einfache - kaum
Als erstes sollen die Unterkriterien bzw. Einzelkriterien des holistischen
Spektrum an ein begrenztes Verknpfungs- Verknpfungs-
Gesamteindrucks betrachtet werden. Das erste Einzelkriterium nennt sich Lesefluss
kohsions- Spektrum an elemente elemente
und es stellt sich die Frage, was darunter zu verstehen ist und ob dieses Kriterium
stiftenden kohsions-
- einige Variationen - nur wenige universal fungieren kann. Man knnte Lesefluss als den ungehinderten Verlauf
Mitteln stiftenden
bei den Variationen bei whrend des Lesens oder des Rezipierens definieren. Dieser kann aber meines Erachtens
Mitteln
- ein breites syntaktischen den syntaktischen nach nicht objektiviert bzw. standardisiert werden. Auf Stufe TDN 5 sollte sich der Text
Spektrum an ein begrenztes Strukturen Strukturen durchgngig flssig lesen. Anders ausgedrckt, hngt die Einstufung dieses Kriteriums
syntaktischen Spektrum an auf dieser Skala mit der Persnlichkeit des Raters zusammen. Ist sein Lesefluss
2. Der Wortschatz ist 2. Der Wortschatz ist
Strukturen syntaktischen durchgngig flssig, dann bekommt der Prfungskandidat das Niveau TDN 5
ausreichend eingeschrnkt.
Strukturen zugewiesen. Bei einem anderen Rater knnte sich dieser Umstand ganz anders
2.Der Wortschatz
3. Der text enthlt 3. Der Text enthlt ausdrcken und derselbe Kandidat bekme eine andere Stufenzuweisung, z.B. TDN 4, da
ist weitgehend 2. Der Wortschatz
morpho- morpho- an einzelnen Stellen der Lesefluss ins Stocken gert. Es gilt zu definieren, durch welche
differenziert und ist breit,
syntaktische, syntaktische, Faktoren Lesefluss ins Stocken geraten kann. Eine unleserliche Handschrift kann jedem
przise. teilweise jedoch
lexikalische und lexikalische und Rater Probleme bereiten. Lesefluss kann auch durch bermdung oder mangelnde
nicht przise
3.Der Text enthlt orthografische orthografische Konzentration eines Raters in einer Art und Weise beeintrchtigt werden, was aber eine
vereinzelt 3. Der text enthlt Fehler, die das Fehler, die das gravierende Verletzung der Reliabilitt wre. Der vorletzten Stufe wird eine
morpho- gelegentlich Verstehen Verstehen Lernerproduktion dann zugeordnet, wenn an manchen Stellen wiederholtes Lesen
syntaktische, (nicht- beeintrchtigen deutlich erforderlich ist. Dennoch ist nicht klar, weshalb wiederholtes Lesen und von welchem
lexikalische und systematische) erschweren. Rater erforderlich zu sein hat und ob dies schlielich zum erwnschten Verstndnis
orthografische morphosyntaktis fhrt. An dieser Stelle knnte man die Frage stellen, ob beim Stocken nicht automatisch
Fehler. che, lexikalische bestimmte Textpassagen erneut gelesen werden, auch wenn der Strfaktor nur ein
und einziges Wort ist. Schlielich erreicht das sprachliche Niveau eines Prfungskandidaten,
orthografische das am Eindruck der Rater festgemacht wird, wenn sich der Text insgesamt nicht flssig
Fehler, die das liest lediglich das Prdikat unter TDN 3.
Verstehen
jedoch nicht Zu dem holistischen Kriterium des Gesamteindrucks gehrt auch das Einzelkriterium
beeintrchtigen Gedankengang. Wenn Rater das Urteil abgeben, dass der Gedankengang problemlos
nachvollzogen werden kann, dann impliziert dieser Umstand TDN-Stufe 5. Auch hier
stellt sich erneut die Frage, ob alle Rater dasselbe Urteil ber eine Lernerproduktion
hinsichtlich des Gedankenganges abgeben wrden.172 Einer Stufe darunter, d.h. TDN 4,
wird das schriftliche Lernerkonstrukt zugeordnet, wenn der Gedankengang zwar
nachvollzogen werden kann, auch wenn vereinzelt die Rezeption verzgert wird. Bei

172 Eckes (2008) stellt in seinem Aufsatz Rater types in wring performance: a classification approach to rater variability fest,
Tabelle 39: Kriterienkatalog fr den TestDaF dass das Verhalten der Rater ganz individuell und unabhngig von gesetzten Normen und Bewertungskriterien vonstatten
geht. In Kapitel 6 werde ich ausfhrlicher darauf eingehen.

177 178
dem einen Rater mag dieses zutreffen, beim nchsten allerdings nicht. Interessant ist der
5.4.2.4.2 Das Kriterium Behandlung der Aufgabe
Deskriptor dieses Einzelkriteriums fr die Stufe TDN 3: Der Gedankengang kann von
einem kooperativen Leser nachvollzogen werden. Prinzipiell bedeutet dies zunchst, Das zweite analytische Kriterium auf der Bewertungsskala schriftlichen Ausdrucks des
dass es kooperative und nicht kooperative Leser gibt, die den schriftlichen Ausdruck TestDaF besteht ebenfalls aus drei Einzelkriterien. Insgesamt sollen die Einzelkriterien
bewerten sollen. Es mag durchaus sein, dass die Definition kooperativ etwas Anderes
aus verschiedenen Perspektiven der Frage nachgehen, ob der Text einen Bezug zur
impliziert, was ich aber nur bezogen auf den Rater deuten kann. Bereits dieser Umstand Aufgabenstellung aufweist. In jeder TDN-Stufe unterliegen diese drei Einzelkriterien
scheint die Profile der einzelnen Rater zu differenzieren. Dennoch ist es wichtig zu
zusammengefasst einem anderen Motto. Darauf werde ich abschlieend noch eingehen.
definieren, was einen kooperativen Leser ausmacht. Wenn man davon ausginge, er Das erste Einzelkriterium behandelt die Thematik Punkte der Aufgabenstellung. Die in
denkt mit, dann stellt sich sofort die nchste Frage auf, ob dies nur auf Stufe TDN 3 der Aufgabenstellung gegebenen Aufgaben sollen innerhalb von maximal 60 Minuten
zwingend erforderlich ist. Kontrr dazu muss aber auch bercksichtigt werden, ob man bearbeitet werden. Diese Realisierung wird ihren Abstufungen entsprechend den Niveaus
dem Gedankengang eines Prfungskandidaten nicht folgen knnte, wenn man kein
TDN 5 bis unter TDN 3 zugeordnet. Hat ein Prfungskandidat alle in der
kooperativer Leser ist. Die letzte Niveauzuweisung definiert das Einzelkriterium Aufgabenstellung genannten Punkte in ausreichendem Mae behandelt, so impliziert
Gedankengang insofern, als dieser nur mhsam oder bruchstckhaft nachvollzogen
dieses TDN 5. Zu definieren wre an dieser Stelle der Begriff ausreichend, wenn selbst
werden kann. Obwohl nicht explizit ist, ob der Gedankengang fr alle Rater mhsam das TestDaF-Institut keinen Aufschluss ber die zu erbringende quantitative Leistung
ist oder nicht, wird an dieser Stelle mit unter TDN 3 bewertet. bzw. die Wortanzahl geben kann. Es gibt Kandidaten, die drcken sich knapper aus als
Das dritte und letzte Einzelkriterium des Oberkriteriums Gesamteindruck nennt sich andere, aber dafr kompakter und effizienter. Dennoch stellt sich die Frage, ob
Textaufbau, auch wenn der TestDaF keine bestimmte Textsorte voraussetzt. Es wird sich Derartiges ausreicht, um das Prdikat TDN 5 zu bekommen. Wahrscheinlich wrde eine
noch besttigen, dass der Textaufbau erneut im Unterkriterium Kohsion des Bereichs derartige Leistung der TDN-Stufe 4 zugerechnet, denn zwar wren alle in der Aufgabe
der sprachlichen Realisierung, Anwendung und Bercksichtigung findet. Es soll zunchst genannten Punkte behandelt, manche jedoch zu knapp. Interessant ist die Definition
betrachtet werden, wie sich Textaufbau holistisch auf den Ratingprozess auswirkt. Der dieses Einzelkriteriums fr TDN 3: Fast alle in der Aufgabenstellung genannten Punkte
TDN 5 werden diejenigen Prfungskandidaten zugeordnet, deren Text klar strukturiert werden behandelt. Hier wird nichts von der Quantitt der zu bearbeitenden Punkte
ist. Es ist natrlich auch an dieser Stelle nicht ersichtlich, fr wen ein Text klar gesagt, lediglich, dass fast alle Punkte bearbeitet wurden, wie viele es sind, geht aber
strukturiert ist und folglich so definiert wird. Eine Stufe darunter ist der Text insgesamt hieraus nicht hervor. Abgerundet wird dieses Einzelkriterium auf der Bewertungsskala
noch strukturiert. Auch hier ist es meiner Meinung nach eine Ermessensfrage, was man damit, dass nur einige in der Aufgabenstellung genannten Punkte behandelt werden
als insgesamt noch strukturiert definiert. Jegliche Struktur ab diesem Moment scheint (unter TDN 3). Auch hier ist weder die Rede davon, wie viele Punkte behandelt werden
laut Kriterienkatalog und Deskriptoren nicht auszureichen, um die sprachlichen oder nicht, noch von der ausfhrlichen Aufgabenbearbeitung. Es ist doch im Rahmen
Voraussetzungen fr ein Hochschulstudiumsbeginn zu erfllen. Die TDN-Stufe 3 definiert des Mglichen, dass trotzdem Teile der Aufgabenstellung laut der Definition des TestDaF
den Textaufbau nmlich damit, dass der Text Brche aufweist. Es wird aber nichts ausfhrlich behandelt werden.
darber ausgesagt, wie Brche sich uern und welcher Art sie sind. Die eigentlich nicht- Das zweite Einzelkriterium nennt sich Beschreibung. Die Deskriptoren auf TDN 5 und
existente Stufe unter TDN 3 besagt das absolute Gegenteil von TDN 5: Der Text ist TDN 4 hierfr lassen kaum Unterschiede erkennen. Whrend auf TDN 5 die
nicht klar strukturiert. Auch hier stellt sich die Frage, ob es eine bestimmte Informationen der Grafik(en) zusammengefasst und klar und folgerichtig dargestellt
einzuhaltende Form gibt, selbst wenn das Format in diesem Subtest berhaupt nicht
werden, definiert der Deskriptor TDN 4 lediglich, dass die Informationen der
definiert werden kann. Grafik(en) klar und folgerichtig wiedergegeben werden. Man fllt demnach auf Niveau
Das Kriterium Gesamtausdruck macht samt seinen drei bereits angefhrten TDN 4 ab, sobald man die Informationen der Grafik(en) lediglich wiedergibt, aber nicht
Einzelkriterien 1/3 der Gesamtbewertung des schriftlichen Ausdrucks fr den TestDaF zusammenfasst. In dieser Hinsicht muss man sich auf die Aufgabenstellung besinnen, um
aus. Es handelt sich um ein holistisch geprgtes Kriterium ist, d. h. die Rater haben bei zu eruieren, ob dieses berhaupt abverlangt wird. Bezglich der Grafikbeschreibung wird
diesem Kriterium trotz der definierten Deskriptoren ihren eigenen Ermessensspielraum. in der Aufgabenstellung unseres Modellbeispiels folgendes verlangt:
Es kann folglich nicht von einer objektiven Bewertung ausgegangen werden, da Rater
durch dieses Kriterium ihren persnlichen Gesamteindruck preisgeben, indem sie sich an
die jeweiligen Deskriptoren der einzelnen Abstufungen halten. Diese Deskriptoren sind Beschreiben und vergleichen Sie, wie sich die unterschiedlichen Universitten
aber nicht objektiv, denn ob ein Text flssig ist, man dem Gedankengang des hinsichtlich der Anzahl an Studierenden und ProfessorInnen sowie
Testteilnehmers folgen kann oder der Text eine Struktur aufweist, ist eine vollkommen
hinsichtlich des Betreuungsverhltnisses unterscheiden
subjektive Einschtzung. Der TestDaF erlaubt Ratern demnach anhand dieses
holistischen Kriteriums zu einem Drittel der Gesamtbewertung, willkrlich oder auch Beziehen Sie dabei auch die Gre des Hochschulorts ein.
nicht, ber die schriftliche Leistung eines Testteilnehmers zu bestimmen oder gar zu
entscheiden.

179 180
Der Arbeitsauftrag besagt nichts ber eine Zusammenfassung der Grafikdaten bzw. - Die verschiedenen Realisierungen dieser Aufgabenstellung haben die Deskriptoren des
informationen. Der Prfungskandidat soll lediglich unterschiedliche Universitten Argumentationskriteriums zum Gegenstand. Das Prdikat TDN 5 bekommt ein
hinsichtlich verschiedener Punkte beschreiben und vergleichen. Es wird aus der Testkandidat dann, wenn im argumentativen Teil sachlich und ausfhrlich genug
Aufgabenstellung ebenso wenig deutlich, ob alle Universitten untereinander begrndet wird und ggf. Beispiele als Belege angefhrt werden. Auch hier entpuppt sich
beschrieben und verglichen werden sollen. Der Deskriptor des nicht ausreichenden die Definition der Begrndung als vage, wenn sie ausfhrlich genug ist und wer
Niveaus TDN 3 definiert in diesem Zusammenhang, dass die Informationen der schlielich darber entscheiden darf, ob ausfhrlich genug argumentiert worden ist
Grafik(en) berwiegend aufzhlend wiedergegeben werden. Was diese Stufe von einer oder nicht. Einen entscheidenden Einschnitt gibt es zum TDN 4-Deskriptor. Whrend die
schriftlichen Lernerproduktion abverlangt, ist nicht explizit und bleibt zu klren. Man TDN-Stufe 5 vom Testteilnehmer erwartet, dass die Argumentation sachlich und
muss davon ausgehen, dass aufzhlend wiedergegeben nicht beschreiben oder ausfhrlich genug begrndet wird, bedarf es auf der Basis dieser Prfung auf TDN 4, der
vergleichen bedeutet. Erneut stellt sich auch an dieser Stelle die Frage, wie eine sprachlichen Zulassungsvoraussetzung fr deutsche Hochschulen, lediglich der
derartige Grafik in ihrer Beschreibung anzugehen ist bzw. was vom Testteilnehmer sachlichen und z.T. knappen Begrndung im argumentativen Teil. Die
hinsichtlich dessen erwartet wird. Der Deskriptor der letzten Stufe findet die Definitionsdiskrepanz zwischen TDN 5 und TDN 4 ist meines Erachtens unabhngig von
Beschreibung der Grafik(en) nicht verstndlich. Wenn etwas nicht verstndlich ist, dann der Argumentationsweise gro. Interessant ist die Definition des TDN 3-Deskriptors: Im
hat dieses zum einen mit Wortschatz, sprachlichen Mitteln und Korrektheit und zum argumentativen Teil werden Standpunkte/berlegungen deutlich und ggf. durch
anderen damit zu tun, dass die Grafik falsch interpretiert bzw. erst gar nicht verstanden persnliche Wertungen verstrkt. Es ist anzunehmen, dass man dieser Stufe zugeordnet
wurde. Dennoch bleibt zu klren, wie im Einzelkriterium Beschreibung dennoch von wird, weil man nicht sachlich, sondern subjektiv wertet. Dieser stark positiv definierte
Nicht-Verstndlichkeit ausgegangen werden kann. Wenn es darum geht, dass etwas nicht Deskriptor wird jedoch lediglich der Stufe TDN 3 zugerechnet. Unter Niveau TDN 3
verstanden wird, dann knnte das genauso als holistisch betrachtet werden. In dem Fall bewegt sich ein Prfungsteilnehmer dann, wenn im argumentativen Teil
wrde sich dieses Einzelkriterium in dieser Abstufung mit dem holistischen Unterkriterium Standpunkte/berlegungen nicht oder nur in Anstzen verdeutlicht werden. Auch wenn
Gedankengang decken. Das dritte Unterkriterium bei Behandlung der Aufgabe nennt man eine Argumentation in Anstzen durchfhrt, wird dies der Nicht-Behandlung
sich Argumentation. Der argumentative Teil ist hier Inhalt der jeweiligen Deskriptoren. argumentativer Vorgehensweise gleichgesetzt.
Dabei wird in der Aufgabenstellung des vorgestellten Modellsatzes folgendes von den
Interessant ist bei dem Kriterium Behandlung der Aufgabe, dass bei jeder TDN-Stufe
Testteilnehmern abverlangt:
eine Vorgabe fr alle drei Unterkriterien gemacht wird. Anders ausgedrckt, definiert TDN
5 fr die Einzelkriterien Punkte der Aufgabenstellung, Beschreibung und
Argumentation die berschrift: Der Text wird der Aufgabenstellung inhaltlich gerecht.
Was die Wahl des Hochschulorts betrifft, so gibt es unterschiedliche Meinungen:
Fr TDN 4 lautet das quivalent: Der Text wird der Aufgabenstellung inhaltlich
weitgehend gerecht. TDN 3 liegt unter der Basis und die Einzelkriterien mssen
folgendes erfllen: Der Text wird der Aufgabenstellung inhaltlich noch gerecht. Bei dem
Das Studium an einer Hochschule in einer Grostadt ist sehr viel interessanter, denn
man hat dort ein reiches kulturelles Angebot und bessere Chancen, einen Nebenjob als letztes definierten Niveau auf der Bewertungsskala unter TDN 3 wird der Text der
oder einen Praktikumsplatz zu finden. Aufgabenstellung inhaltlich nicht gerecht. Es stellt sich an dieser Stelle die Frage,
inwieweit denn die Leistung in diesen drei Einzelkriterien gleich sein muss. Es ist
durchaus denkbar und zu erwarten, dass ein Prfungskandidat beim Unterkriterium
Das Studium an einer kleinen Hochschule fernab der Grostdte ist effektiver, weil Beschreibung hervorragend abschneidet (TDN 5), im argumentativen Teil aber den
man sich besser auf das Studium konzentrieren kann und einen engeren Kontakt zu Erwartungen nicht gerecht wird. Folglich knnen verschiedene Variationsmglichkeiten
den Lehrkrften und Mitstudierenden pflegt. innerhalb der einzelnen Einzelkriterien existieren, was ihre erforderte und schlielich
erbrachte Leistung anbelangt.

Geben Sie beide Aussagen mit eigenen Worten wieder.


5.4.2.4.3 Das Kriterium: sprachliche Realisierung
Nehmen Sie Stellung zu beiden Aussagen und begrnden Sie Ihre Meinung.

Gehen Sie auf die Situation in Ihrem Heimatland ein. Das letzte gleichwertige und analytisch zu bewertende Kriterium des Bewertungskatalogs
des TestDaF ist ebenfalls durch drei Einzelkriterien definiert. Das erste Einzelkriterium
heit sprachliche Mittel und beinhaltet die Thematik der Kohsion und der
syntaktischen Strukturen. Mit TDN 5 wird eine Lernerproduktion dann bewertet, wenn der
Text ein breites Spektrum an kohsionsstiftenden Mitteln und syntaktischen Strukturen
aufweist. Es erffnet sich aber direkt die Frage, was breit bedeutet und wie breit breit
sein kann. Auf TDN 4 bentigt eine Lernerproduktion lediglich ein begrenztes Spektrum
an kohsionsstiftenden Mitteln und syntaktischen Strukturen. Es bleibt zu klren, worauf

181 182
sich die Begrenztheit des Spektrums bezieht, wenn zum Beispiel kohsionsstiftende Mittel den aktivierten Wortschatz fr ausreichend befindet, dann wird er dem Anspruch gerecht.
und syntaktische Strukturen verwendet werden, die lediglich der Stufe TDN 4 zuzuweisen Der letzte Deskriptor fr unter TDN 3 benennt den Wortschatz als eingeschrnkt.
sind. Obwohl eine Sprachstandsprfung immer ein kleiner Ausschnitt aus der Kompetenz Auch an dieser Stelle knnen berlegungen angestellt werden, worauf Bezug genommen
eines Testteilnehmers ist, ist es interessant zu eruieren, ob eine Lernerproduktion wird. Eine mgliche Interpretation wre, dass der Wortschatz auf den akademischen
letztlich etwas darber aussagen wird. Dennoch kann man ein gezeigtes begrenztes Kontext bzw. die Hochschultauglichkeit bezogen eingeschrnkt ist. Er wird demnach
Spektrum sprachlicher Mittel nicht als falsch definieren. Es wird in den ersten zwei dem Anspruch nicht gerecht. Wenn diese Definition korrekt und akzeptabel wre, dann
Deskriptoren natrlich nichts ber Fehler hinsichtlich dessen erlutert. Fehler sind aber in knnte der ausreichende Wortschatz auf TDN 3 ebenso auf den Hochschulkontext
diesem Fall latent, wenn man bestimmte sprachliche Mittel, die der Testanbieter oder bezogen werden. In diesem Zusammenhang kann von einer Fehldefinition bzw.
der Rater selbst erwartet, nicht verwendet. Bei Deskriptor fr TDN 3 hat der Text Kompetenzverschiebung auf der Skala gesprochen werden, denn mit diesem Deskriptor
einfache Verknpfungselemente und einige Variationen bei den syntaktischen der Skala TDN 3 wird nichts erreicht.
Strukturen, was nicht ausreichend ist und unter der insgesamt bentigten Basis von
Das letzte Einzelkriterium im Bereich der sprachlichen Realisierung nennt sich
TDN 4 liegt. Man kann an dieser Stelle lediglich die Vermutung anstellen, dass einfache
Korrektheit und wird ebenso analytisch bewertet. Der hchsten Stufe gehrt man
Verknpfungselemente zum Beispiel eher die so genannten adusos173 sind, die
diesbezglich an, wenn die Textproduktion eines Prfungskandidaten vereinzelt
Hauptstze miteinander verbinden. Was die Variation in der syntaktischen Struktur
morphosyntaktische, lexikalische und orthografische Fehler enthlt. Welcher Art die
betrifft, so wird nicht definiert auf welchem textlinguistischen Niveau sich dieser Vorgang
Fehler sind, scheint an dieser Stelle nicht definiert zu sein.176 Mglicherweise schliet
bewegt. Es kann auch von komplexeren syntaktischen Strukturen mit wenig Variation die
dieser Deskriptor eventuell auch schwere Fehler ein, die vereinzelt auftreten. Daraus
Rede sein.174 Unter die TDN-Stufe 3 gelangt man, wenn kaum Verknpfungselemente
kann es aber auch an anderen Stellen zu Sanktionen kommen, was aber keineswegs
und nur wenige Variationen bei den syntaktischen Strukturen auftreten. Der
eintreten darf.
Testkandidat benutzt diesem Deskriptor zufolge demnach einfache Hauptstze, denen
sich beispielsweise ein Relativsatz anhngt. Es zeichnet sich bei diesem Kriterium fr den Die Stufe TDN 4 erreicht man, wenn der Text gelegentlich (nicht-systematische)
TestDaF bereits ab, dass es im Sinne der Komplexitt der Sprache und ihrer Produktion morphosyntaktische, lexikalische und orthografische Fehler enthlt, die das Verstehen
auf Unterschiede im syntaktischen Sprachgebrauch bezieht. Im 6. Kapitel werde ich die jedoch nicht beeintrchtigen. Erst an dieser Stelle im Bewertungsraster dieses
Thematik der Komplexitt beschreiben. Es wird deutlich werden, wie schwierig es ist, Unterkriteriums wird der Zusatz Verstehensbeeintrchtigung geliefert. Nach meinem
dass menschliche Rater derartig Komplexes bewerten knnen. Verstndnis gibt es keinen groen Unterschied zwischen Deskriptor TDN 5 und TDN 4,
denn:
Das zweite Einzelkriterium in dieser Kategorie ist der Wortschatz. Schon der bergang
von Deskriptor TDN 5 zu Deskriptor TDN 4 ist meines Erachtens sehr gegenstzlich a) Man kann nicht messen was wann vereinzelt oder gelegentlich ist
definiert. Whrend ein Testkandidat aus der Sicht des Wortschatzes TDN 5 erreicht, wenn b) Der Zusatz Verstehen wird jedoch nicht beeintrchtigt liefert in diesem
dieser weitgehend differenziert und przise ist, wird das Wortschatzspektrum auf TDN 4 Sinne keinerlei neue Information. Auch auf dieser Stufe wird das
zwar als breit aber als teilweise nicht przise definiert. Es stellt sich die Frage, ob der Verstndnis nicht beeintrchtigt.
verwendete Wortschatz auf seine kontextuelle Anwendung hin untersucht wird. Man
msste hier unter anderem nach Register bewerten, wenn es um akademische bzw.
hochschulbezogene Kontexte geht. Natrlich kann man aber auch beim TestDaF nicht Im Deskriptor TDN 3 geht es bereits um die Beeintrchtigung des Verstehens. Es wird
erwarten, dass die Lernerproduktion aus rein akademischem Vokabular besteht, da der aber nicht ersichtlich, ob es schlielich um die Rezeption eines jeden Raters geht. ber
TestDaF lediglich Bezug zu allgemeinen Kommunikationssituationen aus dem die Quantitt der Fehler wird nichts besagt, es geht lediglich um den Umstand, dass das
Hochschulleben herstellt, die aber ohne Fachbezug sind.175 Selbst dieses scheint aber ein Verstehen beeintrchtigt wird. Auch auf welche Art und Weise das Verstehen
schwieriges Vorhaben zu sein. Bereits unter 5.1.2.3. wurde diskutiert, welche Probleme beeintrchtigt wird, kann diesem Deskriptor nicht entnommen werden. Die letzte
die Bewertung des Wortschatzes mit sich bringt. Auch in diesem Zusammenhang scheint Niveazuweisung spricht in diesem Zusammenhang von Fehlern, die das Verstehen
die Bewertung dieses Einzelkriteriums in der Willkr der Rater zu liegen. Im Gegensatz deutlich erschweren. Auch hier gilt zu klren, um wessen Verstehensprobleme es geht
zur breiten aber teilweise nicht przisen Wortschatzverwendung auf TDN 4 ist diese auf und welche Fehler dazu fhren. Es ist nach meinem Verstndnis ersichtlich und logisch
TDN 3 ausreichend. Man muss direkt fragen: ausreichend wofr? Da diese Stufe erst begrndbar, dass nicht die gleichen Fehler bei allen Ratern die gleichen
einmal nicht ausreichend ist, um die sprachliche Hochschulzugangsberechtigung zu Verstehensprobleme mit sich fhren. Demnach besteht auch an dieser Stelle erneut eine
erlangen, steht dieser Deskriptor kontrr dazu und muss konkretisiert werden. Mit der verkappte holistische Bewertung, denn diese Umstnde sind im Auge des Betrachters
Note ausreichend wird der Grenzbereich Basis definiert. Wenn der TDN 3-Deskriptor zu suchen und zu finden

173 Die Konnektoren aber, denn, und, sondern, oder


174 Der Begriff der Komplexitt wird im 6. Kapitel ausfhrlich angefhrt werden.
175 Vgl. Krekeler, C. (2005): Grammatik und Fachbezug in Sprachtests fr den Hochschulzugang. Dissertationsschrift.
Universitt Duisburg Essen. http://dueplico.uni-duisburg-essen.de/servlets/DocumentServlet?id_12458 176 Auf dem von mir besuchten Workshop des TestDaF-Instituts am 3./4. 2007 in Fulda wurde unter anderem angesprochen,
dass zu Korrektheitsfehlern unter anderem falsche Artikel oder falsche Endungen zhlen.

183 184
Im Folgenden soll die Bewertung der bereits vorgestellten Lernerproduktion angefhrt
werden. Es soll diskutiert werden wie Rater des TestDaF-Instituts diese Textproduktion
Ich habe bereits meine Ansicht darber ausgedrckt, dass das holistische
im Rahmen der standardisierten Prfung eingestuft haben.
Bewertungskriterium Gesamteindruck den Ratern einen groen Ermessensspielraum
gewhrt. Je nach Auffassungsvermgen und Profil urteilt jeder Rater individuell. Dabei
besteht aber hinsichtlich des Bewertungskatalogs die Gefahr, dass teilweise doppelt
5.4.3 Bewertung einer schriftlichen Textproduktion bewertet wird, denn in diesem holistischen Kriterium sind Elemente der analytischen
Kriterien bzw. Unterkriterien inbegriffen. Interessant ist auch die Information, die ich am
teilgenommenen Workshop des TestDaF-Instituts bekommen habe:177 Rater drften
Die Aufgabenstellung des Modellsatzes 02 wurde bereits unter Kapitel 5.4.1.1 angefhrt whrend der Bewertung nichts auf den Textproduktionen vermerken bzw. korrigieren, um
und dokumentiert. Die Lernerreaktion darauf ist im Folgenden im Kapitel 5.4.1.2. den Halo-Effekt so gut es geht auszuschlieen. Aus diesem Grund werde ihnen eine
dargestellt worden (Text 3). An dieser Stelle soll die Bewertung dieser Textproduktion Tabelle gereicht, in der sie fr jedes Einzelkriterium ihre Bewertungen anhand von
betrachtet werden. Es ist nicht ganz klar, ob die anzufhrende Bewertung die Summe aus Begrndungen samt Beispielen notieren knnen.
zwei Raterurteilen oder nur das Ergebnis eines einzelnen Raters ist. An keiner Quelle
konnte das explizit festgemacht werden. Dieser Umstand soll aber an dieser Stelle Dem Einzelkriterium des Leseflusses wird fr vorliegende Lernerproduktion das
unbercksichtigt gelassen werden. Hauptaugenmerk soll sein, wie und ob selbst ein Prdikat TDN 4 gegeben. Der Rater vermerkt, welche sprachlichen Mittel und
einzelner Rater die Vorschriften des TestDaF-Instituts einhlt bzw. verzerrt. Ich werde syntaktische Strukturen seinen Lesefluss behindern. Dieser holistische Eindruck findet
die Kriterien samt ihren Einzelkriterien jeweils separat anfhren und bezglich ihrer sich aber erneut in dem Kriterium der sprachlichen Realisierung, im Unterbereich
Bewertung errtern. Kohsion und syntaktische Strukturen wieder. Das zweite Einzelkriterium
Gedankengang wird hier auf der Stufe TDN 3 definiert. Der Rater vergibt aus seiner
Sicht demnach ein Prdikat, das unter dem erforderlichen Niveau fr die
Gesamteindruck
Universittszulassung liegt. Der Vermerk Kooperation notwendig, um dem
Einzelkriterien TDN Begrndung/Beispiele Gedankengang folgen zu knnen lsst die Frage aufkommen, mit wem der Rater zu
kooperieren vermag. Unverstndlich ist ebenso die Irritation des Raters bezglich der
1. Lesefluss 4 Missverstndlicher Gebrauch sprachlicher Mittel, z.B. 3 ff. Meinungsmarkierung. Auch das wird im analytischen Unterkriterium Argumentation
Zwar...aber...auch (?), 8 obwohl (=weil?), 11 aber (?), 16 wiederholt vermerkt und folglich entscheidend bei der Bewertung sein. Die Vermutung,
ber (=berhaupt?) dass der Gesamteindruck schlielich an einzelnen Fehlern festgemacht wird, die dann
Fehlerhafter Satzbau sowie andere Fehler beeintrchtigen analytisch erneut angefhrt werden, besttigt sich erneut. Es stellt sich die Frage, was
den Lesefluss gelegentlich unter Gesamteindruck zu verstehen ist, wenn es als holistisches Kriterium gilt. Das dritte
Unterkriterium Textaufbau wird ebenfalls holistisch bewertet. Dabei ist nicht
2. 3 Kooperation notwendig, um dem Gedankengang folgen zu
offensichtlich, ob es um die Textkohrenz geht, die bereits an dieser Stelle eruiert
Gedankengang knnen, da die Abschnitte inhaltlich zusammenhangslos
werden soll, obwohl das Kriterium der sprachlichen Realisierung diese sicherlich unter
bleiben. Irritation aufgrund fehlender Markierung der
sprachliche Mittel mit einbezieht.
Fremdmeinung (12ff & 20 ff). Dies fhrt dazu, dass bei der
Lektre der Eindruck entsteht, es handele sich in beiden Die Bewertung hinsichtlich des Textaufbaus bei vorliegender Textproduktion wird
Fllen um seine/ihre- freilich widersprchliche- Meinung. lediglich mit der Definition der holistischen TDN-Stufe 3 der Text weist Brche auf
bewertet. Diese Feststellung kann sich an dieser Stelle jedoch nicht auf ein Textformat
26 sieht ganz anders aus- wieso?; 26 f und 27
beziehen, da das TestDaf-Institut darber explizit nichts besagt und fordert. Kommentiert
Grostadt/Ruf (Wiederholung)
wird diesbezglich dass Einleitungen und berleitungen fehlen oder dass einzelne
3. Textaufbau 3 Einleitung und berleitungen fehlen, allerdings kann der Abschnitte nicht verbunden sind. Im Unterkriterium sprachliche Mittel des Kriteriums
erste Satz als Einfhrung in die zu beschreibende Tabelle sprachliche Realisierung wird der Bereich der Kohsion aber eigenstndig behandelt.
betrachtet werden. Text weist Brche auf; keine
Verbindung der einzelnen Abschnitte (10, 20). berleitung
zur Situation im Heimatland ist zwar sprachlich markiert
und hat somit kohsive Funktion (26 sieht ganz anders
aus), inhaltlich/logisch jedoch unklar: Anders als wo? Kein
Bezug zu dem zuvor Gesagten (-> Gedankengang).

Tabelle 40: Kriterium Gesamteindruck im TestDaF 177 Informationen aus dem Workshop Beurteilung schriftlicher und mndlicher Leistungen im TestDaF am 3./4. 3. 2007 in
Fulda

185 186
Behandlung der Aufgabe genannt werden, jedoch lckenhaft und zudem aufzhlend sind. Wichtig ist bei diesem
Kommentar der Hinweis, dass durch falsche Kohsionsmittel die Aussage verflscht
Einzelkriterien TDN Begrndung/Beispiele wird und zudem noch auf das Unterkriterium des Leseflusses hingewiesen wird. Weshalb
(Die inhaltliche Umsetzung wirkt abgearbeitet, kein an dieser Stelle auf Kohsion eingegangen wird, ist nicht angemerkt, obwohl diese im
diskursiver Text Kriterium sprachliche Realisierung bercksichtigt wird. Die Gefahr der
Doppelsanktionierung besttigt sich in hiesigem Fall, denn der Gebrauch der
1. Punkte der 4 Fremdmeinungen paraphrasiert, jedoch nicht als solche
Kohsionsmittel wird in drei verschiedenen Kriterien erwhnt, die unabhngig
Aufgabenstellung markiert; die Stellungnahme fehlt bzw. bleibt implizit;
voneinander sind. Irrefhrend ist fr mich zudem der Kommentar fr das Unterkriterium
insgesamt zu kurz behandelt; die Aufgabe wird
Argumentation des Deskriptors, der die TDN-Stufe 3 definiert. Der Deskriptor, dem die
abgearbeitet
argumentative Leistung zugeordnet wurde, definiert: Im argumentativen Teil werden
2. Beschreibung 3 Thema der Grafik wird genannt; Stdte werden als Standpunkte/berlegungen deutlich und ggf. durch persnliche Wertungen verstrkt. In
Beispiele angegeben, jedoch lckenhaft; Hamburg fehlt der Diskussion der einzelnen Deskriptoren wurde bereits hinterfragt und darauf
z.B. als Gegenbeispiel eingegangen, wieso gerade dieser Deskriptor der nicht ausreichenden Stufe TDN 3
zugeteilt wird. Im vorliegenden Fall gibt es sowohl einen Widerspruch zwischen
Die Daten der Grafik werden aufzhlend und nicht
Kommentar und Deskriptor, als auch innerhalb des Kommentars selber. Whrend der
vollstndig genannt, falsche Kohsionsmittel verflschen
Bewerter Meinungen als gut paraphrasiert und zu beiden Positionen Argumente
die Aussage (s. auch Lesefluss)
angefhrt sieht, ist er insgesamt jedoch irritiert, was die eigene oder die fremde
3. Argumentation 3 Meinungen gut paraphrasiert, zu beiden Positionen werden Meinung innerhalb der Lernerproduktion anbelangt. Die Irritation hat der Bewerter
Argumente angefhrt. Insgesamt jedoch irritiert, dass bereits im holistischen Unterkriterium Gedankengang (Oberkriterium: Gesamteindruck)
keine Markierung der Fremdmeinungen erfolgt. Dadurch in die Bewertung einbezogen. Der Widerspruch, dass gut paraphrasierte Meinungen zu
bleibt schlielich unklar, welche Haltung er/sie vertritt, Irritationen fhren, bleibt unklar.
eigene Meinung bleibt unklar (s. Gedankengang). Daher
Sprachliche Realisierung
findet kein Abwgen statt, die Schreibhandlung
Einzelkriterien TDN Begrndung/Beispiele
argumentieren ist nur teilweise umgesetzt. Situation im
Heimatland ist nicht in Argumentation eingebunden. 1. Sprachliche Mittel 4

Kohsion 4 Verknpfungselemente sind vorhanden, werden


jedoch oft falsch angewendet (s. Lesefluss): 7,
Tabelle 41: Kriterium Behandlung der Aufgabe im TestDaF
13, 14, 23, 28
Das nchste Kriterium, nach dem bewertet werden soll, ist die Behandlung der Syntaktische 3
Einerseits oft Hauptstze, andererseits begrenzte
Aufgabe. Hier soll die Ausfhrlichkeit und Komplexitt, mit der die Aufgabenstellung Strukturen
Variationsbreite (dass, weil, denn, nicht
behandelt wird erfasst werden. Bewertet wird danach, inwieweit die geforderten
nur...sondern auch)
Schreibhandlungen elaboriert sind und auf die Punkte der Aufgabenstellung eingegangen
wird178. Insgesamt wird fr vorliegende Lernerproduktion die inhaltliche Umsetzung als 2.Wortschatz 4 Breit, aber hufig nicht ganz treffend verwendet,
abgearbeitet empfunden, so dass kein diskursiver Text zustande kommt. Wie sich dies jedoch i. d. R. verstndlich (s. Korrektheit:
konkret auf die drei Unterbereiche dieses Kriteriums uert werde ich im Folgenden Lexikfehler): 14 Kontakt aufnehmen, 15
dokumentieren. Zunchst wird nicht allen Unterkriterien dasselbe Prdikat zugeordnet. verschiedene Kulturen, 17 Kommunikation, 26
Fr die Punkte der Aufgabenstellung wird die TDN-Stufe 4 vergeben, die durch den Karriere
Deskriptor alle in der Aufgabenstellung genannten Punkte werden behandelt, manche
Nicht immer angemessen: 10 unheimlich, 25
jedoch zu knapp vertreten wird. Der Rater kommentiert, dass der Prfungskandidat
richtig
Fremdmeinungen paraphrasiert, dass seine eigene Stellungnahme fehlt bzw. implizit
bleibt und dass im Groen und Ganzen die Aufgabe abgearbeitet wirkt. Die 3. Korrektheit 3 Wiederholt morphosyntaktische Fehler, die das
Gegenberstellung der beiden Stellungnahmen, die in dieser Lernerproduktion Verstehen z.T. beeintrchtigen: 14f
eingebunden ist, indem Bezug auf die Wichtigkeit eines Nebenjobs oder einer kennt...lernen, 18 existiert ber kein Problem, 21
Praktikumsstelle genommen wird, ist der Bewertung zufolge nicht explizit genug. Das finanzielle Lastung erleichtern
nchste Unterkriterium Beschreibung untersucht die Behandlung der Grafik und ihrer
Lexik: 24 Ruhigkeit (=bergeneralisierung), 7 im
Informationen. Diese Lernerproduktion wird hinsichtlich dieses Unterkriteriums auf TDN 3
Gegenteil dazu (statt Gegensatz)
eingestuft. Das wird damit begrndet, dass das Thema der Grafik und Stdte zwar

178 TestDaF, Bewertungsanleitung zum Modellsatz 02. 10/2005. S. 8 Tabelle 42: Kriterium sprachliche Realisierung im TestDaF

187 188
Es soll zunchst auf die verschiedenen sprachlichen Mittel eingegangen werden. Was betrachteten Facetten gewinnen181. Dazu zhlen die Leistungsfhigkeit der beurteilten
die Kohsion betrifft, so wird im Kommentar auf die Existenz von Personen, die Strenge der Beurteiler und die Schwierigkeit der Aufgaben bzw. der
Verknpfungselementen hingewiesen, diese jedoch oft falsch angewendet. Dennoch Kriterien. Eckes (2006) stellt das Multifacetten-Korrekturverfahren den traditionellen
wird entgegen des Kommentars das Prdikat TDN 4 dafr vergeben. Der Deskriptor Messverfahren (Drittkorrekturverfahren und arithmetisches Mittelungsverfahren)
dieser Stufe fr das Kriterium der Kohsion besagt nichts ber die richtige oder falsche gegenber. Whrend die traditionellen Messverfahren die Rohdaten, d. h. die
Anwendung. Es wird, wie im Vorfeld bereits diskutiert, lediglich auf die Begrenztheit Bewertungen der Rater, unmittelbar fr die Stufenzuweisung verwenden, werden im
kohsionsstiftender Mittel Bezug genommen. Der Kommentar und seine Stufenzuordnung Multifacetten-Korrekturverfahren die Bewertungen der einzelnen TDN-Stufen nach den
ist insofern nicht nachvollziehbar. Prinzipiell existieren Verknpfungselemente, jedoch einzelnen Kriterien kalibriert. Somit sollen Aussagen ber die Strenge bzw. Milde der
werden diese, dem Kommentar entsprechend, oft falsch angewendet. Die Frage ist an einzelnen Bewerter gemacht werden, um faire Durchschnitte berechnen zu knnen.182 Ich
dieser Stelle, ob entgegen der Kompatibilitt des Deskriptors und des Kommentars, eine werde das genaue Vorgehen des TestDaF-Instituts nicht weiter ausfhren, da sich mein
derartige Feststellung als angemessen betrachtet werden kann. Im Bereich der Fokus in erster Linie in den gesetzten Bewertungskriterien, ihrer Definition und schlielich
syntaktischen Strukturen wird das Prdikat TDN 3 vergeben, da es zum einen zwar ihrer Validitt liegt. Die Probleme, die sich hieraus ergeben, sind angefhrt worden und
Hauptstze gibt, diese aber begrenzt variiert werden. Der Deskriptor dieser Stufe lautet: auch die Facette der Rater wurde in Kapitel 4.5.3 ausfhrlich dokumentiert.
Der Text hat einige Variationen bei den syntaktischen Strukturen. Hingegen knnte
anhand dieses Kommentars auch der Deskriptor der TDN 4 geltend gemacht werden, wo
der Text ein begrenztes Spektrum an syntaktischen Strukturen aufweist. Insgesamt
werden Kohsion und syntaktische Strukturen aufsummiert und fr das Kriterium
sprachlicher Mittel erlangt diese Lernerproduktion die TDN-Stufe 4.

Das Kriterium des Wortschatzes wird fr die vorliegende schriftliche Lernerproduktion


als breit, aber hufig nicht ganz treffend verwendet, jedoch in der Regel verstndlich
dokumentiert und mit TDN 4 honoriert. Der Deskriptor dieser Stufe definiert einen
breiten Wortschatz, der teilweise jedoch nicht przise ist. Der Zusatz im Kommentar
hufig nicht ganz treffend, jedoch in der Regel verstndlich ist erneut ein Widerspruch,
der aber fr die Stufenzuordnung nicht mageblich zu sein scheint, denn es wird speziell
auf Lexikfehler verwiesen. Hier wird nmlich Prdikat TDN 3 vergeben, denn aufgrund
wiederholter morphosyntaktischer und lexikalischer Fehler wird das Verstehen zum Teil
beeintrchtigt.179 Die Definition des Deskriptors bezieht sich jedoch auf die
Beeintrchtigung des Verstehens, ohne zu verdeutlichen in welchem Mae und bei wem
dies eintritt. Die Definitionen der einzelnen Deskriptoren und die Schwierigkeit der
Zuordnungen wurden im Vorfeld bereits ausfhrlich diskutiert.

Fazit
Ich habe in der vorangegangenen Diskussion des TestDaF versucht, die Schwachstellen
und die Widersprchlichkeit innerhalb der Kriterien und dem Auffassungsvermgen von
Korrektoren anzufhren. Was nun die vorgestellte Lernerproduktion und die Bewertung
anhand der neun Kriterien betrifft, so kann mit bloem Auge das Gesamtergebnis der
einzelnen Stufenzuordnungen je nach Kriterium erfolgen. Das TestDaF-Institut kalkuliert
die Einzelergebnisse der neun Bewertungskriterien, die unabhngig voneinander sind, auf
der Basis testmethodischer Berechnungen, um die Stufe der Kompetenz des schriftlichen
Ausdrucks anzuzeigen.180 Benutzt wird hierbei die Multifacetten-Raschanalyse, der ein
probabilistisch testtheoretisches Modell zugrunde liegt. Dabei will dieses testmethodische
Konstrukt eine mglichst objektive und przise Information ber die Elemente der

179 Im 6. Kapitel sollen die Problematik und Schwierigkeit von Kategorisierungen von Lexik und Morphologie im Sinne ihrer
ganzen Komplexitt aufgezeigt werden 181 http://www.testdaf.de/html/publikationen/pdffiles/Eckes_FaDaF_Essen.pdf , S. 12, Zugriff am 25.10.2006
180 TestDaF, Bewertungsanleitung zum Modellsatz 02. 10/2005. S. 8 182 http://www.testdaf.de/html/publikationen/pdffiles/Eckes_FaDaF_Essen.pdf , S. 25, Zugriff am 25.10.2006

189 190
6 Resmee und Ausblick In diesem Kapitel soll die Arbeit abgerundet werden, indem selektive Schwachstellen
nun am Beispiel fundierter Anstze der Komplexitt im Mittelpunkt stehen. Hauptziel ist
es Verbesserungsvorschlge zu machen, um der Validitt so nah wie mglich zu
In diesem abschlieenden und auf einen weiterfhrenden Gedanken weisenden Kapitel kommen. Wie gemessene Leistungen interpretiert werden, ist die Kernaussage der
soll das bisher Erarbeitete zunchst zusammengefasst werden. Ausblickend soll hier nun Validitt. Ich habe in dieser Arbeit die Bewertungskriterien des Goethe-Instituts und des
der Fokus nicht mehr auf die testtheoretische Betrachtungsweise gelegt werden. Es TestDaF-Instituts fr den schriftlichen Ausdruck zunchst vorgestellt, dokumentiert,
wurde im Laufe dieser Arbeit an vielen Stellen deutlich, dass anhand der kritisiert und schlielich anhand originaler Interpretationen diskutiert. Zu betonen ist,
testtheoretischen Modelle die Schwierigkeit, Komplexitten einer Sprache zu eruieren, dass diese Arbeit nicht empirisch fundiert ist, sodass die Resultate lediglich einer kleinen
nicht einfach zu bewltigen ist. Deshalb soll weiterfhrend eine linguistische authentischen Stichprobe unterliegen. Es handelt sich vielmehr um eine kritische
Betrachtungsweise aufgezeigt werden, die exemplarisch die Problematik der Auseinandersetzung, wobei die einzigen Daten, die mir zur Verfgung standen, lediglich
Sprachkomplexitt aufzeigt. Anhand des Kriteriums der Korrektheit soll dies verdeutlicht die jeweiligen Bewertungsraster der Testanbieter waren. Insofern habe ich versucht aus
werden. Auerdem wird das alternative Bewertungssystem des griechischen der simplen Betrachtung der Bewertungsraster die Schwachstellen herauszuarbeiten.
Staatszertifikats vorgestellt und kurz umrissen. Zusammenfassend werden die Zustzliche aus internen Quellen erhaltene Informationen habe ich zwar mit
verschiedenen und wichtigsten Facetten der in der Praxis blichen Bewertung eingeflochten, jedoch bin ich der Ansicht, dass derartige latente Informationen, die nicht
schriftlicher Lernerproduktionen im Sinne der Validitt nochmals aufgezeigt. in den Rastern beinhaltet sind, unbercksichtigt gelassen werden mssten. Fr die
Bewertung schriftlicher Lernerproduktionen muss ein System geschaffen werden, dass
keiner weiteren Anweisung und zustzlicher interner Richtlinien bedarf, um der Validitt
mglichst nah zu kommen. Ziel dieser Arbeit ist die hchstmgliche Validitt zu eruieren
Zur Aufgabe dieser Arbeit gehrt die Untersuchung der Validitt der Bewertungskriterien und ggf. Vorschlge zu machen, auf welche Art und Weise diese erreicht werden kann.
fr den schriftlichen Ausdruck von Lernerproduktionen auf den Niveaus B2 und C1 der
GER. Messick (1983:13) definiert: Validity is an integrated evaluative judgement of the Die Validitt eines Tests kann natrlich bereits im Vorfeld beeintrchtigt werden, wenn
degree to which empirical evidence and theoretical rationales support the adequacy and das zu messende Konstrukt anhand der Testentwicklung und der Aufgaben nicht
appropriateness of inferences and actions based on test scores or other modes of entsprechend reprsentiert und abgebildet wird. Im Sinne dieser Arbeit bedeutet dies,
assessment. dass eine fremdsprachliche Leistung in Abhngigkeit vom Kontext und vom Aufgabentyp
variieren kann. Daher gilt es genau festzulegen, wodurch das zu messende Konstrukt
Fr die Thematik Bewertungskriterien schriftlicher Lernerproduktionen B2/C1 und ihre und worauf bezogen reprsentiert wird. Am Anfang dieser Dissertation wurde
Validitt sind verschiedene Bereiche bearbeitet worden. Zu Anfang wurde der diesbezglich der GER vorgestellt, der seit 2001 fr Sprachzertifizierungen in Europa als
Gemeinsame Europische Referenzrahmen fr Sprachen vorgestellt, der unter anderem Referenzrahmen fungiert. Demnach mssen sich Testanbieter im Bereich von
als Basis fr die Erstellung von Sprachprfungen gilt. Dabei wurden seine Kompetenz- Sprachprfungen daran orientieren und den definierten Kann-Beschreibungen (Can-Dos)
und Niveauzuschreibungen fr die Zwecke dieser Arbeit erlutert. Im Anschluss daran der jeweiligen Niveaus Rechnung tragen, wenn es darum geht, Tests bzw. Prfungen zu
habe ich die American Psychological Association (APA) angefhrt, auf die ich mich in der erstellen. Dabei sollen die Aufgaben auf das zu prfende Niveau abzielen. Im Sinne der
gesamten Arbeit als Referenzrahmen hinsichtlich testtheoretischer und testpraktischer Validitt mssen die gesetzten und definierten Bewertungskriterien in erster Linie im
Fragen und Gegebenheiten berufe. Zustzlich wird die Association of Language Testers in Zusammenhang mit der Aufgabenstellung bzw. dem angestrebten Niveau stehen.
Europe (ALTE) knapp umrissen. Die Arbeit und Zwecke der Testanbieter, deren Weiterhin gilt zu berdenken, ob die definierten und bereits vorgestellten in der heutigen
Bewertungskriterien fr den schriftlichen Ausdruck in dieser Arbeit untersucht werden, Praxis blichen Bewertungskriterien diesen Ansprchen gerecht werden. Was zu fehlen
stehen in den Kapiteln 2.4 und 2.5 im Mittelpunkt. Das dritte Kapitel beschftigt sich mit scheint, ist ein linguistischer Ansatz. Dazu zhlt die Komplexitt einer Sprache, die sich
Modellen des Spracherwerbs, wobei von der generellen Theorie zu den spezifischeren fr in verschiedenen Bereichen wie z.B. im Wortschatz, in den syntaktischen Strukturen und
den Fremd- und Zweitspracherwerb bergegangen wird. Auerdem bildet der schriftliche in der Morphologie uert. Den Begriff der Komplexitt gebraucht der TestDaF nach
Ausdruck in der Fremdsprache das Unterkapitel 3.4, dem die Definition des Eckes hinsichtlich seiner Anforderung der schriftlich zu erarbeitenden Aufgabe, die
Kompetenzbegriffs folgt (Kap. 3.6). Eine wichtige Grundlage fr die Thematik dieser verschiedene Schreibhandlungen abverlangt, dabei bleibt aber unbeantwortet, wie diese
Dissertation sind Testtheorie und ihre Gtekriterien. Das 4. Kapitel bildet zudem noch zu verstehen ist.183 Nach Edmonds wird Komplexitt auf abstrakt-theoretischer Ebene
den Schwerpunkt der Ratingverfahren und der menschlichen Rater. Das eigentliche und definiert als die Eigenschaft eines Modells, das es schwierig macht, das gesamte
zentrale Kapitel ist das 5. Kapitel. Hier werden die einzelnen Prfungen fr das B2- und Verhalten in einer gegebenen Sprache zu formulieren, auch wenn die gesamte
C1-Niveau vorgestellt. Zentraler Punkt ist der schriftliche Ausdruck. Dabei werden sowohl angemessene Information ber Teilkomponenten und ihrer Beziehung zueinander
die Aufgabenstellungen als auch die zugrunde liegenden Bewertungskriterien vorgestellt, gegeben ist184. Anhand dieses allgemeingltig theoretischen Ansatzes wird ersichtlich,
errtert und wo ntig im Sinne der Validitt kritisiert. dass Sprache derart komplex ist, dass sie sehr schwer zu erfassen ist. Somit wird sie in

183 Vgl. S. 156 ff in dieser Arbeit


184 In Zusammenhang dieser Arbeit bezieht sich der abstrakte Sprachbegriff von Edmonds auf die zu prfende Fremdsprache,
in hiesigem Fall Deutsch

191 192
Teilkomponenten aufgebrochen. Das Goethe-Institut und das TestDaF-Institut unterteilen zusammen setzt, angefhrt werden. Die Zusammensetzung dieses Kriteriums stellt
Sprache in diesem Sinne folgendermaen:185 bereits die Konstruktvaliditt in Frage. Syntax und Morphologie sollten keineswegs mit
Interpunktion und Orthografie vermengt werden.187 Diesbezglich stellt sich die Frage,
was man mittels derartiger Bewertungskriterien zu messen vermag, wenn z.B. nicht von
Goethe-Institut TestDaF-Institut syntaktischer oder morphologischer Komplexitt die Rede ist, sondern lediglich von
Inhaltliche Vollstndigkeit Gesamteindruck Deskriptoren, die anhand von mehr oder weniger feststellbaren Fehlern entsprechende
Punktzuordnungen erlauben. Fehler werden beim Goethe-Institut an der
a) Lesefluss Verstndnisstrung und der Verstndnisbeeintrchtigung festgemacht.188
b) Gedankengang

c) Textaufbau KRITERIUM 4 Punkte 3 Punkte 2 Punkte 1 Punkt 0 Punkte


IV

Textaufbau und Kohrenz Behandlung der Aufgabe Korrektheit

a) Punkte der Aufgabenstellung *Morphologie kaum Einige deutliche Einige Unzhlige Unzhlige
feststellbare Fehler, die das Fehler, die Fehler, die Fehler, die
b) Beschreibung *Syntax
Fehler Verstndnis den das das
c) Argumentation *Orthografie, aber nicht Leseprozess Verstndnis Verstndnis
Interpunktion beeintrchtigen stellenweise erheblich unmglich
Ausdrucksfhigkeit Sprachliche Realisierung
behindern stren machen
a) Kohsion

b) Syntaktische Strukturen
Tabelle 44: Kriterium Korrektheit des B2 Zertifikats des Goethe-Instituts
c) Korrektheit

Korrektheit
Wenn eine zu messende bzw. zu bewertende Lernerproduktion richtige aber einfache
syntaktische Strukturen nach dem Prinzip Subjekt-Prdikat-Objekt anwendet, bekommt
Tabelle 43: berblick der Kriterien beim Goethe-Institut und TestDaF- Institut sie gem der gesetzten Deskriptoren dieses Kriteriums die maximale Punktzahl. Anders
ausgedrckt kommt es bei einer derartigen Lernerproduktion fr das Niveau B2 zu
einem Punktabzug, obwohl der hher zu erwarteten Komplexitt nicht gerecht wird. Es
Unabhngig davon, ob es sich um analytische oder holistische Bewertungssysteme stellt sich die Frage, wie dem entgegen eine komplexere aber fehlerbehaftete Produktion
handelt, bilden diese unterschiedlich definierten Teilkomponenten fr die Testanbieter bewertet wrde, die diesem Niveau eher entsprche. Nach Chomskys Generativer
das Abbild des schriftlichen Ausdrucks ab. Dabei muss aber deren Interaktion und Grammatik wird syntaktische Komplexitt bei Crystal (1991:151) als der Bezug innerhalb
Zusammenhang gewhrleistet werden. Man stelle sich das Abbild als ein Puzzle vor, das eines Satzes und als der Bezug von Satz zu Satz definiert:
erst durch das Verbinden der zugehrigen Teile zum Vorschein kommt. Somit sollte die
(...) a generative grammar is a set o FORMAL RULES which PROJECTS a finite set of
Gesamtheit die Summe der sie ausmachenden Teile sein. Im Sinne Edmonds gilt es die
sentences upon the potentially infinite set of sentences that constitute the language as a
Komplexitt auf ein Sprachmodell anzuwenden. Dabei wird sie von Nicht-Wissen
whole, and it does this in an EXPLICIT manner, ASSIGNING to each a set of STRUCTURAL
unterschieden.186 Folglich gilt es, ein Bewertungssystem zu definieren, das das Ziel der
DESCRIPTIONS (...).
Prfung zum Inhalt hat. Im Mittelpunkt der vorliegenden Arbeit ist das zu messende
Kriterium die Kompetenz im schriftlichen Ausdruck. Tschirner (2001:121ff.) definiert in Das DESI-Projekt bezieht bei der Betrachtung grammatischer Strukturen, deren
diesem Zusammenhang die verschiedenen Komponenten als Basis fr die Umfang und das Ma an Korrektheit, mit dem sie eingesetzt werden, ein. Es werden bei
Bewertungssysteme, wobei diese so bestimmt sein mssen, dass sie am besten diesem Bewertungssystem, das eine semi-kreative schriftliche Produktion bewerten soll,
unterschiedliche Niveaustufen unterscheiden knnen. Zur Veranschaulichung dieser neben anderen, verschiedene Satzmuster, wie Hypotaxe und Parataxe, und
Definition soll das Kriterium Korrektheit des Goethe-Instituts des B2-Zertifikats, das Flexionsphnomene bercksichtigt.189 Auch das TestDaF-Institut zeigt bei der
sich aus den Komponenten Morphologie, Syntax, Interpunktion und Orthografie

187 Auf Seite 119 ff vorliegender Arbeit wurde diese Problematik erlutert. Auch wenn Profile die Bereiche Grammatik,

185 Es wurde bereits ausfhrlich zu diesen analytischen bzw. holistischen Bewertungsrastern Bezug genommen. An dieser Orthografie und Interpunktion unter dem Oberbegriff Korrektheit zusammen fasst, wird nichts ber die Vereinbarung
Stelle werden die gesetzten Kriterien nochmals angefhrt, um den Begriff der Komplexitt hinsichtlich von Sprache zu dieser Elemente erwhnt.
definieren und auszufhren. 188 Goethe-Zertifikat B2: Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining 090707. S. 7
186 Im Zusammenhang dieser Arbeit knnte das als Can-NOT-Do definiert werden. 189 Aus dem Word-Dokument des DESI-Kodierhandbuchs von 2004, S. 9 (Heringer, Personalkommunikation)

193 194
sprachlichen Realisierung im Unterkriterium syntaktische Strukturen Anstze, wenn Rater Die Komplexitt mehrdeutiger Wrter oder auch idiomatischer Redewendungen wird
den Fragen nachgehen sollen, ob immer die gleichen einfachen Stze (z. B. Hauptstze) bereits dadurch erzielt, dass sie verschiedene semantische lexikalische Eintrge
geschrieben oder auch Nebenstze verwendet werden bzw. immer die gleichen verzeichnen.193 Whrend die morphologische Komplexitt von Wrtern durch eine einzige
Nebenstze geschrieben oder die Konstruktionen variieren190. semantische Reprsentation gekennzeichnet wird, knnen verschiedene Morpheme oder
Teile eines Wortes verschiedene semantische Reprsentationen haben. Wenn
Rater bzw. Bewerter knnen im Sinne der Testtheorie nicht besser sein als das ihnen zur
idiomatische Wendungen als einzelne Einheiten dargestellt werden, dann wird die
Verfgung gestellte Bewertungsraster, das ihnen als Messinstrument dienen soll. Wenn
syntaktische Komplexitt durch deren lexikalische Reprsentation begrndet. Cutler
Rater unbeachtet der definierten Kriterien bewerten, dann wird automatisch die
betont, dass lexikalische Komplexitt keinen Effekt auf die Schwierigkeit lexikalischen
Kriteriumsvaliditt verletzt, unabhngig davon, ob sie besser oder auch objektiver als das
Zugangs ausbt. Was die lexikalische Mehrdeutigkeit als Beispiel syntaktischer
zugrunde liegende Bewertungsraster in ihrer Bewertung sind. Das definierte
Komplexitt anbelangt, so besteht sie zunchst aus der systematischen und der
Bewertungssystem eines jeden Testanbieters stellt in der Kriteriumsorientierung die Basis
unsystematischen Mehrdeutigkeit Die systematische Mehrdeutigkeit bezieht sich auf
fr die Konstruktvaliditt dar. Diesbezglich wird das anhand der Bewertungskriterien
Wrter, die zwar verwandt sind aber verschiedenen Klassenzuordnungen unterliegen.
definierte Konstrukt als gegeben betrachtet. Insgesamt gilt es ein Bewertungssystem zu
Unsystematische Mehrdeutigkeit definiert gleiche Wrter, die aber unabhngige
definieren, das das Ziel der Prfung zum Inhalt hat. Dabei ist Komplexitt nach Edmonds
Bedeutungen haben (Beispiel: die Bank). Weiterhin kann lexikalische Mehrdeutigkeit
die globale Charakteristik eines Modells, die relativ zur angewandeten Sprache, zur
auch durch Wrter definiert werden, die fast gleiche Bedeutungen haben, aber auf
Identifikation der Komponenten und dem allgemeinen Verhalten (Verb, Valenz,
verschiedene Sachen Referenz nehmen (Beispiel: der See, die See). Zudem kommt
morphologische Komplexitt etc.) ist. Es gibt verschiedene Komplexittsarten, die auf
Cutler in ihrem Aufsatz zum Schluss, dass lexikalische Mehrdeutigkeit nicht mit der
verschiedenen Schwierigkeitsgraden basieren und somit den Abstand zwischen Wissen
ansteigenden Schwierigkeit des lexikalischen Zugangs gekoppelt sein kann. Es sei
der einzelnen Elemente und dem Gesamtwissen definieren. Sobald Schwierigkeiten
schwieriger eine Reihe von Wrtern als einen akzeptablen Satz zu bewerten, wenn dieser
vorhanden sind, so ist sicher auch Komplexitt gegeben. Wenn man die abstrakte Ebene
mehrdeutige als einfache Wrter enthalte. Im Zusammenhang der in dieser Arbeit
der Komplexitt von Edmonds191 auf die Bewertungskriterien bezieht, indem man den
diskutierten Bewertung von schriftlichen Lernerproduktionen weist Profile auf die
pragmatischen Ansatz der Komplexitt von Cutler (1983) bercksichtigt, dann muss
Schwierigkeit der Beschreibung der Referenzniveaus hin, denn je hher das Niveau,
zunchst eruiert werden, ob in den einzelnen zugrunde liegenden Bewertungskriterien
desto weniger lassen sich niveauspezifische sprachliche Mittel definieren obwohl die
und deren Deskriptoren von Komplexitt ausgegangen werden kann. Dennoch muss man
Komplexitt der sprachlichen Handlungsablufe je nach Niveau ansteigt.194 Nach Cutler
ganz nchtern ins Auge fassen, dass Komplexitt von Menschen kaum erfassbar ist,
geht es auerdem darum, dass man idiomatische Wendungen oder Funktionsverbgefge
lediglich von einem Automaten.192 Unbeachtet dieser Tatsache knnten die Deskriptoren
nicht mit der Bedeutung der Verkettung der einzelnen Wrter gleichsetzt (z.B. das
daraufhin betrachtet werden, ob sich Edmonds abstrakte Komplexittsdefinition in den
Funktionsverbgefge einen Antrag stellen statt beantragen). Cutler hat idiomatische
Bewertungskriterien in irgendeiner aufgespalteten Form deskriptiv uert. Cutler setzt
Wendungen als Kontrollinstanz fungierende Wendungen untersucht (z.B. Hals- und
sich in ihrem Aufsatz Lexical Complexity and Sentence Processing mit der semantischen
Beinbruch vs. Hals- und Armbruch). Weiterhin stellt Cutler (1983:44) kontrastiv
und morphologischen Komplexitt auseinander. Die Komplexitt lexikalischer
gegenber, wodurch Komplexitt und Einfachheit195 gekennzeichnet: A negative
Reprsentationen kann durch verschiedene Dimensionen zum Vorschein kommen: die
definition is that lexical complexity occurs wherever lexical entries are not simple; lexical
semantische, die syntaktische und die morphologische. Cutler (1983:43) betont in
simplicity is the case when a phonetic representation of a word evokes a single lexical
diesem Zusammenhang: (...) The existence of complex representations of all three
entry which contains only a single word class representation and a single semantic
types has been specifically claimed:
representation.
Both (all) interpretations of an ambiguous word are always activated
Zur semantischen Komplexitt fhren nach Cutler auch negative Elemente, die je nach
Idioms are stored and accessed as lexical items Vorkommen einen Satz schwer verstndlich machen, auch wenn die syntaktische
Morphological decomposition is involved in the storage and retrieval of lexical Struktur fehlerlos ist. Ich mchte ein Beispiel anfhren, um diese Problematik zu
items verdeutlichen:

Einige Pflzer Winzer knnten die Tatsache ihres Zweifelns zu verneinen nicht schaffen,
dass in manchen Weinsorten die Existenz von Schwefel fehle.

190 TestDaF-Institut, Bewertungsanleitung zum Modellsatz 02. 10/2005, S. 8 193 Im 5. Kapitel dieser Arbeit habe ich die von Profile erstellten Synonyme in Wortlisten und dem zugesprochenen Niveau
191 Edmonds Dissertationsschrift unter: gegenber gestellt und hinterfragt. Die Antwort auf das willkrliche Konstrukt von Profile, Wrter verschiedenen Niveaus
http://66.102.1.104/scholar?hl=de&lr=&safe=off&q=cache:QZZeMCkzfyIJ:demo.cs.brandeis.edu/~pablo/papers/edmon99 - zuzuweisen ergibt sich aus Cutlers Aufsatz, der die Schwierigkeit und die Komplexitt synonymer, mehrdeutiger oder auch
56.pdf+syntactic+complexity+pdf+-informa gleichbedeutender Wrter aufzeigt.
192 Vgl. Edmonds (S.86) In diesem Zusammenhang weist Edmonds mittels Chomskys Hierarchie darauf hin, dass ein 194 vgl. S. 116 ff , Diskussion der Bewertungskriterien des B2-Zertifikats des Goethe-Instituts
Computerprogramm fhig ist, selbst hchste Komplexitt zu durchschauen: (...) the speed and capacity of components is 195 Im Original spricht Cutler von complexity vs. simplicity. Oben genannte Begriffe wurden von mir entsprechend ins
growing exponentially (...) Deutsche bersetzt.

195 196
Whrend in diesem Beispiel die syntaktische Korrektheit nicht verletzt wird, fhren Das Gebiet der Komplexitt und insbesondere der sprachlichen Komplexitt ist ein sehr
vermehrte negierende Wrter bzw. Negationen zu einer komplexen Semantik bzw. zu weites und schwierig zu beschreibendes Feld. Crystal (1991:68) definiert in diesem
einer Verstndnisbeeintrchtigung. Der Begriff der Verstndnisbeeintrchtigung wird in Sinne: () it has not yet proved feasible to establish independent measures of
den Deskriptoren des Kriteriums Korrektheit, das das Goethe-Institut fr die Bewertung complexity defined in purely linguistic terms, largely because of controversy over the
des schriftlichen Ausdrucks zur Hand nimmt, an Fehlern festgemacht. Es sind aber nicht nature of the linguistic measures used (). Dennoch knnten die abstrakte
immer Fehler, die zur Verstndnisbeeintrchtigung fhren. Das Beispiel zeigt ganz Komplexittstheorie von Edmonds und Cutlers pragmatischer Ansatz anhand von
deutlich, dass auch eine fehlerlose syntaktische Struktur dennoch aus der Kombination syntaktischen Mitteln ein erster Schritt sein, um die Bewertung des schriftlichen
verschiedener morphologischer und auch semantischer Elemente so komplex erscheinen Ausdrucks aus einer anderen Perspektive zu betrachten. Zunchst sind Kriterien absolut
kann, dass die Aussageabsicht nicht sofort erkennbar ist. Frey/Heringer (2007:334) notwendige Elemente, um Sprachkompetenz zu messen. Allerdings hngt alles von der
definieren Schwerverstndlichkeit als ein Anzeichen hheren sprachlichen Niveaus. Es Beschaffenheit und Grundlage der einzelnen Kriterien ab, nach denen Lernerproduktionen
wird bereits an dieser Stelle deutlich, wie sich Komplexitt uert. Demnach stellt sich bewertet werden sollen. Diesbezglich haben sich Heringer/Frey in ihrem
die Frage, wie und ob sie wahrgenommen wird, um schlielich eine Bewertung Forschungsprojekt Automatische Bewertung schriftlicher Lernerproduktionen
abzugeben. ausfhrlich damit auseinander gesetzt. Frey/Heringer (2007:331) erzeugten mittels
textueller Parameter einen Score, der mglichst hoch mit der Bewertung durch
Komplexitt ist nach Cutler auch in der Morphologie einer Sprache gegeben, unter
menschliche Rater korreliert. Der Validittsbeweis wurde in diesem Sinne einer
anderem in Wrtern mit Prfixen und Suffixen. Morphologisch komplexe Wrter
linguistischen Diskussion ausgesetzt. Ich mchte die Herangehensweise von
beinhalten in ihrer lexikalischen Reprsentation die Details ihrer morphologischen
Heringer/Frey am Beispiel der lexikalischen Kompetenz kurz umreien. Whrend die
Struktur. Nehmen wir als Beispiel das Wort unternachten statt bernachten. Es wird an
allgemeine Kann-Beschreibung des GER diese lediglich als die Verwendung lexikalischer
dieser Stelle ein falsches Prfix bei der Wortbildung verwendet. Cutler (1983:57) erwhnt
und grammatischer Elemente definiert, benennen Frey/Heringer (2007:336ff) in ihrer
in diesem Zusammenhang die Feststellung Fays: () substitution errors often occur in
automatischen Bewertung schriftlicher Lernerproduktionen acht Parameter, die
which a prefixed word is replaced by another word with the same stem, but different
korpuslinguistischen Fundus haben: Wortschatzkomplexitt, lexikalische Komplexitt,
prefix or a non-occurring combination of prefix with the target stem. hnlich ist es auch
morphologische Tiefe, lexikalische Tiefe, lexikalische Elaboriertheit, lexikalische Varianz,
bei der Verwendung eines falschen Suffixes, der auch zu semantischen Fehlern fhren
lexikalische Breite und lexikalische Ladung. Dieser korpuslinguistische Ansatz behandelt
kann (z.B. wunderlich vs. wunderbar). Im Sinne Cutlers scheint das DESI-Projekt in
Sprachkomplexitt, wie sie wnschenswert wre. Erstrebenswert ist in der Praxis
seinem Kodierhandbuch die Lexik einer Lernerproduktion zu betrachten.
blichen Bewertung von Lernerproduktionen folglich ein Ausschnitt statt eines Abbildes
Hauptaugenmerk sind nicht nur lexikalische Elemente sondern auch der Morphologie
der Komplexitt fr das zu messende Konstrukt, wobei nach Crystal (1991:68)
angehrende Teilbereiche wie zum Beispiel Wortanschlsse, Wortvalenzen, Kollokationen
Komplexitt wie folgt definiert ist:
und der Gebrauch idiomatischer Mittel.196 Auch das TestDaF-Institut zeigt sich im
Unterkriterium Wortschatz bemht, indem es den Fragen nachgeht, ob immer die A central theme is the nature of the interaction between levels of difficulty in cognitive
gleichen Verben benutzt werden oder der Wortschatz variiert und ob die treffenden and linguistic STRUCTURES ()
Ausdrcke benutzt werden197.
Es stellt sich allerdings die Frage, ob die so definierte Komplexitt in den Kriterien und
Die morphologische Komplexitt kann nach Cutler (1983:63) auch durch die produktive in ihren deskriptiven Abstufungen Anwendung finden kann, so dass sie fr Rater sichtbar,
Morphologie bedingt werden: (...) speakers make errors of word formation, they also handhabbar und anwendbar ist. Es kommt nach Eckes (2008) jedoch bereits zuvor zum
regularly create their own neologisms, that is, use their internalized knowledge of ersten Konflikt mit dem Validittsbeweis. In seinem Aufsatz Rater types in writing
morphological structure. Im Sinne der Zweitspracherwerbstheorien, die im dritten performance assessments: a classification approach to rater variability setzt er sich mit
Kapitel dieser Arbeit angefhrt worden sind, knnen derartige Lernerstrategien nicht den Bewertungsstilen und den Gewichtungen der einzelnen Kriterien von Ratern
unbercksichtigt gelassen werden. Internalisiertes morphologisches Wissen wird auseinander. In seiner empirischen Arbeit, die sich auf die Bewertung des schriftlichen
angewandt und es kommt zu bergeneralisierung198 des Erlernten. Ein Lerner kann im Ausdrucks im TestDaF begrenzt, kommt er zu dem Resultat, dass es verschiedene
Deutschen zum Beispiel die Regel, dass alle Verben auf ieren bei der Partizipbildung ein Ratertypen gibt, die unabhngig von den gesetzten Bewertungskriterien fungieren. Das
t bekommen, auf das Verb verlieren anwenden. Die produktive Morphologie er hat TestDaF-Institut wendet diesbezglich das so genannte Multifacettenmodell an, dass die
verliert ist also ganz und gar nicht abwegig, denn der Lerner sttzt dieses auf eine Strenge bzw. Milde eines Raters ermittelt. Er betont aber weiterhin, dass selbst
Regel, wenngleich diese hier keine Anwendung finden darf. Ein weiteres Beispiel ist das intensivste Schulungen die Ratervariabilitt nicht zu dem Ma minimieren knnen, wie es
Genus. Whrend in einschlgigen Grammatiken von der Regel die Rede ist, dass wnschenswert wre: ...raters typically remained far from functioning interchangeably
Substantive auf ur feminin sind, ist es sehr wahrscheinlich, dass ein Lerner dem Wort even after extensive training sessions.... (Eckes 2008:156). Weiterhin fhrt Eckes
Abitur den Artikel die davor setzt. verschiedene empirische Studien in diesem Bereich an, die auf eine Art und Weise alle
darauf hinauslaufen, dass Rater trotz gleicher und intensiver Schulung auf verschiedene
196 Aus dem Word-Dokument des DESI-Kodierhandbuchs von 2004, S. 8 (Heringer, Personalkommunikation) Aspekte bzw. Kriterien in einer schriftlichen Lernerproduktion fokussieren. Mit seiner
197 TestDaF-Institut, Bewertungsanleitung zum Modellsatz 02. 10/2005, S. 8 rater type hypothesis betont auch er, dass Rater, die auf eine bestimmte
198 siehe dazu Kapitel 3, Interlanguagehypothese, S. 46 ff Bewertungsskala hin trainiert werden, in ihrem Bewertungsverhalten sehr stark variieren

197 198
(Eckes 2008:161). In seiner empirischen Untersuchung kommt er zudem zu dem Das Bewertungsraster, das fr das griechische Staatszertifikat fr die Bewertung
Ergebnis, dass Rater nach Kriteriengewichtung und folglich der Bewertung klassifiziert schriftlichen Ausdrucks entwickelt wurde,200 ist eine Kombination analytischen und
werden knnen. Feststellend bemerkt Eckes (2008:178), dass Rater an sich schon holistischen Bewertungssystems. Auffllig ist zunchst, dass es bei diesem
verschieden bewerten. Kommen zudem aber die Bewertungskriterien hinzu, was Bewertungsraster keine quantitativen Bezeichnungen gibt, wie das zum Beispiel bei
unabdinglich ist, so entsteht eine Kombination eines Rater-Kriteriums- Deskriptoren analytischer Modelle der Fall ist (vgl. Goethe-Institut). Es wird lediglich eine
Klassifikationssystems (a joint of rater x criterion classification system). Meines qualitative Unterscheidung zwischen befriedigend und nicht befriedigend gemacht.
Erachtens kann diese Feststellung einer Matrix in der mathematischen Auch hier scheint Sprachkomplexitt nicht begrndet zu sein. Die qualitativen
Vektorenmultiplikation gleichgesetzt werden, wobei aus den verschiedenen Bezeichnungen fr die jeweiligen drei Kriterien, die als analytisch betrachtet werden
Kombinationsmglichkeiten, die aufgrund der unterschiedlichen Ratertypen und den knnen, muss der Rater in Beziehung zu den Kann-Beschreibungen des GER setzen. Das
jeweiligen individuellen Kriteriengewichtungen, beliebige Produkte mglich sind. heit nichts Anderes, als dass der Rater die von GER definierten Kann-Beschreibungen
jedes Niveaus sehr gut verinnerlichen muss. Dieses Raster ist unter Bercksichtigung der
Je freier interpretierbar also die gesetzten Kriterien bzw. ihre Realisierung mittels der
drei Bewertungskriterien und denn jeweiligen Kann-Beschreibungen des GER relativ gut
Deskriptoren sind, desto instabiler entpuppt sich die Bewertung und das bedeutet nichts
zu handhaben. Das Manko hierbei ist, wenn Rater die Kann-Beschreibungen nicht
Anderes als einen zweiten Bruch im Validittsbeweis. Ich mchte aber dennoch nochmals
bercksichtigen und intuitiv bewerten. Die Gefahr ist gegeben, denn dieses Raster ist
explizit machen, dass fr mich das Grundprinzip lauten muss: Rater knnen nicht besser
einheitlich fr alle Niveaustufen. Wenn ein Rater eine Lernerproduktion bewerten soll und
sein, als die vorgegebene Bewertungsskala bzw. ihre Deskriptoren.
die Beschreibungen des vorliegenden Niveaus nicht respektiert, kann es zu
Das offene Aufgabenformat Schriftlicher Ausdruck ist hinsichtlich der Bewertung ein Fehlinterpretationen kommen und das Kriterium der Reliabilitt wird verletzt.
Problem, das wie bereits erlutert wurde, aus vielen Facetten besteht. Oberstes Ziel ist Unabdingbare Voraussetzung ist demnach die drei analytisch gesetzten
es nach Frey (2004:9) zunchst, prgnante Kompetenzbeschreibungen zu definieren, um Bewertungskriterien Bewltigung der kommunikativen Aufgabe, Textaufbau und
dem Validittsbeweis der Bewertungskriterien gerecht zu werden199. Dafr sei es lexikalische Kompetenz und grammatische und orthografische Korrektheit immer in
notwendig die Niveaubeschreibungen im Hinblick auf die genannten Kriterien der Bezug auf das zu prfende Niveau und die jeweilige Aufgabenstellung zu betrachten.
Trennschrfe durch eine neue Auflage des GER anzustreben. Das griechische Wird dies gewhrleistet, so ist dem Rater nicht viel Freiraum in seiner Subjektivitt
Staatszertifikat fr Fremdsprachen (KPG) basiert auf einem holistisch-analytischen erlaubt, da er lediglich zwischen den qualitativen Abstufungen befriedigend vs. nicht
Bewertungsmodell, das sich auf die Kann-Beschreibungen des GER bezieht: befriedigend entscheiden muss. Der Rater muss sich dementsprechend zwischen dem
A. Bewltigung der B. Textaufbau und Grammatische und Item Bewertungsraster und der entsprechenden Kompetenzbeschreibung des Niveaus X fr die
kommunikativen Aufgabe lexikalische orthografische drei definierten Kriterien Bewltigung der kommunikativen Aufgabe, Textaufbau und
Kompetenz Korrektheit lexikalische Kompetenz und grammatische und orthografische Korrektheit orientieren.
Umfassend bewltigt befriedigend befriedigend 15
An dieser Stelle kommt erneut der Faktor menschlicher Rater zum Tragen, den die APA
Nicht befriedigend 14 mit dem Standard 1.2 bercksichtigt (APA-Standard 1.2:17):
Nicht befriedigend befriedigend 13
The test developer should set forth clearly how test scores are intended to be
Nicht befriedigend 12 interpreted and used. () and the construct that the test is intended to assess should be
Mit Mngeln, aber befriedigend befriedigend 10 clearly described.
befriedigend bewltigt
Nicht befriedigend 9 Die Definition dieses Standards fordern Testanbieter zur Angabe auf, nach welchen
Nicht befriedigend befriedigend 8 Kriterien Sie ihre Rater auswhlen und welche Qualifikationen und Erfahrungen diese
mitbringen mssen. In diesem Zusammenhang steht ebenso (APA-Standard 3.23:47):

Nicht befriedigend 7
The process for selecting, training, and qualifying scorers should be documented by the
test developer. The training materials, such as the scoring rubrics and examples of test
Nicht befriedigend befriedigend befriedigend 5
takers responses that illustrate the levels on the score scale, and the procedures for
bewltigt
Nicht befriedigend 4 training scorers should result in a degree of agreement among scorers that allows for the
Nicht befriedigend befriedigend 3 scores to be interpreted as originally intended by the test developer. Scorer reliability
and potential drift over time in raters scoring standards should be evaluated and
Nicht befriedigend 2
reported by the person (s) responsible for conducting the training session.
Entspricht nicht der Aufgabenstellung, keine Antwort 1

Tabelle 45: Bewertungskatalog des griechischen Staatszertifikats fr Sprache 200 Basierend auf dem Raster Tsopanoglous (2000), das er in seinem Buch Methodologie wissenschaftlicher Forschung und
ihre Anwendungen in der Bewertung von Sprachkompetenz vorstellt (Titel wurde von mir aus dem Griechischen bersetzt),
entwickelte die wissenschaftliche Arbeitsgruppe fr die Staatszertifikatsprfungen DaF dieses Bewertungsraster fr die im
199 http://www.hueber.de/sixcms/media.php/36/referenzrahm-frey.pdf Moment existierenden Niveauprfungen einheitlich

199 200
Die Subjektivitt eines Raters kann durch die genaue Festlegung eines
Bewertungssystems und die fachgerechte Raterschulung201 teilweise begrenzt werden. 7 Literaturverzeichnis
Dabei ist das oftmals in den Bewertungskriterien erwhnte Verstndnis bzw. die
Verstndlichkeit von Lernerproduktionen keineswegs objektiv. Prfungsanbieter wie das
Goethe-Institut und das TestDaF-Institut begrnden ihre nach verschiedenen Systemen
Alderson, J.C.(1991): Bands and scores. In: Alderson, J.C./North, B. (eds.): Language
definierten Kriterien nicht auf linguistischen Konzepten, so dass man die Komplexitt in
testing in the 1990s. London: British Council/Macmillian, Developments in ELT: 71-86
den verschiedenen Bereichen erfassen knnte. Derartig komplexe Modelle wrden
American Psychological Association. 1950. Ethical standards the distribution of
menschliche Rater insofern berfordern. Es liegt nicht in ihrer Natur,
psychological tests and diagnostic aids. American Psychologist 5
Sprachkomplexitten zu definieren, nach Niveau zu sortieren und entsprechend
Antos, G./Krings, H.P.(1989): Einleitung. In: Textproduktion. Ein interdisziplinrer
numerisch zuzuordnen (Punktevergabe). Zudem bleibt zu klren, worauf man
Forschungsberblick. (Hg): Antos, G./Krings, H.P.: Max Niemeyer Verlag. Tbingen
menschliche Rater eigentlich schult, was sie daraufhin beurteilen und was sie schlielich
1989, 1-4
in der Lage sind zu beurteilen. Mglicherweise ist das eine Frage, die empirisch
Apelt, Hans Peter (o.J.): Am Anfang stand der Sprachunterricht: Streifzge durch die
angegangen werden msste. In diesem Sinne kann abschlieend festgestellt werden,
Geschichte des Goethe- Instituts, Mnchen.
dass Derartiges lediglich maschinell vonstatten gehen kann, um die Gtekriterien der
Apeltauer, E. (1987): Gesteuerter Zweitspracherwerb: Voraussetzungen und
Testtheorie und die hier im Mittelpunkt stehende Validitt nicht zu verletzen. Messick
Konsequenzen fr den Unterricht. (Hg.) Apeltauer, E.. Hueber. Mnchen 1987, 35-50
(1983:13) sieht den Schlssel der Testvaliditt u.a. in der Interpretation und im
Arras, U., Grotjahn, R. (2002): TestDaf: Aktuelle Einwicklungen. Eine erweiterte Fassung
funktionalen Wert der Bewertung hinsichtlich der sozialen Konsequenz ihres Gebrauchs.
eines Vortrages auf der 22. Arbeitstagung in Chemnitz, 28.02.2002.
In dieser Arbeit ist versucht worden mglichst viele Facetten der Problematik der
Bachman, L. F. /Palmer, A.S. (1996): Language Testing in Practice: Designing and
Bewertung und ihrer Validitt im schriftlichen Ausdruck kritisch zu beleuchten. Dieses
Developing Useful Language Tests. Oxford: Oxford University Press
Untersuchungsfeld ist allerdings sehr weit. Diesbezglich gibt es im Zusammenspiel vieler
Bachman, L.F. (1990): Fundamental considerations in language testing. Oxford. OUP.
Faktoren grundlegende Desiderate, die noch in weiteren Forschungen angegangen
Baldegger, M./ Mller, M./ Schneider, G. (1981): Kontaktschwelle Deutsch als
werden mssten, um konkretere Aussagen treffen zu knnen. Ob linguistische Anstze
Fremdsprache. (=Europarat-Rat fr europische Zusammenarbeit). Langenscheidt,
ausreichend sind, um die Validitt gewhrleisten zu knnen, gilt es in einer anderen
Berlin/Mnchen.
wissenschaftlichen Arbeit unbedingt empirisch zu fundieren und nachzuweisen.
Bart, K.-M. (1999): Annherung an die Fremdsprache und Interferenzwirkung der
Muttersprache: Interimsprachenanalyse und Strategien der Genuszuweisung bei
fortgeschrittenen spanischsprachigen Deutschlernenden. Inaugural-Dissertation.
Philosophische Fakultt der Albert-Ludwig-Universitt, Freiburg.
Bausch, K.-R., Kasper, G. (1979): Der Zweitsprachenerwerb. Gutachten erstellt im
Auftrag des Gesprchskreises Frankreichkunde bei der Robert-Bosch-Stiftung
Stuttgart. Mai 1979.
Bausch, K.R./Kasper, G. (1979): Der Zweitspracherwerb, Mglichkeiten und Grenzen der
groen Hypothesen. In: Linguistische Berichte 64, 3-35
Berthold, F. (Hrsg.): Jahrbuch 1998/1999 des Goethe- Instituts
Birkel, P. (1976) Glossar wichtiger testtheoretischer Begriffe. In: Kultusministerium
Rheinland-Pfalz. Schulversuche und Bildungsforschung. Berichte und Materialien. Beltz
Verlag. Weinheim, 27-48
Blommaert, M.-R./Lutjeharms, M. (2003): Lernersprache aus der Sicht der Lernenden:
Fehler und Norm in der Mutter- und Fremdsprache. In: (Hg.) Prschel, H./Tinnefeld, T.:
Moderner Fremdsprachenerwerb zwischen Interkulturalitt und Multimedia. Reflexionen
und Anregungen aus Wissenschaft und Praxis. AKS-Verlag: Bochum, 126-137.
Bolton, S. (1982): Die Gtebestimmung kommunikativer Tests. Inauguraldissertation zur
Erlangung des Grades eines Doktors der Philosophie im Fachbereich Neuere Philologien
der Johann Wolfgang Goethe-Universitt zu Frankfurt am Main.
Bolton, S./Perlmann-Balme, M. (2006): Schulische Abschlussprfungen konzipieren - wie
macht man das? Ein Werkstattgesprch zum Thema. In: : Zeitschrift fr die Praxis des
Deutschunterrichts. Fremdsprache Deutsch. Heft 34-2006. Goethe-Institut. Klett, 58-60

201 Materialien zur Prferschulung fr die staatlichen Sprachzertifikate des griechischen Bildungsministeriums, Athen,
25.05.2008

201 202
Brner, W. (1987): Schreiben im Fremdsprachenunterricht. berlegungen zu einem Eckes, T. (2004): Facetten des Sprachtestens: Strenge und Konsistenz in der Beurteilung
Modell. In: Lrscher, W./Schulze, R. (Eds.). Perspectives on Language in Performance. sprachlicher Leistungen. In: Wolf, A./Ostermann, T./Choloste, C. (Hg.): Integration
Tbingen. Gunter Narr, 1336-1349 (Bd. 2) durch Sprache (Materialien Deutsch als Fremdsprache, Bd. 73). Regensburg.
Brner, W. (1989): Didaktik schriftlicher Lernerproduktion in der Fremdsprache. In: Fachverband Deutsch als Fremdsprache, 485-518
Textproduktion. Ein interdisziplinrer Forschungsberblick. (Hg): Antos, G./Krings, Eckes, T. (2008): Rater types in writing performance assessments: a classification
H.P.. Max Niemeyer Verlag. Tbingen, 348-375 approach to rater variability. SAGE Publications, 155-185
Brinker, K. (2001): Linguistische Textanalyse. Eine Einfhrung in Grundbegriffe und Edmonson, W./House, J. (1993): Einfhrung in die Sprachlehrforschung. Tbingen/Basel:
Methoden. 5. Auflage. Berlin: Erich Schmidt. Francke
Butzkamm, W. (1989): Psycholinguistik des Fremdsprachenunterrichts. Natrliche Egger, K. (1995): Muttersprachenerwerb und Zweitsprachenerwerb. Gemeinsamkeiten
Knstlichkeit. Von der Muttersprache zur Fremdsprache. Tbingen und Unterschiede. In: Zweitsprachenlernen in einem mehrsprachigen Gebiet.
Canadian Modern Language Review, 42/2 Grundlagen und Perspektiven fr ein neues Curriculum. (Hg): Augusto Carli u.a.
Chomsky, N. (1965): Aspects of the theory of syntax. Cambridge, Mass.: MIT Press. Provincia Autonoma di Bolzano, 77-83
Clapham, C. (1996): The developments of IELTS: a study of the effects of backround Embretson, S. E. /Reise, S. P. (2000): Item Response Theory for Psychologists. Lawrence
knowledge on reading comprehension (Studies in Language Testing 4). Cambridge. Erlbaum. 1. edition.
Cambridge University Press. Europarat-Rat fr kulturelle Zusammenarbeit: Gemeinsamer europischer
Clapham, C. (2000): Assessment for academic purposes: where next? System 28 (4) Referenzrahmen fr Sprachen (2001): lernen, lehren, beurteilen, Strabourg,
Clark, J. (1985): Curriculum renewal in second language learning: An overwiew. Langenscheidt
Corder, P.S. (1967): The significance of learners errors. In: (Hg.) Richards, J.C.: Error Faerch, C./Kasper G. (1983). Plans and strategies in foreign language communication.
analysis, perspectives on second language acquisition. London., 19-27 In: Faerch/Kasper (Hrsg.): Strategies in Interlanguage Communication. London/New
Corder, P.S. (1973): Introducing applied linguistics. Harmondswort. York: Longman, 20-60
Cronbach, L.J. (1980): Validity on parole: How can we go straight? In: Schrader, W. Feilke, H. (1993a): Schreibentwicklungsforschung. Ein kurzer berblick unter besonderer
(Hg.): New directions for testing and measurement. San Francisco, 99-108 Bercksichtigung der Entwicklung prozeorientierter Schreibfhigkeiten. In: Diskussion
Crystal, D. (1987): The Cambridge Encyclopedia of Language. University Press. Deutsch 24/1993, Heft 129
Cambridge Frey, E./Heringer, H.J. (2007): Automatische Bewertung schriftlicher Lernerproduktionen.
Crystal, D. (1991): A dictionary of linguistics and phonetics. 3rd Edition. Blackwell In: Linguistische Berichte 211, 331-345
Publishers gfl-journal, No. 3/2002
Cummins, A. (1994): Writing expertise and second-language proficiency. In: Cumming, Glaboniat et al (2005): Profile deutsch. Gemeinsamer europischer Referenzrahmen.
A. H. (ed.): Bilingual Performance in Reading and Writing. Ann Arbor MI: Benjamins Langenscheidt KG. Berlin. Mnchen
[The Best of Language Learning], 173-221 Glaboniat, M./Mller, M.(2006): Note sehr gut! - aber in Bezug worauf? In: Zeitschrift
Cutler, A. (1983): Lexical Complexity and Sentence Processing. In: Flores dArcais, G. B. fr die Praxis des Deutschunterrichts. Fremdsprache Deutsch. Heft 34-2006. Goethe-
/ Jarvella, R. J. (Ed.): The Process of Language Understanding. John Wiley & Sons Ltd., Institut. Klett. 14-21
43-79 Glck, H. (1988): Schreiben in der Fremdsprache. Eine Einfhrung. In: Lieber, M./Posset,
DeMers, S.Y., Turner, S.M. (Cochairs), Andberg, M. Foote, W. Hough, L. Ivnik, R. Meier, J. (Hrsg.): Texte schreiben im Germanistikstudium. Mnchen: Iudicium. 25-43.
S. Moreland, K. & Rey-Casserly, C.M. (2000). Report of the Task Force on Test User Goethe-Zertifikat B2. Modellsatz. 100707
Qualifications. Washington, D.C.: Practice and Science Directorates, American Goethe-Zertifikat B2. Prfungsordnung. 050707
Psychological Association Goethe-Zertifikat B2: Trainingsmaterial fr Prfende. Schriftlich-Mndlich. Prfertraining
Dieterich, R. (1973): Psychodiagnostik. Mnchen. Reinhardt 090707.
Dittmar, N. (1995): Was lernt der Lerner und warum? Was DaF-Lehrer schon immer ber Goethe-Zertifikat C1. Prfungsordnung. Durchfhrungsbestimmungen. 050707.
den Zweitsprachenerwerb wissen sollten. In: Deutsch als Zweit- und Fremdsprache. Goethe-Zertifikat C1. Trainingsmaterial fr Prfende. Schriftlich-Mndlich. 090707.
Methoden und Perspektiven einer akademischen Disziplin. (Hg): Dittmar, N. u.a.. Peter Goethe-Zertifikat C1: Prfungsziele. Testbeschreibung. Handbuch. 050707.
Lang Verlag. Frankfurt a. M., Bd. 52, 107-137 Grotjahn, R. (2000): Testtheorie: Grundzge und Anwendungen in der Praxis. In: (Hg.)
Dulay, H./Burt, M. (1974): Goofing: a indicator of childrens s second language learning Wolff, A./Tnzer, H.: Sprache-Kultur-Politik. Beitrge der 27. Jahrestagung Deutsch als
strategies. In Language Learning 22. Fremdsprache vom 3.-5. Juni 1999 an der Universitt Regensburg. Universitt
Dulay, H.:/Burt, M. /Krashen, S. (1982): Language Two. Oxfort University Press, New Regensburg: Fachverband Deutsch als Fremdsprache (=Materialien Deutsch als
York.. Fremdsprache, Bd. 53, 304-341
Eckes, T. (2003): Qualittssicherung beim TestDaF: Konzepte, Methoden, Ergebnisse. In: Grotjahn, R. (2000a): Determinanten der Schwierigkeit von Leseverstehensaufgaben:
Fremdprachen und Hochschule, 2003, Heft 69, 43-68 Theoretische Frundlagen und Konsequenzen fr die Entwicklung des TestDaF. In:
Bolton. S. (Hg.): TestDaF: Grundlagen fr die Entwicklung eines neuen Sprachtests.
Beitrge aus einem Expertenseminar. Kln: VUB Gilde, 7-55

203 204
Grotjahn, R. (2001): Leistungsmessung und Leistungsbeurteilung. Band A. Patras. EAP Kranz, H.T. (2001): Einfhrung in die klassische Testtheorie. 5. Aufl.. Eschborn bei
(Fernuniversitt) Frankfurt a. M.: Klotz.
Grotjahn, R./Kleppin, K. (2000/2001): TestDaF: Stand der Entwicklung und einige Krashen, S. (1985): The Input Hypothesis: Issues and Implications. London. Longman
Perspektiven fr Forschung und Praxis. In: Germanistisches Jahrbuch der GUS Das Krashen, S./ Terell, T.D. (1983): The natural approach. Language acquisition in the
Wort 2000/2001 classroom. Oxford.
Grubitzsch, S. (1999): Testtheorie-Testpraxis: psychologische Tests und Prfverfahren Krekeler, C. (2005): Grammatik und Fachbezug in Sprachtests fr den Hochschulzugang.
im kritischen berblick. 2. Auflage der vollstndig berarbeiteten und erweiterten Dissertationsschrift. Universitt Duisburg Essen
Neuausgabe. Eschborn bei Frankfurt a. M.: Klotz Krings, H.P. (1989): Schreiben in der Fremdsprache-Prozessanalysen zum vierten skill.
Gnther, R. (1988): Das Deutsche Institut fr Auslnder an der Universitt Berlin in der In: Textproduktion. Ein interdisziplinrer Forschungsberblick. (Hg): Antos, G./Krings,
Zeit von 1922 bis 1945. Ein Beitrag zur Erforschung des Lehrgebiets Deutsch als H.P.. Max Niemeyer Verlag. Tbingen, 377-436
Fremdsprache. In: Beitrge zur Geschichte der Humboldt-Universitt zu Berlin, Nr. 19. Krumm, H. J. (2006): Mssen jetzt alle dasselbe knnen? Vor- und Nachteile der
Berlin, 71-75 Globalisierungsprozesse im Sprachunterricht. In: Zeitschrift fr die Praxis des
Hayes, J./Flower, L. (1980): Identifying the Organization of Writing Processes. In: Gregg, Deutschunterrichts. Fremdsprache Deutsch. Heft 34-2006. Goethe-Institut. Klett, 30-33
L.W./Steinberg, E.R. (Hg.): Cognitive processes in writing. Hillsdale, N.J., 3-30 Kupfer-Schreiner, C.(1994): Sprachdidaktik und Sprachentwicklung im Rahmen
Helbig, G. (1986): Entwicklung der Sprachwissenschaft seit 1970. Leipzig: VEB interkultureller Erziehung- Das Nrnberger Modell. Ein Beitrag gegen Rassismus und
Bibliographisches Institut. Auslnderfeindlichkeit. Deutscher Studien Verlag. Weinheim.
Herbst, T. (1991): Terminologie der Sprachbeschreibung: ein Lernwrterbuch fr das Langenscheidt e-Growrterbuch Deutsch als Fremdsprache. 2003 Langenscheidt KG
Anglistikstudium. (Hg.) Herbst, T., Stoll, R., Westermayr, R.. 1. Auflage, 1. Dr. Berlin und Mnchen (CD-ROM)
Ismaning: Hueber (Forum Sprache) Langer, H./Schulz v. Thun, F. (1974): Messung komplexer Merkmale in Psychologie und
Herskovits, M.J. (1938): Acculturation. New York Pdagogik: Ratingverfahren. In: Beihefte der Zeitschrift Psychologie in Erziehung und
Hoyt, W.T. (2000): Rater bias in psychological research: When is it a problem and what Unterricht. Heft 68. Ernst Reinhardt Verlag. Mnchen-Basel, 13-60
can we do about it? Psychological Methods, 5. Levenston, E.A. (1979): Second Language Acquisition: Issues and Problems. In:
Hllen, W. (1983): ber das allmhliche Verfertigen von Sprachregeln. In: Der Interlanguage Studies Bulletin 4. 1979, 147-160
fremdsprachliche Unterricht 8/83, KILIAN, V./NEUNER, G./SCHMITT, W. (Hg.), Deutsch Lienert, G. A./Raatz, U. (1998): Testaufbau und Testanalyse. 6. Auflage. Mnchen
als Zweitsprache in der Erwachsenenbildung. Mnchen Weinheim: Beltz-Psychologie-Verlags-Union.
Huot, B.A. (1993): The influence of holistic procedures on reading and rating student Lienert, G.A. (1961): Testaufbau und Testanalyse. Verlag Julius Beltz. Weinheim.
essays. In: Williamson, M.M. & Huot, B.A. (eds.): Validity holistic scoring for writing Linke, A./Nussbaumer, M./Portmann-Tselikas, P.R. (2004): Studienbuch Linguistik, 5.
assessment. Cresskill, NJ: Hampton Press, 207-236 erw. Auflage, Tbingen: Niemeyer, 215-255
Informationsmaterial des TestDaF-Institus: Empfehlungen fr Kurse und Materialien zur Lschmann, M. (1992): Effiziente Wortschatzarbeit. Alte und neue Wege integrativ,
Vorbereitung auf die Prfung TestDaF. 04/2005 kommunikativ, interkulturell, kreativ (Deutsch als Fremdsprache in der Diskussion).
Ingenkamp, K. (1985): Lehrbuch der pdagogischen Diagnostik. Weinheim: Beltz Frankfurt/Main, New York: Peter Lang
J.A. van Ek (1976): The threshold level for modern language learning in schools. The Lumley, T./McNamara, T.F. (1993): Rater characteristics and Rater bias: Implications for
Council of Europe. Longman. Strasbourg training. Language Testing Research Colloquium (15th Cambridge, England, United
Jones, S./Tetro, J. (1987): Composing in a foreign language. In: Matsuhashi, A. (Eds.): Kingdom, August 1993)
Writing in Real Time: Modeling the Production Processes. Norwood NJ: Ablex, 34-57 Lunz, M.E./Stahl, J. (1990): Judge consistency and severity across grafing periods.
Juhsz, J. (1970): Probleme der Interferenz. Max Hueber Verlag. Ismaning. Evaluation and health professions 13,4.
Jung, L. (2001): 99 Stichwrter zum Unterricht Deutsch als Fremdsprache. Ismaning: McNamara, T. F. (1996): Measuring second language performance. London: Longman
Max Hueber Verlag: Merten, S. (1997): Wie man Sprache(n) lernt. Eine Einfhrung in die Grundlagen der
Kielhfer, B. (1995): Die Rolle der Kontrastivitt beim Fremdspracherwerb. In: Deutsch Erst- und Zweiterwerbsforschung mit Beispielen fr das Unterrichtsfach Deutsch. Peter
als Zweit- und Fremdsprache. Methoden und Perspektiven einer akademischen Lang. Frankfurt a. M., 65-117
Disziplin. (Hg): Dittmar, N. et al. Peter Lang Verlag. Frankfurt a. M., Bd 52, 35-49 Messick, S. (1989): Validity. In: Linn, R.L. (Ed.): Educational measurement (3rd edition).
Klauer, K.J. (1987): Kriteriumsorientierte Tests: Lehrbuch der Theorie und Praxis New York: American Council of Education, 13-103
lehrzielorientierten Messen. Gttingen: Hogrefe. Molitor-Lbbert, S. (1999): Schreiben und Kognition. In: Textproduktion. Ein
Klein, W. (1984): Zweitsprachenerwerb. Knigstein interdisziplinrer Forschungsberblick. (Hg): Antos, G./Krings, H.P..Max Niemeyer
Klieme, E.(2004): Was sind Kompetenzen und wie lassen sie sich messen? In: Pdagogik Verlag. Tbingen, 278-296
6, 2004. Landesinstitut fr Schule, 10-13 Mller, H. (1999): Probabilistische Testmodelle fr diskrete und kontinuierliche
Kohn, K. (1990): Dimensionen lernersprachlicher Performanz: theoretische und Ratingskalen. Bern. Huber.
empirische Untersuchungen zum Zweitsprachenerwerb. (Hg.) Kohn, K.. Tbingen: Narr Nation, Paul (2001): Learning vocabulary in another language (Cambridge Applied
Linguistics). Cambridge: Cambridge University Press.

205 206
Nodari, C. (2002): Was heit eigentlich Sprachkompetenz? In: Barriere Thomas Eckes, T. (2008): Rater types in writing performance assessments: A
Sprachkompetenz. Dokumentation zur Impulstagung vom 2. Nov. 2001 im Volkshaus classification approach to rater variability. Language Testing 2008/25,
Zrich, SIBP Schriftenreihe 18 Trim, J.I.M. (1978): Some possible lines of development of an overall structure for a
North, B. (1993): The development of descriptors on scales of language proficiency. european unit/credit scheme for foreign language learning by adults. Strasbourg:
NFLC occasional papers. John Hopkins University, Washington DC. National Foreign Council of Europe
Language Center. Tschirner, E. (2001): Leistungsmessung und Leistungsbeurteilung. Band B. Patras: EAP
North, B. (1996): Language Proficiency Descriptors. Presentation at the Language (Fernuniversitt)
Testing Research Colloquium in Tampere, Finland in 1996. Ttken, G. (1984): Selbststndiges zusammenhngendes Schreiben fr Fortgeschrittene.
Perlmann-Balme, M. (2006): Das alles kann ich schon! Kompetenzen testen, prfen, In: InfoDaF, Nr. 1. Jahrgang 1984/85. DAAD. Mai 1985, 57-68
zertifizieren. In: Zeitschrift fr die Praxis des Deutschunterrichts. Fremdsprache Urquhart, A.H. (1987): Comprehensions and interpretations. Reading in a Foreign
Deutsch. Heft 34-2006. Goethe-Institut. Klett, 5-13 Language 3
Phipps &Gonzalez, (2004). Modern languages: Learning and teaching in an intercultural Varadi, T. (1983a): Strategies of Target Language Learner Communication: Message-
field. London, California, New Delhi: Sage adjustment. In: Faerch, C./ Kasper, G. (Hg.): Strategies in Interlanguage
Portmann, P.R. (1991): Schreiben und Lernen: Grundlagen der fremdsprachlichen Communication. London/New York: Longman, 75-99
Schreibdidaktik. Tbingen: Niemeyer Vaughan, C. (1991): Holistic assessment: What goes on in the rater`s mind? In: Hamp-
Raatz, U. (2001): Leistungsmessung und Leistungsbeurteilung, Bd. D. Patras: EAP Lyons, L. (ed.): Assesing second language writing in academic context. Norwood, NJ:
(Fernuniversitt) Ablex, 111-125
Raimes, A. (1987): Language proficiency, writing ability, and composition strategies: A Vollmer, H.J. (2003): Leistungsmessung: berblick. In: (Hg.) Krumm/Bausch/Christ:
study of ESL college student writers. In: Language Learning: A Journal of Applied Handbuch Fremdsprachenunterricht. Tbingen und Basel: A. Francke Verlag, 273-277
Linguistics 3(37), 439-468 Weinert, F.E. (2001): Vergleichende Leistungsmessung in Schulen eine umstrittene
Report of the Task Force on Test User Qualifications 2-88. Practice on Science Selbstverstndlichkeit. In: (Hg.) Weinert, F.E.: Leistungsmessung in Schulen.
Directorates APA. Approvedby the APA Council of Representatives. August, 2000. Weinheim und Basel. Beltz Verlag, 17-31
Rieck, B.-O.J. (1980): Fehler beim ungesteuerten Zweitspracherwerb auslndischer Weir, C.J. (2005): Limitations of the Common European Framework for developing
Arbeitnehmer. In: (Hg.) Cherubim, D.: Fehlerlinguistik. Tbingen: Niemeyer, 43-60 comparable examinations and tests. Centre for Research in Testing, Evaluation and
Rsler, D. (1984): Lernerbezug und Lehrmaterial Deutsch als Fremdsprache. Heidelberg Curriculum. Language Testing 22(3)University Roehampton
1984. Rsler, D. (1995): Deutsch als Fremd- und Zweitsprache: Gemeinsamkeiten und Wiedenmeyer, D. (2006): DaF-Testen. Testentwicklung und Testbeurteilung. DaF extra
Unterschiede. In: Deutsch als Zweit- und Fremdsprache. Methoden und Perspektiven Verlag. Athen
einer akademischen Disziplin. (Hg): Dittmar, N. Et al.. Peter Lang Verlag. Frankfurt a. Wienold, G. (1973): Die Erlernbarkeit der Sprachen. Eine einfhrende Darstellung des
M., Bd.52, 149-159 Zweitsprachenerwerbs. Ksel-Verlag GmbH & Co., Mnchen.
Rost, J. (2004): Lehrbuch. Testtheorie-Testkonstruktion. 2. vollstndig berarbeitete und Wilkinson, A. (1971): The Foundations of Language: Talking and Reading in Young
erweiterte Auflage. Verlag Hans Huber. Bern Children. London
Rost, J. /Spada, H. (1982): Probabilistische Testtheorie. In: Klauer, K.J. (Hg.): Handbuch Wilson, M./Case, H. (1997): An examination in Rater severity over time: a study in Rater
der pdagogischen Diagnostik (Vol. 1). Dsseldorf: Schwann, 59-97 drift. Berkeley Evaluation and Assessment Research (BEAR) Center. University of
Satzung und Rahmenvertrag. Rechtliche Grundlagen des eingetragenen Vereins. California, Berkeley. October 1997
Herausgegeben vom Goethe- Institut, Mnchen o.J. Wolfe, E.W./Feltovich, B. (1994): Learning to rate essays: a study of scorer cognition.
Schelten, A. (1980): Grundlagen der Testbeurteilung. Quelle und Meyer. Heidelberg Report presented at the annual meeting of the American Educational Research
Schelten, A. (1997): Testbeurteilung und Testerstellung. Stuttgart: Franz Steiner Association in New Orleans, LA, 4.-8. April 1994
Schmidt, Siegfried F. (1973): Texttheorie. Probleme einer Linguistik der sprachlichen Wottawa, H. (1980): Grundriss der Testtheorie. Grundfragen der Psychologie. Mnchen:
Kommunikation. Mnchen: Fink. Juventa Verlag.
Schneewind, K.A. (1969): Methodisches Denken in der Psychologie. Bern: Huber Writing Tasks: Pilot Samples. In: Preliminary Pilot Version of the Manual for Relating
Sommer, J. (1971): Diagnostische Psychologie. In: Rogge, K.E. (Hg.): Steckbrief der Language Examinations to the CEFR: learning, teaching, assessment. 1995
Psychologie. Heidelberg: Quelle & Meyer, 170-195 Zimbardo, Philip G. (1992): Psychologie. 5., neu bersetzte und bearbeitete Auflage.
Steinmller, U. (1995): Korreferat zum Beitrag Dietmar Rsler: Deutsch als Bearbeitet und herausgegeben von Hoppe-Graff, S./Keller, B. Springer-Lehrbuch.
Fremdsprache und Deutsch als Zweitsprache: Unterschiede und Gemeinsamkeiten Berlin.
vor allem jedoch Unterschiede. In: Deutsch als Zweit- und Fremdsprache. Methoden
und Perspektiven einer akademischen Disziplin. (Hg.): Dittmar, Norbert u.a.. Peter
Lang Verlag. Frankfurt a. M., Bd. 52., 161-164
Tenopyr, M.L. (1981): The realities of employment testing. American Psychologist, 36
TestDaF, Bewertungsanleitung zum Modellsatz 02. 10/2005

207 208
Internetadressen und Links

http://db.learnline.de/angebote/deutschunterrichtsentwicklung/module/teil-2.pdf
http://db.learnline.de/angebote/deutschunterrichtsentwicklung/module/teil-2.pdf,
Aus: Weinert, F.E. (Hg.): Leistungsmessung in Schulen. Weinheim und Basel. Beltz
Verlag. 2001
http://db.learnline.de/angebote/kernlehrplaene/text.jsp?kap=2&doc=d-gy
http://db.learnline.de/angebote/kernlehrplaene/text.jsp?kap=3&doc=d-gy Vita
http://db.learnline.de/angebote/kernlehrplaene/text.jsp?kap=4&doc=d-gy
http://de.wikipedia.org/wiki/Goethe-Institut
Anna Chita
http://www.hueber.de/sixcms/media.php/36/referenzrahm-frey.pdf
http://www.goethe.de/Z/50/commeuro/c.htm.
http://www.goethe.de/z/50/commoneoro/
http://www.goethe.de/z/commeuro/i1.htmhttp://www.testdaf.de/html/publikationen/pdf
files/Eckes_FaDaF_Essen.pdf
http://dueplico.uni-duisburg-essen.de/servlets/DocumentServlet?id_12458 06. Dezember 1971 in Korbach/Hessen geboren
http://www.sdkrashen.com/SL_Acquisition_and_Learning/index.html 1990 Abitur
http://www.testdaf.de/teilnehmer/pdf/pruefungsordnung.pdf
1998 Magister Artium in den Fchern Deutsche
http://www.testdaf.de/teilnehmer/tn-info_nivea.php
http://www.historisches-lexikon bayerns.de/artikel/artikel_44721 Philologie: DaF/DaZ (Hauptfach) Psychologie
www.alte.org und Schulpdagogik
www.goethe.de
1998 bis heute DaF-Lehrerin in verschiedenen
www.goethe.de/athen>Prfungen>Goethe-Zertifikat
www.goethe.de/intern Bereichen (Integrationskurse, DaZ, Deutsch fr
www.testdaf.de Griechen, Prfungsvorbereitung aller Niveaustufen)
www.goethe.de/referenzrahmen/Quetz 2002
seit 2003 Prferin und Korrektorin beim staatlichen
www.goethe.de/z/50/commoneuro/deindex.htm
Staatszertifikats fr Fremdsprachen des
griechischen Kultusministeriums. Wissenschaftliche
Mitarbeiterin des staatlichen Staatszertifikats fr
Fremdsprachen des griechischen
Kultusministeriums fr die Fortbildung von Prfern
und Korrektoren
2009 Promotion zum Thema: Bewertungskriterien
schriftlicher Lernerproduktionen B2/C1 und deren
Validitt

209 210

Das könnte Ihnen auch gefallen