Sie sind auf Seite 1von 27

Das Evaluieren fremdsprachlicher mndlicher Handlungskompetenz: Ein Problemaufriss

The final version of this manuscript was published as: Tschirner, E. (2001). Die Evaluation
fremdsprachlicher mndlicher Handlungskompetenz: Ein Problemaufriss. Fremdsprachen Lehren
und Lernen, 30, 87-115.
The reliable assessment of oral proficiency is as costly an endeavor as it is important. This article
looks at the various elements of oral tests that need to be kept in mind when designing oral
proficiency tests. Using the notion of test usefulness developed by Bachman and Palmer (1996)
with its interlocking elements of validity, reliability, authenticity, interactivity, practicality and
washback as point of departure, three components of oral tests are singled out for discussion: the
construct, the testing procedure, and the rating procedure. Two approaches to establishing
construct validity are discussed: designing a theoretical of model of second language proficiency
and completing a needs analysis for performance assessment. Task development and test
structure are focused on in the section on testing, while rating criteria, the rating procedure and
tester and rater training programs are looked at in the section on rating. A number of established
tests are partially analyzed to provide a framework for the discussion. These tests include the oral
portions of the major German language tests such as the Zertifikat Deutsch, the tests developed
by the Goethe-Institute, and the 1999 version of the ACTFL Oral Proficiency Interview (OPI).
1.

Einleitung

Die Bewertung fremdsprachlicher mndlicher Handlungsfhigkeit ist eine genauso wichtige wie
schwierige Aufgabe. Gesprochene Sprache ist eine uerst flchtige Angelegenheit. Rigorose
Bewertungsstandards sind nur mglich, wenn mndliche Prfungen aufgenommen werden. Das
mglicherweise mehrmalige Anhren von Video- oder Audiokassetten jedoch macht eine
sowieso bereits zeitaufwendige und damit teuere Prfung nur noch zeitaufwendiger und teuerer.
Damit nicht genug. Die bereits bei Prfungen der schriftlichen Handlungsfhigkeit
problematische Interrater-Reliabilitt wird durch starke psychologische Faktoren, die das
Aussehen, die Stimme und Interaktionsmuster der geprften Person (und oft auch des Prfers
oder der Prferin) betreffen, noch zustzlich erschwert.
Obwohl es fremdsprachliche mndliche Prfungen wahrscheinlich schon seit Jahrhunderten gibt
und die mndliche Prfung vor allem seit den sechziger Jahren des 20. Jahrhunderts Eingang in
die Universitten und manchmal auch Schulen gefunden hat, hat die Forschung, die sich mit
Fragen der Validitt und Reliabilitt im Hinblick auf mndliche Kompetenzen beschftigt, in
grerem Mae erst in den letzten 20 Jahren stattgefunden. Bewertungsskalen, Aufgabentypen
und der Effekt von Prferschulungen werden noch nicht lange empirisch untersucht. Dazu hat die
Zweitsprachenerwerbsforschung mit ihren Theorien und Modellen zur kommunikativen
Kompetenz wesentlich dazu beigetragen, dass die Konstrukte mndlicher Handlungsfhigkeit,
die Grundlage mndlicher Tests sind, theoretisch und empirisch besser untermauert werden.
Dadurch hat sich die Validitt mndlicher Tests deutlich verbessert. Auch die Reliabilitt hat
mittlerweile auf Grund einfacher zu handhabender Bewertungsskalen und rigoroser
Prferschulungen und Prfungsverfahren Werte erreicht, die durchaus mit denen aus dem
schriftlichen Bereich mithalten knnen.
Dieser Beitrag stellt einen Problemaufriss dar. Das Evaluieren fremdsprachlicher mndlicher
Handlungsfhigkeit wird in einzelne Schritte eingeteilt. Diese Schritte werden anhand der

Ntzlichkeitskriterien von Prfungen (Bachman / Palmer 1996) genauer untersucht, wobei auf
relevante empirische und theoretische Forschungsergebnisse eingegangen wird. Dabei kommen
eine Reihe unterschiedlicher Prfungen aus dem deutsch- und englischsprachigen Raum zur
Sprache. Eine zentrale Rolle nimmt dabei das ACTFL Oral Proficiency Interview in seiner
Neufassung von 1999 ein, eine Weiterentwicklung des mndlichen Prfverfahrens des Foreign
Service Instituts (FSI), das als Mutter sehr vieler zur Zeit gebruchlicher Prfverfahren und
Bewertungsskalen auch in Europa gilt (North 1994; Spolsky 1995). Im nchsten Kapitel werden
die Ntzlichkeitskriterien von Bachman / Palmer kurz zusammengefasst. Im dritten Kapitel wird
vor allem auf Fragen der Konstruktvaliditt eingegangen. Es wird zwischen direkten, indirekten
und semidirekten Prfungen unterschieden, es wird ein theoretisches Modell mndlicher
Handlungsfhigkeit vorgestellt und ein alternatives Verfahren zur Validierung durch ein
theoretisches Modell. Das vierte Kapitel beleuchtet unterschiedliche Aspekte des
Prfungsgesprchs, u.a. Aufgaben und Prfungsstruktur, und geht dabei vor allem auf die
Kriterien der Interaktivitt, Praktikabilitt und Rckwirkung ein. Das fnfte Kapitel schlielich
befasst sich mit dem Bewerten mndlicher Prfungen. Mit Hilfe vor allem der Kriterien Validitt
und Reliabilitt werden dabei Arten von Bewertungsskalen angesprochen, der
Bewertungsprozess und die Prfer- und Bewerterschulung.
2.

Ntzlichkeitskriterien

Nach Bachman / Palmer (1996) unterscheidet man sechs zentrale Ntzlichkeits- oder
Gtekriterien fremdsprachlicher Prfungen: Reliabilitt, Validitt, Authentizitt, Interaktivitt,
Rckwirkung und Praktikabilitt. Erst wenn eine Prfung alle sechs Kriterien in akzeptablem
Mae erfllt, handelt es sich im Sinne von Bachman / Palmer um eine ntzliche oder sinnvolle
Prfung, d.h. um eine Prfung, die Aussagen darber machen kann, wie sich die getestete Person
bei sprachlichen Kommunikationsaufgaben des wirklichen Lebens verhalten wrde.
Reliabilitt ist eine Funktion der Zuverlssigkeit der Ergebnisse. Eine Prfung gilt als reliabel
oder zuverlssig, wenn Testergebnisse reproduzierbar sind, d.h. wenn das Ergebnis nicht von
anderen als den zu messenden Faktoren, z.B. der Person oder Tagesform des Prfers, der Art und
Weise, wie die Aufgaben formuliert werden u.., abhngt.
Validitt, im Sinne von Konstruktvaliditt, ist eine Funktion der Angemessenheit oder Gltigkeit
der Interpretation der Ergebnisse. Das Konstrukt ist die przise Beschreibung (Definition) der
Fhigkeit, die ein bestimmter Test messen soll. Es bildet die Grundlage des Tests und die
Grundlage der Interpretation der Ergebnisse. Das Testergebnis soll ber sich hinaus Aussagen
machen, also nicht nur darber, wie die getestete Person im Test abgeschnitten hat, sondern auch
darber, wie sich die getestete Person in authentischen sprachlichen Situationen verhalten wrde.
Authentizitt ist eine Funktion der Realittsnhe der Aufgaben. Die Art, wie die Fremdsprache
im Test benutzt wird, muss damit, wie sie im natrlichen Sprachgebrauch verwendet wird,
bereinstimmen. Das bedeutet, dass die Merkmale einer Testaufgabe mit den Merkmalen
natrlicher Sprechhandlungsaufgaben korrespondieren mssen. Ebenso muss die Art der
Bewertung realittsnah sein.
Interaktivitt bedeutet, dass Testergebnisse auf Grund der Kenntnisse und Fhigkeiten, ber die
Aussagen gemacht werden sollen, variieren und nicht auf Grund anderer Kenntnisse, Fhigkeiten
oder Reaktionen, z.B. das Sach- und Fachwissen der geprften Person, ihre Gefhle oder die

verwendeten Prfungsstrategien. Die Fhigkeit, ber die in fremdsprachlichen Tests Aussagen


gemacht werden soll, ist normalerweise die sprachliche Handlungsfhigkeit. Je mehr bei der
Lsung einer Aufgabe das jeweilige fremdsprachliche Knnen involviert ist, desto grer ist die
Interaktivitt der Prfung. Interaktivitt hat Auswirkungen sowohl auf die Reliabilitt wie auf die
Validitt einer Prfung. Je weniger die Testergebnisse durch emotionale Reaktionen der
Testteilnehmer oder durch Kenntnisse und Fhigkeiten, die nicht Gegenstand der Prfung sind,
beeinflusst werden, desto grer ist die Reliabilitt der Prfung. Je mehr die Prfung genuin
sprachliches Knnen evoziert, desto hher ist die Validitt.
Unter Rckwirkung versteht man den Einfluss von Prfungen auf Lerner und Lehrer, auf Schule
und Unterricht. Lerner verndern sich durch die Teilnahme an einer Prfung, durch das
Feedback, das sie zur Prfung bekommen und durch die Entscheidungen, die auf Grund der
Prfung getroffen werden. Das Feedback zum Test kann beeinflussen, wie die Kandidaten in
Zukunft lernen, vor allem, wenn dieses Feedback vollstndig und inhaltlich relevant ist, dadurch,
dass Prfungsziele transparent sind und die Performanz der Kandidaten detailliert analysiert und
bewertet wird. Die Entscheidungen, die auf Grund von Tests getroffen werden, haben potentiell
eine sehr hohe Rckwirkung auf die Kandidaten und knnen Lebenswege beeinflussen. Ebenso
haben Prfungen eine Rckwirkung auf den auf sie vorbereitenden Unterricht.
Unter Praktikabilitt verstehen Bachman / Palmer einen vernnftigen Zusammenhang zwischen
Aufwand und Ergebnissen einer Prfung. Die Prfung selbst muss eine vernnftige Lnge haben.
Der Aufwand, der fr die Entwicklung der Prfung zu betreiben ist, darf nicht unzumutbar hoch
sein, ebenso wenig wie der fr ihre Bewertung.
3.

Konstrukt und Konstruktvaliditt

Dieses Kapitel stellt zwei Wege vor, ein Konstrukt zu definieren und Konstruktvaliditt
herzustellen, zum einen ber ein theoretisches Modell mndlicher Handlungsfhigkeit und zum
anderen ber ein empirisches Verfahren, das der Bedarfsdiagnose und der reprsentativen
Auswahl. Zuvor soll jedoch zwischen direkten, indirekten und semi-direkten Prfungen
unterschieden werden.
3.1

Direkte, indirekte und semi-direkte Prfungen

Eine direkte Prfung testet die Fhigkeit, ber die Aussagen gemacht werden soll, dadurch, dass
die Fhigkeit selbst zum Gegenstand der Prfung gemacht wird. Die Fhigkeit, an akademischen
Diskussion teilzunehmen, wird z.B. dadurch geprft, dass der Kandidat an einer akademischen
Diskussion teilnimmt, oder die Fhigkeit, Verkaufsgesprche per Telefon zu fhren, wird
dadurch geprft, dass Verkaufsgesprche ber Telefon gefhrt werden. Eine indirekte Prfung
testet die Fhigkeit, ber die Aussagen gemacht werden soll, dadurch, dass ein wichtiges Element
der Fhigkeit, beim Sprechen zum Beispiel die Aussprache, berprft wird, oder dass etwas
Anderes geprft wird, dass mit der Fhigkeit, die geprft werden soll, korreliert. Es hatte sich
zum Beispiel gezeigt, dass Vokabelkenntnisse sehr gut mit Leseverstndnis korrelieren (Pike
1979). Dies fhrte dazu, dass in der zweiten Hlfte des 20. Jh. die Lesekompetenz oft durch
Discrete-Point-Wortschatzaufgaben berprft wurde. Direkte Tests werden oft auch
Performanztests genannt und indirekte Tests Kompetenztests, weil bei letzteren durch das im Test
beobachtete Verhalten auf unbeobachtbare Fhigkeiten geschlossen wird (Grotjahn 2000).

Semidirekte Tests sind Prfungen, bei denen zwar die Fhigkeit, ber die Aussagen gemacht
werden soll, integriert oder holistisch getestet wird, die Fhigkeit also nicht in einzelne
Bestandteile zerlegt wird, die getrennt getestet werden, dies aber nicht auf authentische Weise
geschieht, sondern diese Authentizitt nur simuliert. Ein semidirekter Test mndlicher
Handlungsfhigkeit ist z.B. das Simulated Oral Proficiency Interview (SOPI) des Centers for
Applied Linguistics (Stansfield / Kenyon 1992), in dem Kandidaten eine Reihe unterschiedlicher
kommunikativer Situationen auf Tonband vorgespielt wird, auf die sie reagieren sollen, was
wiederum ebenfalls auf Tonband aufgenommen wird. Der Beitrag von Kniffka / stnsz-Beurer
in diesem Band beschftigt sich am Beispiel von TestDaF mit semidirekten Tests mndlicher
Handlungsfhigkeit, auf die in diesem Beitrag deshalb nicht weiter eingegangen werden soll.
Das wichtigste Gtekriterium von Prfungen ist ihre Validitt. Heute wird Validitt meist als
Konstruktvaliditt definiert, die als Grundlage aller anderen Arten von Validitt gesehen wird
(Cumming / Berwick 1996). Eine Prfung besitzt Konstruktvaliditt, wenn eine bestimmte
Fhigkeit direkt getestet wird. Auch bei indirekten Tests kann Konstruktvaliditt hergestellt
werden, wenn die zu berprfende Fhigkeit theoretisch przise beschrieben wird. Das zugrunde
liegende theoretische Modell oder Konstrukt muss alle relevanten Bestandteile oder Merkmale
dieser Fhigkeit enthalten. Die wesentlichen Merkmale knnen dann einzeln geprft werden,
wobei ihre Summe ein Indikator der Fhigkeit selbst sein muss. Indirektes Prfen mndlicher
Handlungsfhigkeit setzt voraus, dass alle kognitionspsychologisch relevanten Faktoren, die
zusammengenommen die Sprechkompetenz ausmachen, einzeln und in ihrem Zusammenspiel
miteinander beschrieben werden. Dies ist mit dem heutigen Wissen noch nicht mglich.
Zur Validierung des Konstrukts mndliche Handlungsfhigkeit mssen mindestens die folgenden
vier Vorarbeiten geleistet werden (vgl. Cumming, 1997, fr das Konstrukt schriftliche
Handlungsfhigkeit):
1.

2.
3.
4.

Es muss eine Liste der wesentlichen Merkmale, mit deren Hilfe mndliche Texte nichtnativer Sprecher unterschiedlicher Kompetenzniveaus voneinander geschieden werden
knnen, erstellt werden.
Es muss ein Modell zweitsprachlicher mndlicher Kompetenz entwickelt werden.
Es mssen die Skalen und Kriterien, mit deren Hilfe mndliche Texte bewertet werden
sollen, empirisch validiert werden.
Es mssen die subjektiven Kriterien der Bewerter und die Entscheidungswege, auf denen
sie zu ihren Beurteilungen kommen, empirisch untersucht werden.

Die Forschung zu allen Punkten auer dem zweiten steht teilweise noch recht weit am Anfang.
Fest steht, dass das Konstrukt "zweitsprachliche mndliche Kompetenz" mehr enthalten muss als
die Fhigkeit grammatische Strukturen zu beherrschen und die richtigen Vokabeln zu kennen.
Obwohl die Arbeit an einem solchen Konstrukt sicherlich noch lnger dauern wird, knnen aus
den vorhandenen Studien die folgenden Konsequenzen gezogen werden:

Die Qualitt zweitsprachlicher mndlicher Texte kann nicht durch ein einfaches
Zusammenzhlen von Fehlern bewertet werden.

Weil sowohl Skalen wie auch Beurteilungskriterien von Bewertern subjektiv interpretiert
und subjektiv gewichtet werden, ist es unbedingt notwendig, eine angemessene
Bewerterschulung durchzufhren, damit so weit wie mglich Objektivitt hergestellt

werden kann.
Indirekte Tests mndlicher Handlungsfhigkeit sind erst dann vertretbar, wenn die
Forschung, vor allem zu Punkt 1 und 2, grere Fortschritte gemacht hat. Dies ist im
Moment noch nicht der Fall.

Weil das indirekte Prfen integrierter Fertigkeiten mit so vielen Problemen behaftet ist, hat sich
bei den produktiven Fertigkeiten des Sprechens und Schreibens das direkte Testen durchgesetzt.
Es gibt zwei Mglichkeiten, ein Konstrukt zu definieren, auf Grund dessen ein Test entwickelt
werden kann. Es kann theoretisch definiert werden, dadurch, dass es auf einem Modell
zweitsprachlicher Kompetenz und zweitsprachlichen Lernens beruht, und es kann empirisch ber
eine Bedarfsdiagnose definiert werden. Damit beschftigen sich die nchsten beiden Abschnitte.
3.2

Mndliche Handlungsfhigkeit

Mndliche Kompetenz wird heute in erster Linie als Sprechhandlungskompetenz verstanden, als
die Fhigkeit, in authentischen kommunikativen Situationen im Zielsprachenland bzw. mit
Sprechern der Zielsprache sprachlich richtig und kommunikativ angemessen zu handeln. Canale
und Swain (1980) waren die ersten, die versuchten, ein umfassendes Modell kommunikativer
Kompetenz zu entwickeln. Grundlage ihres Modell war das Konstrukt kommunikative
Kompetenz, das von Hymes (1972) entwickelt wurde, um die reduktionistische Sprachauffassung
Chomskys zu berwinden. Dieses Modell umfasst in der Version von Canale (1983) vier Komponenten: grammatische Kompetenz, Diskurskompetenz, soziolinguistische Kompetenz und
strategische Kompetenz. Bachman (1990) bernimmt dieses Modell, erweitert und przisiert es,
und benutzt es als Grundlage fr Tests kommunikativer Kompetenz.
Organisatorische Kompetenz
Grammatische
Kompetenz
Phonologie

Pragmatische Kompetenz

Strategische
Kompetenz

Textkompetenz

Funktionale
Soziolinguistische
Kompetenz
Kompetenz
Rhetorische
Ideationale
Sprachvarianten
Ziele setzen
Organisation
Funktion
Morphologie
Kohsion
Imaginative
Register
Planen
Funktion
Syntax
Heuristische
Idiomatik
Evaluieren
Funktion
Wortschatz
Manipulative Kulturelle KomFunktion
petenz
Abbildung 1. Bachmans Modell kommunikativer Kompetenz (Bachman / Palmer 1996)
In der geringfgig berarbeiteten Fassung von Bachman / Palmer (1996) unterscheidet Bachman
zwischen organisatorischer Kompetenz, pragmatischer Kompetenz und strategischer Kompetenz
(s. Abb. 1). Unter organisatorischer Kompetenz versteht er die Fhigkeit, Wrter zu Stzen und
Stze zu Texten zu verbinden. Dies bedeutet die Beherrschung phonologischer, morphologischer,
syntaktischer, lexikalischer und textlinguistischer Regeln. Zu letzteren gehren das Wissen
darber, wie mndliche Texte und Interaktionen aufgebaut sind (Rhetorische Organisation) und
darber, wie man Stze mit Hilfe von Konjunktionen, Pronomen, Adverbien u.. zu Texten verknpft (Kohsion).

Unter pragmatischer Kompetenz versteht Bachman, die Fhigkeit Sprechhandlungen durchzufhren, d.h. Sprache fr einen bestimmten Zweck zu benutzen (funktionale Kompetenz), ebenso wie
die Fhigkeit dies situations- und adressatengerecht zu tun und dabei Regeln soziokultureller Art
zu beachten (soziolinguistische Kompetenz). Zur Sprechhandlungskompetenz gehrt die Fhigkeit, Wissen und Informationen zu vermitteln (ideationale Funktion), Inhalte zu erfinden (imaginative Funktion), Wissen zu erlangen (heuristische Funktion), und Menschen zu beeinflussen
(manipulative Funktion). Zur soziolinguistischen Kompetenz gehrt die Fhigkeit,
unterschiedliche Dialekte und Soziolekte zu verstehen oder zu benutzen. Weiter gehrt dazu die
Fhigkeit, verschiedene Register zu benutzen, die Fhigkeit, idiomatisch zu sprechen, und die
Fhigkeit, Verweise und idiomatische Wendungen kultureller Art zu verstehen und zu benutzen.
Unter strategischer Kompetenz schlielich versteht Bachman sowohl die Fhigkeit, trotz lexikalischer und grammatischer Beschrnkungen sprachlich handlungsfhig zu bleiben, wie auch die
Fhigkeit, sprachliche Kompetenz bewusst und zielgerichtet einzusetzen, zu planen und zu evaluieren.
Obwohl die Leitlinien mndlicher Handlungsfhigkeit des American Council on the Teaching of
Foreign Languages (ACTFL 1986, 1999) auf empirische Weise entwickelt wurden (vgl. 3.3) sind
sie mit Bachmans Modell kompatibel. Damit stellt das ACTFL Oral Proficiency Interview
(Swender 1999), das auf diesen Leitlinien aufbaut, eines der wenigen mndlichen Testverfahren
dar, das sowohl theoretisch wie empirisch validiert ist (Dandonoli / Henning 1990). Die
unterschiedlichen sprachlichen Kompetenzen des Modells von Bachman sind in ein
Gesamtkonzept eingebaut, welches verschiedene Lernstufen unterscheidet. Die organisatorische
Kompetenz entwickelt sich z.B. in vier Stufen vom Wort zum Satz und weiter zu einfachen und
dann zu komplexen Texten. Die soziolinguistische Kompetenz entwickelt sich von der
Benutzung nur eines Registers zur Benutzung unterschiedlicher Register. Ebenso entwickeln sich
die funktionale und strategische Kompetenz. Zuerst knnen nur einige wenige einfache Funktionen und Strategien benutzt werden. Je hher die Kompetenz, desto umfangreicher und
komplexer werden auch Funktionen und Strategien.
3.3

Bedarfsdiagnose und reprsentative Auswahl

Das Ziel vieler Prfungen ist es herauszufinden, ob ein Kandidat eine bestimmte Studienreife hat
oder die ntigen Qualifikationen fr einen bestimmten Beruf besitzt. Das erste Ziel bei der
Erstellung solcher Prfungen ist es, die sprachlichen Handlungen zusammenzustellen, die in der
Regel im Studium oder im Beruf ausgefhrt werden mssen und die der Kandidat erfolgreich
bewltigen soll. Je prziser die Kontexte definiert werden knnen, in denen die Kandidaten
sprachlich handeln sollen, desto einfacher ist es, eine Bedarfsdiagnose herzustellen. Es ist relativ
leicht zum Beispiel, die Sprechhandlungen zu erfassen, die eine Fremdsprachensekretrin
erledigen muss, die in einer bestimmten Firma Auslandsgesprche annehmen und fhren muss.
Schwieriger ist es zu bestimmen, welche Sprechkompetenzen zum Beispiel beim Abschluss eines
fremdsprachlichen Studiums vorhanden sein mssen, das auf eine Reihe unterschiedlicher Berufe
vorbereiten soll. In diesem Fall ist es oft ntig, auf ein theoretisches Modell zweitsprachlicher
mndlicher Kompetenz zurckzugreifen, wie es von Zweitsprachenerwerbsforschern entwickelt
wurde (vgl. 3.2).
Wenn das Konstrukt empirisch ber eine Bedarfsdiagnose oder theoretisch ber ein Modell

kommunikativer Kompetenz definiert wird und die Sprechhandlungen, die die Testkandidaten
nachweisen mssen, przise beschrieben sind, kann aus diesen Sprechhandlungen eine
reprsentative Auswahl getroffen werden. Als Faustregel gilt, dass eine Prfung um so valider ist,
je mehr unterschiedliche Handlungen Gegenstand von Prfungsaufgaben sind. Alle Inhalte und
Fertigkeiten knnen aus konomischen Grnden selten geprft werden. Je prziser ein Test auf
eine genau definierte Zielgruppe hin entwickelt wird, desto berschaubarer sind meist die
sprachlichen Handlungen, die geprft werden mssen.
Es gibt unterschiedliche Versuche, die Menge der Sprechhandlungen in kleine, berschaubare
Gruppen einzuteilen. Dies variiert je nach dem, welche Rollen (Hotelrezeptionist, Diplomat,
Lehrer usw.) ausgebt werden. Viele Sprachtests werden entwickelt, um Studierfhigkeit in der
Zielsprache nachzuweisen. Die folgenden bergreifenden Sprechhandlungen, die dafr ntig
sind, werden dabei am hufigsten genannt.

Informationen und Beispiele geben bzw. erfragen


Personen und Objekte beschreiben
einen Vorgang beschreiben, z.B. um anderen Personen sagen zu knnen, wie man etwas
macht
einen Augenzeugenbericht geben
Sachverhalte vergleichen und kontrastieren
Erlebnisse und Erfahrungen schildern
Gelesenes oder Gehrtes berichten
Vor- und Nachteile errtern
Ziele und Zwecke verbalisieren
einen Sachverhalt beschreiben und kommentieren
Meinungen bzw. Vorlieben ausdrcken und begrnden
Mglichkeiten ausdrcken

Diese zwlf Sprechhandlungen lassen sich auf fnf reduzieren: Informationen geben und erfragen, beschreiben und errtern, berichten und erzhlen, kommentieren und begrnden, und Mglichkeiten ausdrcken. Neben diesen Sprechhandlungen sind eine Reihe weiterer Dimensionen
wichtig, um authentische kommunikative Situationen und Prfungsaufgaben zu beschreiben.

Thema
Register (Grad der Frmlichkeit)
Anzahl der Gesprchsteilnehmer
Alter und Geschlecht der Gesprchsteilnehmer
Status und Rolle der Gesprchsteilnehmer
Bekanntheitsgrad zwischen den Gesprchsteilnehmern

Diese sechs Dimension lassen sich auf zwei Hauptdimensionen reduzieren, nmlich Thema und
Frmlichkeitscharakter der Situation. Alter, Geschlecht, Status, Rolle, Bekanntheitsgrad und
teilweise Anzahl der Gesprchsteilnehmer bestimmen den sozialen Kontext eines Gesprchs und
damit den erforderlichen Grad der Distanziertheit und Frmlichkeit bzw. das zu verwendende
Register.
Ein weiterer Aspekt ist die Lnge und Dichte der zu produzierenden Texte. Sowohl beim Hren

als auch beim Sprechen wird die Lnge und Dichte von Texten von der Verarbeitungskapazitt
des Arbeitsgedchtnisses beeinflusst. Die Verarbeitungskapazitt hngt wiederum vom
Kompetenzniveau des Fremdsprachenlerners ab. Beim Hrverstehen z.B. werden folgende
Schwierigkeitsgrade unterschieden (Cook 1994):

Identifizieren
prozedurales Verstehen
narratives Verstehen
Verstehen argumentierender Texte

Diese Hrhandlungen erfordern jeweils grere Gedchtnisleistungen. Das Identifizieren von


Namen oder Zahlen erfordert lediglich ein Wiedererkennen von Wrtern. Beim prozeduralen
Verstehen geht es darum, einzelne Schritte eines Vorgangs der Reihe nach zu verstehen. Jede
einzelne uerung wird unabhngig von den anderen verstanden. Das narrative Verstehen
erfordert ein Speichern von kohsionsstiftenden Elementen im Arbeitsgedchtnis oder in einem
speziellen grammatischen Gedchtnis (Pienemann 1999). Zeitliche, rumliche und personale
Verweise mssen im Gedchtnis behalten werden. Im Vergleich zum Verstehen
argumentierender Texte wird das narrative Verstehen allerdings durch die Vorhersagbarkeit
vieler Einzelheiten untersttzt, also durch das Weltwissen der Zuhrer und ein Wissen ber
Schemata und Skripte. Beim Verstehen argumentierende Texte mssen darber hinaus
Makrostrukturen und logische Verweise im Gedchtnis behalten werden. Eine weitere
Schwierigkeit dieser Texte ist es, dass sie meist wenig vorhersagbar sind.
Beim Sprechen gibt es eine hnliche Schwierigkeitshierarchie. Die einfachste Form des
Sprechens ist ein Aneinanderreihen von Wrtern oder auswendig gelernten Phrasen, die
unverbunden nebeneinander stehen. In vielen empirischen Studien hat sich gezeigt, dass dies die
erste Stufe des Spracherwerbsprozesses darstellt (vgl. Pienemann 1999). Auf einer zweiten Stufe
werden Wrter zu Stzen verknpft und auf einer dritten Stufe Stze zu Texten, d.h. zuerst
werden grammatische Elemente wie Subjekt-Verb-Kongruenz und die Satzstellung in
Hauptstzen erworben und zu einem spteren Stadium Kasus und Satzstellung in Nebenstzen
(vgl. Diehl u.a. 2000, Pienemann 1999, Tschirner 1996). Schlielich sind Texte wie Erzhlungen
und Beschreibungen, die eine schon vorgegebene innere Struktur haben, leicher zu formulieren,
als argumentierende Texte, bei denen grere Einheiten auf vielfltige Art und Weise (kausal,
logisch) miteinander verknpft werden mssen.
Diese vier Aspekte kommunikativer Situationen, Texttyp, Sprechhandlung, Thema und
Frmlichkeitscharakter der Situation, mssen in mndlichen Prfungen systematisch variiert
werden, vor allem bei umfassenden Prfungen, die auf kein bestimmtes, przise beschriebenes
Berufsbild abzielen knnen. Die ACTFL Leitlinien mndlicher Handlungsfhigkeit unterscheiden
auf der Basis von fnf Kriterien insgesamt zehn Haupt- und Nebenniveaus. Zu diesen Kriterien
gehren Texttyp, Sprechhandlung, Themenbereich, Sozialer Kontext, also die gerade erwhnten
vier Aspekte kommunikativer Situationen. Hinzu kommt als fnftes Kriterium, die sprachliche
Angemessenheit. Die Kompetenzstufen reichen vom Nullanfnger bis zum Experten, einem
Sprecher, der hchste sprachliche Anforderungen erfllen kann. Die ACTFL Leitlinien gehen
hnlich wie bei Texttyp, Thema und Register von einer Entwicklungshierarchie von
Sprechhandlungen aus. Die in dieser Sektion geschilderten Sprechhandlungen verteilen sich
dabei wie folgt auf die vier Hauptniveaus der Leitlinien:

Einstiegsniveau (Novice): noch keine funktionale Kompetenz


Alltagsniveau (Intermediate): Informationen geben und erfragen
Professionelles Niveau (Advanced): beschreiben und errtern, berichten und erzhlen
Expertenniveau (Superior): kommentieren und begrnden, Mglichkeiten ausdrcken
4.

Interaktivitt, Authentizitt, Praktikabilitt und Rckwirkung: Das Prfungsgesprch

Mndliche Prfungen bestehen aus zwei deutlich unterscheidbaren Prozessen: das


Prfungsgesprch und das Bewertungsverfahren. In diesem Kapitel kommen unterschiedliche
Elemente des Prfungsgesprchs zur Sprache, vor allem die Aufgabenstellungen und die
Prfungsstruktur. Aufgabenstellung und Prfungsstruktur werden dabei vor allem unter den
Aspekten Interaktivitt, Authentizitt, Praktikabilitt und Rckwirkung betrachtet.
4.1

Aufgaben

Mndliche Prfungen sollen sprachliches Verhalten ber eine reprsentative Auswahl von
Texttypen, Sprechhandlungen, Themen, und sozialen Kontexten dokumentieren, damit dieses
Verhalten mit dem Verhalten, wie es zum Beispiel durch eine Bewertungsskala definiert wird,
verglichen und eingeordnet werden kann. Damit sind zum einen die Aufgaben wichtig, die dafr
sorgen, dass das Abschneiden der Testperson in der Prfung reprsentativ fr das sprachliche
Knnen der Testperson auerhalb der Prfung ist. Zum anderen ist es wichtig, dass die
Prfungsstrategien und Elizitierungstechniken des Prfers dafr sorgen, dass die uerungen von
Prfungskandidaten umfangreich und reichhaltig genug sind, um eine sichere Grundlage fr den
Vergleich mit den Bewertungskriterien zu gewhrleisten. Die Reprsentativitt der Auswahl
erhht die Validitt, das Elizitieren umfangreicher und interpretierbarer Sprachbeispiele erhht
die Reliabilitt der Prfung.
Interaktivitt im testwissenschaftlichen Sinne ist eine Eigenschaft sowohl von Testaufgaben wie
von Aufgaben in lebensechten sprachlichen Kontaktsituationen. Unter Interaktivitt versteht man
die Art und Weise, wie Eigenschaften von Aufgaben mit Eigenschaften von Menschen
interagieren. Das Ziel der Testforschung ist es, Aussagen ber diese menschlichen Eigenschaften
zu treffen. Menschen interagieren mit Aufgaben auf vier Ebenen: einer sprachlichen Ebene, einer
strategischen Ebene, einer Wissensebene und einer emotionalen Ebene (Bachman / Palmer 1996).
Das Ziel von Testaufgaben ist es, den Effekt der sprachlichen Ebene zu maximieren, denn nur
hier knnen Aussagen ber sprachliche Kompetenz getroffen werden. Das Ziel von Testaufgaben
ist es weiterhin, den Effekt der strategischen Ebene, der Ebene des Sach- und Fachwissens und
der emotionalen Ebene zu minimieren, um die Testergebnisse so weit wie mglich auf den
Einfluss der sprachlichen Ebene beruhen zu lassen.
Geht man von einer modularen Organisation des Gehirns aus (Fodor 1983), interagieren Aspekte
der Aufgabe - soweit sie mndlich gestellt ist bzw. bearbeitet werden soll - mit dem mentalen
Lexikon der Lerner und dabei mindestens mit zwei Modulen, dem phonetisch-phonologischen
und dem semantisch-syntaktischen Modul (Aitchison 1994), jeweils unabhngig voneinander und
auf unterschiedliche Weise. Bachman (1990) trennt das semantisch-syntaktische Modul in einen
satz- und einen textgrammatischen Teil.
Zu diesen Modulen treten eine Reihe von Wissensbestnden, die mit Elementen der Aufgabe in

Interaktion treten, z.B. das Wissen darber, was man mit Sprache macht und bezweckt
(funktionale Kompetenz), wie man mit Gesprchspartnern interagiert, die unterschiedliche Rollen
bekleiden oder aus unterschiedlichen Kulturen stammen (soziolinguistische Kompetenz), wie
man sprachliche Aufgaben effizient und effektiv lst bzw. sie berhaupt lst (strategische
Kompetenz) und das allgemeine Wissen, das man ber die Welt hat (Sach- und Fachwissen,
Schemata und Skripte).
Schlielich interagieren Merkmale der Aufgabe mit emotionalen Merkmalen der Kandidaten.
Dazu gehren Persnlichkeitsmerkmale, Wertesysteme, die Einschtzung der eigenen Person und
der Angemessenheit des eigenen sprachlichen Niveaus zur Lsung einer Aufgabe. Abbildung 2
fasst diese Merkmale zusammen.
sprachliche Kompetenz
Wissensbestnde
emotionale Bestnde
lexikalische Kompetenz
funktionale Kompetenz
Persnlichkeit
phonetisch-phonologische K. sozio-linguistische K.
Wertsysteme
satzgrammatische K.
strategische Kompetenz Einschtzung der eig. Person
textgrammatische K.
Sach- und Fachwissen
Einschtzung der Kompetenz
Abbildung 2: Merkmale von Kandidaten, die mit Aufgaben interagieren
Die Aufgaben, die whrend des Prfungsgesprchs gestellt werden, haben eine Reihe von
Funktionen zu erfllen. Sie mssen authentisch sein, interaktiv und eine reprsentative Auswahl
aus den authentischen Aufgaben darstellen, fr die ein Bestehen der Prfung qualifizieren soll.
Authentisch bedeutet, dass die Prfungsaufgaben authentischen Sprechhandlungen in
authentischen Situationen hneln. Interaktiv bedeutet, dass die Prfungsaufgaben die Kandidaten
dazu anregen, ihre sprachliche Kompetenz unter Beweis zu stellen. Dabei muss deutlich werden,
welchen Anteil die rein sprachliche Kompetenz beim Lsen der Aufgabe hat und welche Anteile
das Sach- und Fachwissen oder die Gefhle der betreffenden Person. Die Anteile des Sach- und
Fachwissens knnen auf zweierlei Art und Weise kontrolliert werden. Zum einen knnen die
Aufgaben so gewhlt werden, dass kein spezielles Sach- und Fachwissen ntig ist, um sie zu
lsen. Zum anderen knnen die Themen, ber die gesprochen wird, ausgehandelt werden, d.h.
dem Kandidaten berlassen werden. Den ersten Weg gehen die meisten nationalen und
internationalen Prfungen, den zweiten Weg z.B. das ACTFL OPI.
Die Gefhle der Testperson knnen das Testergebnis auf unterschiedliche Weise beeinflussen.
Zum Beispiel kann ein bestimmtes Thema einen Kandidaten gefhlsmig strker belasten als
einen anderen. Ebenso kann die Einstellung eines Kandidaten seinen fremdsprachlichen
Kompetenzen gegenber das Ergebnis unterschiedlich beeinflussen. Schlielich kann das
Verhalten des Prfers einen unterschiedlichen Einfluss auf unterschiedliche Testpersonen haben.
Damit die Gefhle eines Testkandidaten das Prfungsergebnis nicht verflschen, muss auf die
Inhalte des Gesprchs geachtet werden, darauf, dass der Testkandidat ein positives Gefhl von
seinen Fhigkeiten bekommt, und darauf, dass die Testaufgaben den Prfern erlauben, allen Testkandidaten gegenber gleichmig freundlich distanziert zu agieren. Kontroverse Themen wie
Krieg, Abtreibung u.. sollten daher, zumindest auf unteren und mittleren Niveaus, eher
vermieden werden bzw. nur dann angesprochen werden, wenn man sicher ist, dass die Person
damit keine unangenehmen oder emotional aufwhlenden Erinnerungen verbindet. Ein positives
Gefhl von ihren Fhigkeiten kann man der Testperson dadurch vermitteln, dass ihr immer
wieder und mit Absicht lsbare Aufgaben gestellt werden, die ihr und dem Prfer zeigen, was sie

kann.
Die Merkmale der Aufgabe, Sprechhandlung, Thema, Situation, ben einen systematischen
Effekt darauf aus, wie eine Aufgabe gelst wird, und damit auf das Prfungsergebnis. Allerdings
wei man noch nicht sehr viel darber, welcher Aufgabentyp genau welchen Effekt hat. Vor allem wei man nicht, wie viele Aufgaben mit unterschiedlichen Sprechhandlungen, Themen und
Situationen gengen, um eine reprsentative Auswahl zu erreichen. So lange dies so ist, erscheint
es sicherlich ratsam, eher mehr als weniger unterschiedliche Aufgaben zu stellen.
Der SPEAK test des TOEFL Prfungsverfahrens (Educational Testing Service 1985) z.B. dauert
ca. 15 Minuten und besteht in seiner direkten Variante, d.h. von menschlichen Prfern von Angesicht zu Angesicht gegeben, aus vier unterschiedlichen Teilen:

ein Bild beschreiben


eine Geschichte erzhlen (anhand von Bildern)
seine Meinung zu einem aktuellen Thema darlegen
einen Plan oder ein Programm beschreiben

Die zentrale Mittelstufenprfung (ZMP) des Goethe-Instituts (Goethe-Institut 1997) dauert


ebenfalls 15 Minuten, weist aber, neben einer unbewerteten Aufwrmphase, in der nach
persnlichen Informationen gefragt wird, nur zwei Aufgaben auf.

seine Meinung zu einem aktuellen Thema darlegen (anhand zweier Fotos)


durch Aushandeln gemeinsam mit dem Prfer ein Problem lsen

Im Gegensatz zum SPEAK Test darf sich ein Prfungskandidat auf die ZMP vorbereiten und sich
dabei sogar Notizen machen. Die Vorbereitungszeit wird zwar kontrolliert und dauert nur 15
Minuten. Trotzdem wird dadurch Variabilitt in die Prfung hineingebracht, da Prflinge diese
Zeit unterschiedlich gut nutzen werden. Jemand, der unter Prfungsdruck gezielt und konzentriert
arbeiten kann, jemand, der sich effektiv Notizen machen und mit diesen Notizen whrend des
Gesprchs effektiv umgehen kann, wird sicherlich ein besseres Ergebnis erzielen als jemand, der
das nicht kann. Damit wird aber nicht nur mndliche Handlungsfhigkeit geprft. Am Ergebnis
ist nicht ablesbar, welchen Einfluss mndliche Handlungsfhigkeit darauf hatte und welchen Einfluss andere Faktoren wie effektive schulische oder universitre Arbeitsroutinen. Gleichzeitig
spiegelt das Ergebnis eine Mischung aus spontaner und vorbereiteter Handlungsfhigkeit wider,
wobei es keine Rckschlsse darauf zulsst, welche Anteile am Ergebnis die spontane Handlungsfhigkeit trgt und welche Anteile die Vorbereitung.
Das ACTFL OPI variiert in der Aufgabenstellung je nach Niveau des Testkandidaten und dauert
je nach Niveau zwischen 10 und 30 Minuten. Ein typisches Interview weist neben einer Aufwrmphase und einer Abkhlphase mindestens 9 unterschiedliche Aufgaben auf. Je nach Gltigkeit, Umfang und Reichhaltigkeit der erzielten Antworten knnen es aber wesentlich mehr werden. Die Aufgabentypen variieren von Niveau zu Niveau. Hier sind einige der Aufgaben, die z.B.
auf dem hohen Alltagsniveau (Intermediate) gestellt werden.

Informationen geben bzw. erfragen


eine Person beschreiben

einen Ort oder eine Sache beschreiben


einen Ablauf beschreiben
ber Plne sprechen
eine Geschichte erzhlen
ein aktuelles Thema errtern
eine einfache Situation aus dem Alltag bewltigen (Fragen stellen, kurze Antworten geben, Vorschlge machen, gemeinsam entscheiden)

Einige dieser Sprechhandlungen werden mehrmals elizitiert, z.B. im Rahmen eines weiteren Themas oder im Bezug auf andere Zeitformen (z.B. etwas im Prsens und etwas anderes im Perfekt
beschreiben). Die einfache Situation aus dem Alltag wird durch ein Rollenspiel simuliert. Die
Anzahl der Aufgaben hngt von der Struktur des Interviews ab. Prfungsziel ist es, ber ca. vier
unterschiedliche Themen hinweg zu zeigen, was die Testperson kann und was sie nicht kann. Das
ergibt pro Thema zwei Aufgaben. Zusammen mit dem Rollenspiel weist ein typisches Interview
damit mindestens neun Aufgaben auf. Da nicht jede Aufgabe zum erwnschten Ziel fhrt, kommt
es oft vor, dass mehr als neun Aufgaben gestellt werden mssen, damit man mindestens neunmal
eindeutige sprachliche Belege dafr zu bekommt, was eine Person kann und was sie nicht mehr
kann. Das OPI enthlt damit deutlich mehr Aufgaben als die ZMP und auch als der SPEAK Test.
Die Wahrscheinlichkeit, dass es eine reprsentative Auswahl an authentischen Sprechhandlungen
enthlt, ist damit wesentlich hher.
Eine Reihe von Testspezialisten ist der Meinung, dass eine mndliche Prfung nur die mndliche
Handlungsfhigkeit testen sollte, nicht gleichzeitig auch Leseverstndnis oder Hrverstndnis
oder Persnlichkeitsvariablen wie Kreativitt, Wissen oder Intelligenz (Hughes 1989). Wenn
andere Variablen zusammen mit der mndlichen Handlungsfhigkeit getestet werden, ist nicht
klar, worauf eine bestimmte Bewertung beruht, vielleicht darauf, wie gut das Gedchtnis von
Testteilnehmern ist (Beispiel mndliche Nacherzhlung), darauf, wie gut ihre Vorstellungskraft
ist (Beispiel Rollenspiel) oder darauf, wie umfangreich oder spezifisch ihr Wissen ist (Beispiel
Diskussion eines literarischen Werkes). Es ist schwierig, wenn nicht unmglich, die Validitt von
Prfungen, die Fertigkeiten und Persnlichkeitsvariablen vermischen, zu bestimmen. Gleichzeitig
verringert eine undurchsichtige Vermischung von Variablen die Reliabilitt einer Prfung.
4.2

Prfungsstruktur

Das Ziel einer mndlichen Prfung ist es, eine reprsentative Auswahl der Sprechhandlungen, die
eine Person ausfhren kann, auf konomische Weise zu liefern. Gleichzeitig muss bedacht
werden, wie die einzelnen Aufgaben mit den Merkmalen der getesteten Person interagieren, mit
ihrer sprachlichen Kompetenz, mit ihrem Sach- und Fachwissen und mit ihren Gefhlen.
Schlielich soll das Prfungsgesprch eine positive Rckwirkung auf die getestete Person haben,
auf die Art und Weise, wie sie ihre eigene Kompetenz wahrnimmt, wie zufrieden sie mit ihr ist,
und darauf, welche Schlsse sie im Hinblick auf ihre weitere fremdsprachliche Entwicklung
zieht. Im diesem Abschnitt soll gezeigt werden, wie zwei bekannte standardisierte mndliche
Prfungformate, das ACTFL Oral Proficiency Interviews (OPI) und das Zertifikat Deutsch,
versuchen, diese Kriterien zu erfllen, bzw. nur einzelne dieser Kriterien erfllen.
4.2.1 Das ACTFL OPI

Das OPI (Swender 1999) beginnt mit einer unbewerteten Aufwrmphase. Diese Phase verfolgt
mehrere Ziele. Zum einen ist sie dafr gedacht, das Gesprch auf einem Niveau zu beginnen, mit
dem der Kandidat keinerlei Probleme hat, damit er sich zu Beginn des Prfungsgesprchs kompetent fhlen kann. Gleichzeitig bewirkt diese Phase, dass sich die Testperson "aufwrmt", d.h.
beginnt, wieder auf Deutsch zu denken. Desweiteren ist das Ziel dieser Phase, Prferin und Prfling miteinander bekannt zu machen. Dies soll dazu fhren, dass das Gesprch authentischer
wird. Man unterhlt sich, um sich weiter kennen zu lernen. Zum anderen soll dadurch eine
freundliche und angenehme Atmosphre geschaffen werden. Die Aufwrmphase wird weiterhin
dazu benutzt, zu erfahren, wofr sich die getestete Person interessiert, um Themen fr die
Prfungsphase des Interviews zu gewinnen. Schlielich bekommt der Prfer im Rahmen dieser
Phase bereits erste Eindrcke darber, auf welchem Niveau sich die getestete Person befinden
knnte.
Der Hauptteil der Prfung rankt sich um 4-5 Themen, die sich auf den unteren Niveaus eher auf
elementare alltgliche Erfahrungen bzw. Autobiographisches beschrnken, auf den hheren
Niveaus mit dem Testkandidaten ausgehandelt werden. Dieses Aushandeln der Themen hat vor
allem ein interaktives Ziel, nmlich die sprachliche Kompetenz der Kandidaten in den
Mittelpunkt zu stellen und zu vermeiden, dass die Testresultate durch unterschiedliches
fachliches Wissen bzw. negative Gefhle unbrauchbar gemacht werden. Gleichzeitig verstrkt
das Aushandeln der Themen mit den Kandidaten die Authentizitt des Gesprchs. Letztendlich
fhrt es auch zu einer greren Testkonomie, weil vermieden wird, Themen anzuschneiden, zu
denen die Kandidaten nichts wissen bzw. nichts zu sagen haben.
Zu jedem Thema werden zuerst Fragen oder Aufgaben gestellt, von denen der Prfer annimmt,
dass sie der Kandidat problemlos beantworten kann, und dann Fragen oder Aufgaben, von denen
angenommen wird, dass sie der Kandidat nur mit Mhe bzw. gar nicht beantworten kann. Das
Ziel der Prfung ist, zu zeigen, was die Person kann (Boden) und was sie nicht kann (Decke), um
eine Profilbeschreibung zu erreichen, die die Person eindeutig zwischen zwei Niveaus platziert.
Der stndige Wechsel zwischen fr die Kandidaten einfachen und schwierigen Fragen fhrt sie
immer wieder auf ein Niveau von Mhelosigkeit zurck. Dies verschafft ihnen zum einen immer
wieder Erfolgserlebnisse, ein Gefhl von Kompetenz und damit eine positive emotionale
Grundstimmung, und zum anderen notwendige Ruhepausen fr die schwierigeren Fragen und
Aufgaben. Die Proben auf das nchsthhere Sprachniveau, das die Testperson noch nicht oder
nicht gut beherrscht, haben das Ziel, die Prfung auch noch oben hin bewertbar zu machen, denn
nur im Zusammenspiel zwischen Aufgaben, die gelst werden, und Aufgaben, die nicht gelst
werden, lassen sich Prfungsteilnehmer przise einordnen.
Ein Vorteil des Wechselns zwischen lsbaren und komplizierten Aufgaben, ist das Feedback, das
die getestete Person dadurch erhlt. Sie bekommt ein relativ deutliches Bild ihrer Fhigkeiten, darber, was sie kann und was sie nicht kann. Dies steigert zum einen die Validitt der Prfung fr
die getestete Person (Augenscheinvaliditt), zum anderen vermittelt es ein persnliches Profil,
das Ausgangspunkt weiterer Lernwege werden kann.
Weil in einem Prfungsgesprch nicht alle Sprechhandlungen und sozialen Kontexte auf authentische Weise elizitiert werden knnen, werden die Kandidaten, meist gegen Ende des Interviews,
gebeten, mit dem Prfer ein Rollenspiel durchzufhren, um z.B. einfache oder komplexe Transaktionen aus dem Alltag zu simulieren oder um die Rollen anders zu verteilen, um z.B. zu einem

anderen Register zu gelangen oder um das Autorittsgeflle in der Prfung umzukehren, damit
die Testperson mehr Eigeninitiative zeigen kann.
Testkonomie (Praktikabilitt) wird dadurch ins Spiel gebracht, dass ein bestimmtes Thema nur
so lange behandelt wird, bis man eindeutige Belege fr Boden- und Deckenniveaus bekommt,
z.B. dass eine bestimmte Sprechhandlung im Rahmen eines bestimmten sozialen Kontexts auf
eine sprachlich akzeptable Art und Weise durchgefhrt bzw. nicht durchgefhrt wurde. Whrend
andere Prfungen eine fest vorgegebene Zeit ansetzen, in der eine bestimmte Aufgabe gelst
werden muss, z.B. 5 Minuten fr den freien Vortrag im Rahmen der ZOP, kann ein OPI-Prfer,
sobald er die Belege hat, die er braucht, zur nchsten Aufgabe bergehen.
Das OPI endet mit einer Abkhlphase, in der die Kandidaten auf das Niveau zurckgebracht
werden, auf dem sie sich am wohlsten fhlen. Diese Phase dient dazu, das Prfungsgesprch fr
die Testperson mit einem Erfolgserlebnis zu beenden, um eine positive Rckwirkung auf das
weitere Lernen zu haben.
4.2.2 Das Zertifikat Deutsch
Die mndliche Prfung des Zertifikats Deutsch (WTB 1998) kann als Paar- oder als Einzelprfung durchgefhrt werden. Wie das eben beschriebene OPI soll es den Charakter einer Konversation haben. In der Paarprfung fungieren die Prfer als Moderatoren und sollen selbst mglichst
wenig sprechen. Sie sollen nur dann eingreifen, wenn eine der beiden Testpersonen im Gesprch
zu stark dominiert oder sich nicht aktiv beteiligt bzw. wenn das Gesprch zusammen bricht.
Die Prfung dauert ohne Vorbereitungszeit 15 Minuten. Sie besteht aus drei Teilen. Im Teil 1
nehmen die Testpersonen miteinander Kontakt auf, indem sie sich gegenseitig zu Herkunft,
Wohnung, Familie u.. Fragen stellen und diese Fragen beantworten. Im Teil 2 beschreiben
beide Gesprchspartner sich gegenseitig einen jeweils unterschiedlichen und nur ihnen
vorliegenden kurzen Text (ca. 30 Wrter) mit einer Grafik zu einem alltglichen Thema wie
Ferien. Im Anschluss daran beschreiben sie, wie sie selbst ihre Ferien verbringen. Im Teil 3 lsen
die Testkandidaten in einer Art Rollenspiel eine einfache Alltagsaufgabe, wie z.B. das Planen
einer Feier. Wenn sie als Einzelprfung durchgefhrt wird, spielt einer der Prfer die jeweils
andere Rolle. Es gibt weder eine Aufwrmphase noch eine Abkhlphase. Bevor die Testkandidaten die Prfung bestreiten, haben sie 20 Minuten Zeit, sich unabhngig voneinander auf sie
vorzubereiten. Insgesamt mssen die folgenden vier Aufgaben gelst werden.

Informationen geben bzw. erfragen


eine Grafik beschreiben
einen Ablauf beschreiben
eine einfache Situation aus dem Alltag bewltigen (Fragen stellen, kurze Antworten geben, Vorschlge machen, gemeinsam entscheiden)

Ziel der Prfung ist es, ein Gesprch zwischen Gleichgestellten zu simulieren (unter der Annahme, die Testkandidaten empfinden sich gegenseitig als gleichgestellt). Dies strkt die Validitt
und die Authentizitt. Geschwcht wird die Authentizitt aber dadurch, dass die Themen vorgegeben sind. Ein greres Problem scheint jedoch die Reliabilitt der Prfung zu sein. Dadurch
dass die Prfer nur eingreifen sollen, wenn eine Person dominiert bzw. wenn das Gesprch zu-

sammen bricht, bestimmen im Groen und Ganzen die Testkandidaten, wie schwierig bzw. wie
leicht ihre Fragen zu beantworten sind. In dem oben angegebenen Beispiel wrde es einen groen
Unterschied machen, wenn jemand danach fragt, wie man normalerweise seine Ferien verbringt,
oder ob er fragt, wie man seine letzten Ferien verbracht hat. Da die Bewertungskriterien nur danach fragen, wie gut etwas beantwortet wurde, und nicht danach, wie schwierig es war, kann es
hier zu groen Unterschieden in der Bewertung kommen. Es ist sicherlich auch schwierig fr den
Prfer zu entscheiden, wann ein Testkandidat dominiert und wann der Prfer einzugreifen hat.
Neben eindeutigen Fllen gibt es wahrscheinlich eine Vielzahl von Fllen, in denen eher per Zufall eingegriffen wird. Dies alles senkt deutlich die Reliabilitt.
Problematisch erscheint die Validitt im Hinblick auf die reprsentative Auswahl. Im Grunde
genommen werden nur vier Sprechhandlungen geprft: Fragen stellen, Antworten geben,
Vorschlge machen, etwas beschreiben. Zudem wre es fr die Prfung ausreichend, diese
Sprechhandlungen im Prsens zu bewltigen. Es wird nicht deutlich, in wie weit dies eine reprsentative Auswahl der Sprechhandlungen darstellt, die nach ca. 400 Unterrichtsstunden beherrscht werden. Zwar ist wahrscheinlich, dass sich eine Reihe weiterer Sprechhandlungen im
Laufe einer Prfung ergeben. Das Problematische daran ist, dass dies unkontrolliert und durch
Zufall erfolgt. Dies wrde wiederum deutlich die Reliabilitt und damit die Brauchbarkeit der
Prfung senken. Schlielich senkt die Tatsache, dass sich die Testkandidaten auf die Prfung vorbereiten knnen, die Authentizitt. (Auf wie viele einfache Alltagsgesprche bereitet man sich
vor?)
Die Interaktivitt der Aufgaben ist zum Teil gewhrleistet. Die sprachliche Kompetenz steht
deutlich im Vordergrund. Unterschiedliches Sach- und Fachwissen spielt bei den vorliegenden
Aufgaben kaum eine das Ergebnis beeinflussende Rolle. Emotional allerdings kann sich vieles
abspielen, je nachdem wie sich die beiden Testkandidaten auf sprachlicher wie auch auf emotionaler Ebene verstehen. So lange keine komfortable Flssigkeit in der Fremdsprache erreicht ist,
und das ist auf dem Niveau des Zertifikats noch nicht der Fall, so lange sind Fremdsprachensprecher darauf angewiesen, einen geduldigen und einfhlsamen Gesprchspartner zu haben, um zu
zeigen, was sie wirklich knnen. Einen solchen Gesprchspartner in einer anderen Testperson zu
finden, die vielleicht unmageblich besser Deutsch spricht als man selbst, ist eher zufllig und
mglicherweise selten.
Auch das Fehlen einer Aufwrmphase ist auf diesem Niveau ein Nachteil, da bei nicht stabiler
Kompetenz der Beginn einer Prfung besonders emotional belastend sein kann und den weiteren
Verlauf negativ vorbelasten kann. Ein weiterer Mangel im Bereich Interaktivitt ist es, dass fast
keine Mglichkeit besteht, das Prfungsgesprch mazuschneidern, d.h. sowohl vom Niveau her
wie von den Themen her den Bedrfnissen, Interessen und Mglichkeiten der Testteilnehmer anzupassen.
Eine positive Rckwirkung hat die mndliche Prfung des Zertifikats insofern, als dass die Aufgaben authentische Sprechhandlungen erfordern. Problematisch erscheint die restriktive und nicht
reprsentative Auswahl, ebenso die im Groen und Ganzen fehlende Wrdigung der emotionalen
Ebene der Prfungskandidaten. Besonders problematisch erscheint die geringe Reliabilitt, die
den Nutzen dieses Teils der Prfung in Frage stellt und damit diesen Teil fr Testteilnehmer wie
fr Testbenutzer entwertet.
5.

Validitt und Reliabilitt: Die Bewertung

Wie bereits in Sektion 4 festgestellt, bestehen mndliche Prfungen aus zwei deutlich
unterscheidbaren Prozessen, dem Prfungsgesprch und dem Bewertungsverfahren. Das
Bewertungsverfahren ist dabei der einzige Prozess, der potentiell objektiv ist bzw., wie wir sehen
werden intersubjektiv. Zum Verfahren gehren die Bewertungsskala, die Bewerter und die
Manahmen, die ergriffen werden, um Bewertungen so zuverlssig wie mglich zu machen.
Dazu wiederum gehrt die blinde Doppelbewertung und eine solide Prfer- und
Bewerterschulung. In dieser Sektion stehen deshalb Bewertungsskalen, Bewertungsverfahren und
Bewerterschulungen im Mittelpunkt und welchen Einfluss sie auf die Validitt und Reliabilitt
einer mndlichen Prfung haben.
5.1

Bewertungsskalen
Die Bewertungskriterien einer Prfung werden durch ihre Ziele bestimmt. Die Ziele
bestimmen das Konstrukt. Davon knnen Aussagen abgeleitet werden, wie sich das
Verhalten erfolgreicher Testkandidaten beschreiben lsst bzw. auf Grund welcher
Kriterien unterschiedliche Kompetenzniveaus unterschieden werden knnen. Wie in
Sektion 4 beschrieben mssen Bewertungkriterien bei breit angelegten mndlichen Tests
Aussagen dazu machen, welche Texttypen, Sprechhandlungen, Register und Themen auf
welchen Niveaus wie gut beherrscht werden und wie genau sich dieses Beherrschen zeigt.
Eine Bewertungsskala, die auf einem expliziten theoretischen Modell fremdsprachlicher
Kompetenz aufbaut, hat den Vorteil, dass nach Ende der Prfung Aussagen darber
gemacht werden knnen, wozu Testkandidaten fhig sind und wozu sie nicht fhig sind.
Damit lsst sich eine Profilbeschreibung erstellen, die sowohl potentiellen Arbeitgebern
ntzliche Informationen zu den sprachlichen Kompetenzen des Kandidaten liefert, wie
auch den Kandidaten selbst, die auf der Basis der Beschreibung ihrer Strken und
Schwchen selbst bestimmen knnen, was sie zur Vervollkommnung ihrer sprachlichen
Fhigkeiten bentigen. Ein weiterer Vorteil ist der, dass sie die Konstruktvaliditt der
Prfung erhht.
Neben der Mglichkeit, die Konstruktdefinition in die Bewertungsskalen einflieen zu
lassen, gibt es die Mglichkeit das Konstrukt in erster Linie ber die Aufgabenstellungen
zu erfassen. So kann z.B. ein bestimmtes Leistungsniveau festgelegt werden (z.B.
Abschluss eines bestimmten Kurses) und das Konstrukt mndliche Leistungsfhigkeit
durch Aufgabenstellungen, die diesem Niveau entsprechen, definiert werden. Dabei wird
z.B. bestimmt, welche Sprechhandlungen ausgefhrt werden sollen, welche Textsorten
beherrscht werden sollen, ber welche Themen man sprechen knnen soll und mit
welchen Adressatengruppen man umgehen knnen soll. Aus diesen Handlungen,
Textsorten, Themen und Adressatengruppen wird eine reprsentative Auswahl getroffen
und ber die Aufgaben erfasst. Die Bewertungsskala bestimmt dann in erster Linie, wie
gut die Aufgabe inhaltlich und sprachlich gelst wurde. Beispiele fr diese Art von
traditionellen Bewertungsskalen finden sich in sehr vielen nationalen und internationalen
Prfungen (z.B. die Prfungen des Goethe-Instituts, die DSH und TestDaF).
Bewertungsskalen, die bewerten, wie verstndlich, korrekt, flieend u.. bestimmte
Aufgaben gelst werden, sind relativ einfach zu erstellen. Allerdings sind sie fr die
Testteilnehmer und oft auch fr die Bewerter nicht sehr transparent. Die Testkandidaten
erfahren zwar, ob sie bestanden haben oder nicht bzw. wie gut sie bestanden haben. Sie

erfahren aber meist nichts darber, was das fr die Welt auerhalb des Prfungszentrums
bedeutet. Dadurch verringert sich auch die Validitt der Prfung, weil Testbenutzer nicht
wissen, in wie weit ihre Performanz im Test mit ihrer Performanz im wirklichen Leben
korrespondiert, d.h. welche Aussagen ber das zuknftige sprachliche Verhalten der
Testkandidaten auf Grund ihres Verhaltens im Test gemacht werden knnen. Diese
Bewertungsskalen verwenden Kriterien wie "lst die Aufgabe gut", "macht wenig
grammatische Fehler" usw. Solche Kriterien sind relativ vage und Bewerter knnen
Probleme haben, diese Kriterien konsequent auf unterschiedliche Kandidaten auf die
gleiche Weise anzuwenden bzw. es knnen Probleme zwischen Bewertern auftauchen,
weil sie die Kriterien jeweils unterschiedlich interpretieren.
Bei solchen traditionellen Bewertungsskalen definieren die Aufgaben, was sich die
Testhersteller unter mndlicher Handlungsfhigkeit auf einem bestimmten Niveau
vorstellen. Die mndliche Komponente des neuen Zertifikats Deutsch (WTB 1998) z.B.
besteht aus drei Teilen: einem Teil 1, in dem die getestete Person mit dem Prfer oder
einer anderen Person Kontakt aufnehmen soll, dabei zu Herkunft, Wohnung, Familie u..
Fragen stellen und Fragen beantworten soll; einem Teil 2, in dem eine Graphik zu einem
alltglichen Thema wie Ferien beschrieben werden soll und dann darber berichtet
werden soll, wie man selbst seine Ferien verbringt; und einem Teil 3, in dem in einer Art
Rollenspiel mit dem Prfer oder einem Partner eine einfache Alltagsaufgabe gelst
werden soll, z.B. das Planen einer Feier.
Bewertet werden Ausdrucksfhigkeit, Aufgabenbewltigung, formale Richtigkeit und
Aussprache und Intonation. Ausdrucksfhigkeit wird verstanden als inhalts- und
rollenbezogene Ausdrucksweise, Wortschatz und die Verwirklichung der Sprechabsicht,
Aufgabenbewltigung als Gesprchsbeteiligung, die Verwendung von Strategien und die
Flssigkeit der Rede. Formale Richtigkeit bezieht sich auf Syntax und Morphologie und
Aussprache und Intonation auf Aussprache und Intonation. Das Kriterienraster fr
Ausdrucksfhigkeit und Aufgabenbewltigung reicht von voll angemessen ber im groen
und ganzen angemessen zu kaum noch akzeptabel und durchgehend nicht ausreichend.
Bei formaler Richtigkeit reicht das Raster von keine oder nur vereinzelte Fehler ber
Fehler beeintrchtigen das Verstndnis nicht zu Fehler an zentralen Stellen, die das
Verstndnis erheblich beeintrchtigen und schlielich so viele Fehler, dass die
Kommunikation zu scheitern droht bzw. scheitert. Das Raster der Kategorie Aussprache
und Intonation ist hnlich wie das der formalen Richtigkeit.
ber die Aufgaben und vor allem ber das Kriterienraster lsst sich erkennen, dass die
Testhersteller eine moderne Vorstellung von sprachlicher Kompetenz als
Handlungskompetenz haben. Neben traditionellen Kriterien wie Aussprache und
Grammatik treten Sprechabsicht hinzu, also pragmatische Kompetenz, inhalts- und
rollenbezogene Ausdrucksweise, also soziokulturelle Kompetenz, und strategische
Kompetenz. Allerdings wird nicht klar, in wie weit die drei Testaufgaben eine
reprsentative Auswahl aus der Menge der Aufgaben treffen, die ein Kandidat nach ca.
400 Unterrichtsstunden bewltigen knnen sollte. Problematisch erscheint bei den
Bewertungskriterien vor allem das Kriterium Aufgabenbewltigung mit den Teilkriterien
Gesprchsbeteiligung, Verwendung von Strategien und Flssigkeit.
Gesprchsbeteiligung scheint eher ein Persnlichkeitsmerkmal zu sein. Wenn es dem

Prfer nicht gelingt, die geprfte Person am Gesprch zu beteiligen, kann er auch keine
Aussagen ber die sprachliche Kompetenz dieser Person machen, also auch keine negativen. Problematisch erscheint auch das Kriterium Verwendung von Strategien. Die
Verwendung von Strategien wird meist kompensatorisch verstanden. Wenn z.B. jemand
ein bestimmtes Wort benutzen mchte, es aber nicht kennt, kann er oder sie versuchen das
Wort zu umschreiben, es in der Muttersprache zu sagen, in der Hoffnung, es handelt sich
vielleicht um ein Kognat, oder versuchen, es durch Mimik oder Gestik zu vermitteln. Die
Bereitschaft, Strategien zu verwenden, hngt, wie die Gesprchsbeteiligung von der
Persnlichkeit der Testkandidaten ab. Dazu kann man meistens nicht feststellen, ob
Strategien verwendet werden oder nicht. Cohen und Olshtain (1993) z.B. sind der
Meinung, dass Bewerter das Kriterium Strategische Kompetenz nicht konsequent
anwenden knnen. Sie untersuchten den Grad der bereinstimmung von fnf Bewertern,
die jeweils 15 Testkandidaten bewerteten, und fanden, dass die bereinstimmung bei
diesem Kriterium am geringsten war.
hnlich sieht es mit dem Teilkriterium Flssigkeit aus, das ein beliebtes Kriterium auch
anderer traditioneller Skalen ist. Flssigkeit wird meist als Sprechgeschwindigkeit oder
als Leichtigkeit des Ausdrucks definiert. Da Menschen in ihrer Muttersprache oft groe
Unterschiede in Bezug auf Sprechgeschwindigkeit und Leichtigkeit des Formulierens
aufweisen, ist es schwierig zu beurteilen, ob eine bestimmte Sprechgeschwindigkeit die
normale Geschwindigkeit der betreffenden Person ist. Dazu kommt, dass eine hhere
Sprechgeschwindigkeit durchaus eine hhere Anzahl von Fehlern mit sich fhren kann.
Genau das hat z.B. Kato (1977) herausgefunden, als er die Transkripte von Testkandidaten analysierte, die als besonders flieend sprechende Lerner eingestuft worden waren.
Er stellte fest, dass gerade diese Sprecher weniger genau in ihrer Wortwahl waren und
mehr grammatische Fehler aufwiesen, als Sprecher, die weniger schnell sprachen und
weniger Punkte im Bereich Flssigkeit erzielt hatten. Einfache Skalen, wie die des neuen
Zertifikats Deutsch, die beim Teilkriterium Flssigkeit von voll angemessen ber im
groen und ganzen angemessen und kaum noch akzeptabel zu durchgehend nicht
ausreichend gehen, sind deshalb von zweifelhaftem Wert.
Das Kriterium Aufgabenbewltigung des Zertifikats, definiert als Gesprchsbeteiligung,
Verwendung von Strategien und Flssigkeit der Rede, ist also fragwrdig. Unklar ist aber
auch, wie zuverlssig mit Hilfe der anderen Kriterien bewertet werden kann, z.B. mit
Hilfe des Kriteriums Ausdrucksfhigkeit. Wenn ein Bewerter feststellt, dass die inhaltsund rollenbezogene Ausdrucksweise, der Wortschatz und die Verwirklichung der
Sprechabsicht eines Kandidaten kaum noch akzeptabel ist, kann ein anderer Bewerter dies
durchaus als durchgehend nicht ausreichend sehen. Wenn ein Bewerter, der viel
Erfahrung im Umgang mit Sprechern einer bestimmten Muttersprache hat, die Grenzen
zwischen Aussprache- und Intonationsfehlern, die das Verstndnis nicht beeintrchtigen,
gelegentlich beeintrchtigen oder erheblich erschweren, ganz anders zieht, als jemand der
wenig Erfahrung im Umgang mit Sprechern dieser Muttersprache hat, so ist dies
sicherlich verstndlich und nachvollziehbar. Es verringert jedoch die Reliabilitt der
Bewertung und damit die Ntzlichkeit der Prfung. Hier hilft nur eine rigorose
Bewerterschulung und eine blinde Doppelbewertung wie in den nchsten Sektionen
dargelegt werden wird.
5.2

Analytische und holistische Bewertungsskalen

Eine weitere Entscheidung, die bei der Anwendung von Bewertungskriterien getroffen werden
muss, ist die, ob sie getrennt angewendet werden sollen (analytische Skala) oder ob man sie zu
ganzheitlichen Niveaubeschreibungen zusammenfassen mchte (holistische Skala). Eine
analytische Skala besteht aus einer Reihe von Unterskalen, die getrennt bewertet und beurteilt
werden. Dabei kann fr jedes Kriterium eine unterschiedliche Beurteilung erreicht werden. Die
Gesamtbeurteilung setzt sich aus der Summe der Einzelbeurteilungen zusammen. Eine holistische
Skala dagegen ist eine Skala, mit der mndliche Interaktionen in ihrer Gesamtheit bewertet
werden. Die einzelnen Niveaus werden ganzheitlich beschrieben und es wird danach gefragt, wie
hnlich ein mndlicher Text einer bestimmten Niveaubeschreibung kommt.
Holistische Bewertungsverfahren beruhen auf der Annahme, dass die Qualitt eines mndlichen
Textes nur in seiner Gesamtheit bewertet werden kann und nicht durch ein Addieren einzelner
Merkmale. Der Blick auf das Ganze strkt die Validitt, da ja auch die Zuhrer mndliche Texte
als Ganzes wahrnehmen.
Analytische Bewertungsverfahren gehen davon aus, dass sich die Sprechfertigkeit in
Teilfertigkeiten gliedern lsst, die getrennt evaluiert werden knnen und deren Summe die
Sprechfertigkeit insgesamt ergibt. Da sich unterschiedliche Teilfertigkeiten unterschiedlich
schnell entwickeln, sei es sogar von Vorteil, sie getrennt zu evaluieren. Durch unterschiedliche
Gewichtung einzelner Merkmale knnen die fr einen Zuhrer wesentlichen Elemente in den
Vordergrund gestellt werden. Allerdings scheint es sehr schwierig zu sein, das Besondere an
einem bestimmten Text, das, was ein Zuhrer ganzheitlich wahrnimmt, aus der Summe von
Einzelmerkmalen heraus zu bewerten.
Beide Beurteilungsverfahren haben also Vor- und Nachteile. Die Entscheidung fr ein holistisches oder analytisches Verfahren richtet sich deshalb oft nach den Zielen und den konomischen Rahmenbedingungen einer bestimmten Prfung. Dazu zhlen u.a.:

die Zeit, die fr die Bewertung zur Verfgung steht


die Anzahl der Bewertungen pro Prfung
der Zweck der Prfung
die Gre der Bewertergruppe
die Schulungsmglichkeiten der Bewertergruppe

Holistische Bewertungsverfahren sind meist weniger zeitaufwendig. Dies fhrt dazu, dass bei
gleichen Kosten die gleiche Prfung von mehreren Personen evaluiert werden kann. Multiple
Bewertungen sind ein wichtiger Faktor fr die Reliabilitt des Bewertungsverfahrens. Besonders
bei der Bewertung produktiver Kompetenzen spielt die Anzahl der Bewerter eine groe Rolle.
Die Reliabilitt der Bewertung erhht sich drastisch, je mehr Bewerter die gleiche Prfung
beurteilen (Kenyon / Tschirner 2000). Damit sind holistische Verfahren immer dann vorzuziehen
- unter der Voraussetzung, dass die Prfung von mehreren Bewertern beurteilt werden kann wenn es sich um Prfungen handelt, von denen sehr viel abhngt, z.B. die Entscheidung, ob
jemand zu einem Universittsstudium zugelassen wird oder ob bestimmte berufsqualifizierende
Kenntnisse und Fertigkeiten vorhanden sind.
Analytische Bewertungsverfahren andererseits lassen sich besser fr diagnostische Zwecke
einsetzen. Da sich einzelne sprachliche Bereiche (z.B. Aussprache, Wortschatz, Grammatik,

rhetorische Organisation, Register) nicht gleich schnell entwickeln, hat eine Konzentration auf
Teilbereiche zum einen den Vorteil, dass den Kandidaten przises Feedback zu diesen
Teilbereichen gegeben werden kann, zum anderen kann honoriert werden, dass einzelne
Teilbereiche weiter entwickelt sind, auch wenn dies aus einer ganzheitlichen Sicht heraus die
Qualitt eines mndlichen Beitrags nicht wesentlich erhht.
Whrend holistische Verfahren oft dann angebracht sind, wenn es sich um eine relative kleine
und homogene Bewertergruppe handelt, die sich aus hoch qualifizierten und gut ausgebildeten
Fachleuten zusammensetzt, sind analytische Bewertungsverfahren bei einer groen Anzahl von
Bewertern vorzuziehen, vor allem, wenn es schwer ist, einen gleich hohen Ausbildungsstandard
zu gewhrleisten oder wenn die Bewerter eher unerfahren in der Bewertung von mndlichen
Prfungen sind. Analytische Skalen lenken nmlich die Aufmerksamkeit auf Teilbereiche, die
sonst vielleicht nicht beachtet werden wrden. Untrainierte Bewerter achten vor allem auf
phonologische, morphologische und syntaktische Kriterien und reagieren besonders negativ auf
Grammatikfehler. Holistische Verfahren leiden dabei mehr darunter, weil sie nicht wie
analytische Verfahren den Blick auf andere Kriterien lenken und es dadurch ermglichen, diese
Kriterien in die Beurteilung einflieen zu lassen.
Als Nachteil analytischer Bewertungsverfahren hat sich bei weniger erfahrenen Bewertern der
sogenannte Haloeffekt herausgestellt. Bewerter neigen dazu, im Bewertungsprozess
aufeinanderfolgenden Teilbereichen die gleiche Punktzahl zu geben. Teilbereiche werden also
nicht getrennt von den anderen bewertet, sondern von ihnen beeinflusst. Damit kann eine
bestimmter Teilbereich, z. B. der erste, der bewertet wird, oder derjenige, der am leichtesten zu
bewerten ist, eine unverhltnismig groe Rolle spielen, und damit den Vorteil analytischer
Bewertungsverfahren, unterschiedliche Aspekte unterschiedlich zu gewichten, zunichte machen.
5.3

Bewertungsverfahren

Aufgaben, Prfungsstruktur und Elizitierungstechniken tragen in hohem Mae zur Reliabilitt


und Validitt einer mndlichen Prfung bei. Weitere magebliche Anteile an der Reliabilitt
einer Prfung haben das Bewertungsverfahren und die Prferschulung. Wichtige Fragen beim
Bewertungsverfahren sind u.a.,

wie viele Bewerter den gleichen Test bewerten mssen, um eine angemessene Reliabilitt
zu erreichen
ob sich Bewerter absprechen knnen oder ob alle Bewerter fr sich bewerten mssen
(eine blinde Doppelbewertung)
ob mndliche Prfungen auf Band aufgenommen werden mssen.

Mndliche Prfungen, vor allem wenn sie den Kriterien Authentizitt und Interaktivitt gengen
wollen, weisen ein hohes Ma an Variabilitt auf. Diese Variabilitt kann nur teilweise durch
Prfungsstruktur und Aufgabenstellungen aufgefangen werden. Keine zwei mndlichen Prfungen sind miteinander vergleichbar. Testteilnehmer handeln mit den Prfern aus, worber gesprochen wird und wie darber gesprochen wird. Deshalb lassen sich mndliche Prfungen nicht im
strengen Sinne objektiv bewerten. hnlich wie in der literaturwissenschaftlichen Interpretation
muss deshalb Intersubjektivitt hergestellt werden. Neben der Schulung, mit der sich der nchste
Abschnitt beschftigt, spielt dabei vor allem die Nachvollziehbarkeit der Bewertung eine groe

Rolle.
Gesprochene Sprache ist flchtig. Dazu ist es schwer, sich im Gesprch gleichzeitig auf inhaltliche und sprachliche Aspekte des Gesagten zu konzentrieren, vor allem, wenn der Prfer auf
den Inhalt achten muss, um sinnvolle weitere Fragen oder Aufgaben stellen zu knnen. Selbst
wenn zwei Prfer die Prfung durchfhren und einer der Prfer sich vor allem auf die Sprache
konzentrieren kann, weil er oder sie nicht in die Prfung eingreift, erfordert die Nachvollziehbarkeit der Bewertung, dass die Prfung auf Band aufgenommen wird. Die menschliche Erinnerung,
die sich aus wahrnehmungspsychologischen Grnden vor allem aufs Inhaltliche richtet, trgt,
wenn es um das Wortwrtliche geht. Das Wortwrtliche allerdings gibt Auskunft ber die
sprachliche Kompetenz der Testteilnehmer. Bewerter mssen sich Prfungen mehrmals anhren
knnen, mssen bestimmte sprachliche Details einander vorfhren und miteinander diskutieren
knnen. Erst dann kann Intersubjektivitt auf eine Weise hergestellt werden, die zu nachvollziehbaren und damit potentiell zuverlssigen Beurteilungen fhrt.
Zum zuverlssigen intersubjektiven Bewerten gengt es nicht, dass sich zwei oder mehr Bewerter
vor Ort einig werden. Zuverlssigkeit verlangt, dass alle Bewerter, die diese Prfung potentiell
bewerten knnten, zum gleichen Ergebnis kommen knnen. Dies erreicht man nur durch eine
intensive Prfer- und Bewerterschulung, wie sie im nchsten Kapitel beschrieben wird. Um zu
gewhrleisten, dass die Schulung den gewnschten Effekt hatte, nmlich dass unterschiedliche
Bewerter in ihren Urteilen so nah wie mglich beieinander liegen, drfen Ergebnisse nicht
abgesprochen werden, sondern mssen unabhngig voneinander, in einem sogenannten blinden
Verfahren, abgegeben werden. Blindes Bewerten bedeutet, dass beide Prfer ohne die Bewertung
des anderen zu kennen, ihre Bewertungen abgeben. Damit kann kein Bewerter den anderen
beeinflussen.
Aber selbst das Aufnehmen von mndlichen Prfungen und das blinde Bewerten allein gengen
nicht, um hohe Zuverlssigkeitsraten zu erreichen. Intersubjektivitt ist nicht Objektivitt. Wenn
Prfungen allerdings Lebenswege beeinflussen, mssen sie so zuverlssig wie mglich sein. Bei
Prfungen der mndlichen Ausdrucksfhigkeit erreicht man eine hhere Objektivitt und
Reliabilitt vor allem dadurch, dass man die Zahl der Bewerter erhht. Kenyon / Tschirner (2000)
zeigten, dass sich die Zuverlssigkeit der Bewertung deutlich erhht, je mehr Bewerter dieselbe
Prfung beurteilen. Ihrer Meinung nach ist eine einzige Bewertung durch einen einzigen Bewerter nicht zuverlssig genug fr eine wichtige Prfung. Erst bei zwei Bewertern wird eine wichtige
Zuverlssigkeitsschwelle berschritten, wobei die Zuverlssigkeit durch drei Bewerter noch einmal deutlich erhht wird. Kenyon und Tschirner ziehen daraus den Schluss, dass bei mndlichen
Prfungen mindestens zwei Bewerter unabhngig voneinander ihre Bewertungen abgeben mssen. Wenn es dabei zu einer Divergenz kommt, sollte ein dritter Bewerter eingeschaltet werden,
der ebenfalls blind bewertet.
Auf Grundlage der in diesem Abschnitt angesprochenen Merkmale zuverlssiger Tests Aufnahme auf Band, blindes Bewerten, mindestens zwei Bewerter - sollen nun einige bekannte
Prfungen untersucht werden.
Das Zertifikat Deutsch (WBT 1998) wird von zwei Prfern abgenommen, die whrend der
Prfung unabhngig voneinander einen Bewertungsbogen ausfllen. Am Ende der Prfung
vergleichen die Bewerter ihre Ergebnisse miteinander und einigen sich auf eine gemeinsame
Bewertung. Die Prfung wird nicht aufgenommen. Die erste, auf dem ersten Eindruck basierende

Bewertung verluft zwar blind, da jedoch die Prfung nicht anderweitig dokumentiert wird, kann
das entscheidende Gesprch zwischen den Prfern nur auf der Basis ihrer Erinnerung ablaufen.
Zu den unkontrollierten Variablen, die auf diese Weise eingefhrt werden, zhlen die Gte des
Gedchtnisses der Bewerter, die berzeugungskraft bzw. Dominanz der einzelnen Bewerter u..
Die ZMP und ZOP des Goethe-Instituts (Goethe-Institut 1997, Perlmann-Balme 1998) werden
ebenfalls von zwei Prfern abgenommen, die entweder whrend oder nach der Prfung
unabhngig voneinander ihre Bewertungen festhalten. Die Prfung wird nicht aufgenommen. Die
Prfer machen sich abwechselnd Notizen zur sprachlichen Leistung. Im Gegensatz zum Zertifikat
Deutsch wird das Endergebnis nicht ausgehandelt, sondern es wird der Mittelwert der Ergebnisse
beider Prfer gebildet. Dies erhht die Zuverlssigkeit der Bewertung, da das Endresultat nicht
von der Persnlichkeit der Prfer abhngt. Auch die Tatsache, dass sich jeweils einer der beiden
Prfer Notizen zur sprachlichen Leistung macht, erhht die Reliabilitt der Bewertung, da das
Ergebnis dieses Prfers nicht nur von der Gte seines Gedchtnisses abhngt und einzelne
Aspekte zumindest partiell nachvollziehbar werden. Da der andere Prfer jedoch keine Notizen
von den Teilen der Prfung besitzt, in denen er oder sie die Fragen oder Aufgaben gestellt hat,
verringert dies die Zuverlssigkeit der Beurteilung dieser Teile. Auch das Fehlen eines dritten
Bewerters auch bei groen Bewertungsunterschieden lsst eine hohe Bewertungszuverlssigkeit
dieser Prfungen fraglich erscheinen, auch wenn sie im Detail besser dastehen als das Zertifikat.
Das ACTFL OPI (Swender 1999) wird von einem einzigen Prfer abgenommen. Whrend der
Prfung macht sich der Prfer keine Notizen, sondern konzentriert sich auf das
Prfungsgesprch. Die Prfung wird auf Band aufgenommen. Der Prfer hrt sich die aufgezeichnete Prfung mindestens einmal komplett an, bevor er eine Bewertung abgibt. Das Band mit
der aufgenommenen Prfung wird dann an einen zweiten Bewerter weitergeleitet, der seine
Bewertung abgibt, ohne die Bewertung des ersten Bewerters zu kennen. Wenn die Bewertungen
nicht bereinstimmen, wird das Band an einen dritten Bewerter geschickt, der seine Bewertung
ebenfalls blind abgibt.
Die Zuverlssigkeit des ACTFL OPI wurde in vielen Studien untersucht. Der
Reliabilittskoeffizient nach Pearson erreichte in allen Studien einen Wert von mindestens 0,8
und oft einen deutlich hheren (Kenyon / Tschirner 2000). Dieser Wert wird international bei
wichtigen Prfungen als die untere Grenze der Zuverlssigkeit angesehen (vgl. fr schriftliche
Prfungen Hamp-Lyons 1990). Reliabilittskoeffizienten fr die Prfungen des Goethe-Instituts,
des Zertifikats Deutsch oder der DSH gibt es nicht oder sie werden nicht verffentlicht. Es ist
daher unklar, ob diese Prfungen Reliabilittswerte haben, die internationalen Ansprchen
gengen.
5.4

Prfer- und Bewerterschulung

Aufgabe eines Prfers ist es, bewertbare Sprachbeispiele zu elizitieren, d.h. Fragen und Aufgaben
so zu formulieren, dass sie die Testperson zu den gewnschten Sprechhandlungen in den
gewnschten sozialen Kontexten bringen. Das Geschick des Prfers ist um so mehr gefragt, je
adaptiver und interaktiver das Prfungsgesprch auf die Interessen, Mglichkeiten und
Bedrfnisse der Testkandidaten eingehen soll. Dieses Geschick wird oft erst im Rahmen einer
intensiven Prferschulung erworben.
Nach Fulcher (1997) ist die Prfer- und Bewerterschulung der Ausschlag gebende Faktor fr das

Erreichen hoher Reliabilittswerte bei der Bewertung mndlicher Leistungen. Wer mndlich
prfen mchte, muss zwei unterschiedliche Fhigkeiten aufweisen. Zum einen muss er oder sie
prfen knnen, d.h. das Prfungsgesprch auf eine Weise fhren, die zu einem reprsentativen
Ausschnitt der mndlichen Handlungsfhigkeit der Testteilnehmer fhrt. Zum anderen muss er
oder sie bewerten knnen. Beides muss in einer Prferschulung gelernt werden.
Mndliche Prfungen variieren in der Offenheit der Aufgaben und Aufgabenstellungen. Manche
Prfungen schreiben den Verlauf der Prfung detailliert vor (Zertifikat Deutsch), andere
Prfungen sind relativ offen (ACTFL OPI). Offene Prfungen sind meist authentischer und
interaktiver, jedoch auch komplexer in der Durchfhrung und bentigen meist eine intensivere
Prferschulung. In den Prferblttern zum Zertifikat Deutsch wird detailliert beschrieben, welche
Aufgaben gestellt werden, wie die Aufgaben eingefhrt werden sollen, und wieviel Zeit fr eine
Aufgabe zur Verfgung gestellt wird. Dazu gibt es zu jedem Thema eine Reihe von Stichpunkten
bzw. vorformulierten Fragen, mit deren Hilfe das Prfungsgesprch gefhrt werden kann.
hnlich ist es in der ZMP (Goethe-Institut 1997). Auch hier gibt es genau vorgeschriebene
Aufgaben und Zeitvorgaben. Allerdings gibt es keine vorformulierten Fragen. Dies sollte zu
einem offeneren und damit authentischeren Gesprch fhren, weil Prfer eher aus dem Gesprch
heraus Fragen stellen werden als auf der Basis vorformulierter Fragestellungen.
Im ACTFL OPI gibt es keine vorformulierten Aufgaben oder Fragestellungen. Es ist in zwei
Richtungen adaptiv: in der Themenwahl und im Schwierigkeitsgrad der Aufgaben. Das
Prfungsgesprch passt sich sowohl inhaltlich wie auch im Schwierigkeitsgrad an die
Testkandidaten an. Prfer entscheiden auf der Basis von Informationen, die sie vom Kandidaten
bekommen, ber welche Themen gesprochen wird und berlegen sich Aufgaben oder Fragen
dazu. Diese Fragen werden auf natrliche Art und Weise gestellt, sollen aber trotzdem zum
gewnschten Resultat fhren, nmlich dazu, bewertbare Sprachbeispiele zu elizitieren. Ebenso
passen Prfer die Schwierigkeit der Aufgaben bzw. Fragen an. Die Art und Weise, wie eine
bestimmte Frage beantwortet wurde, mit Leichtigkeit, mit Schwierigkeiten oder gar nicht, wird
registriert und beeinflusst den Schwierigkeitsgrad der nchstfolgenden Frage.
Im Gegensatz zum OPI scheint das Prfungsgesprch des Zertifikats und der ZMP unproblematisch und einfach und wenig Schulung zu verlangen. Dies ist allerdings nur auf den ersten Blick
so. Auch wenn die Aufgaben exakt vorgegeben sind, kann ein Prfer dennoch relativ viel richtig
bzw. falsch machen, vor allem im Hinblick auf emotionale Faktoren. Prfer mssen wissen, wie
man mit Nervositt umgeht, mit Sprechangst, Prfungsangst und anderen Gefhlen. Dazu mssen
Prfer wissen, wie Kommunikationsprobleme umgangen werden knnen und wie sie Kandidaten
helfen knnen, aus sprachlichen Sackgassen herauszukommen. Es gengt nicht, wenn die
meisten Prfer, die eine bestimmte Prfung abnehmen, diese Fhigkeiten haben, weil sie
vielleicht auch erfahrene Lehrer sind. Erst wenn alle Prfer diese Fhigkeiten in gleichem Mae
haben, fhrt dies zu einer reliablen Prfung.
Im Folgenden werden zwei etablierte Prferausbildungsprogramme beschrieben: das
Trainingsseminar der ZMP und das Schulungsprogramm des ACTFL OPI. Das
Trainingsprogramm der ZMP ist dabei eher als Minimalprogramm anzusehen. Das
Schulungsprogramm des ACTFL OPI ist ungleich zeitaufwendiger, erreicht dadurch aber sehr
hohe Reliabilittswerte. Unter dem Prinzip der Praktikabilitt liegt es aber mglicherweise an der
Grenze des Machbaren.

Das Prfertrainingsseminar der ZMP mit Teilnehmern ohne ZMP-Erfahrung dauert ca. 4-5
Stunden. Ein vom Goethe-Institut vorgeschlagenes Szenario besteht aus zwei jeweils
zweistndigen Bausteinen mit Videountersttzung. Baustein 1 fokussiert das Prferverhalten und
Baustein 2 die Bewertung. Pro Baustein wird eine vollstndige Prfung besprochen. Es gibt keine
Prfung darber, ob die Teilnehmer nach Abschluss des Seminars ZMP-Prfungen zuverlssig
durchfhren und bewerten knnen.
Die Prferschulung des ACTFL OPI beginnt mit einem viertgigen Seminar, das insgesamt 30
Stunden umfasst. In diesem Seminar werden von den nicht mehr als zehn Teilnehmern pro
Seminar insgesamt 22 Prfungen durchgefhrt, bewertet und analysiert. An dieses Seminar
schlieen sich drei weitere Runden an. In der ersten Runde, der Bewertungsrunde, bekommen
Teilnehmer sechs Kassetten mit vollstndigen Prfungsgesprchen, um das Bewerten trainieren
zu knnen. In der zweiten Runde, der Praxisrunde, fhren die Teilnehmer mindestens zwlf
Prfungsgesprche durch. Zwlf dieser Interviews werden eingesandt. Fnf davon werden von
einem Testertrainer bewertet und mit ausfhrlichen Kommentaren versehen zurckgeschickt. In
der dritten und letzten Runde, der Zertifizierungsrunde, fhren die Teilnehmer noch einmal
mindestens 12 Interviews durch und senden wiederum 12 davon ein. Vier dieser Interviews
werden von zwei Testertrainern unabhngig voneinander analysiert und bewertet. Wer die
Zertifizierungsrunde besteht, bekommt ein Zertifikat. Der gesamte Prozess dauert bis zu einem
Jahr.
Der OPI-Zertifizierungsprozess ist ohne Frage aufwendig, zeitintensiv und teuer. Gerade dadurch
werden aber zusammen mit der Art des Bewertungsverfahrens hohe Reliabilittswerte erreicht,
die ber den international akzeptierten Minimalanforderungen fr wichtige Prfungen liegen.
Wenn man das Diktum nur zuverlssige Prfungen sind sinnvolle Prfungen ernst nimmt, ist das
vielleicht der Preis, der dafr bezahlt werden muss, auch bei Prfungen des mndlichen
Ausdrucks zuverlssige, d.h. brauchbare Ergebnisse zu bekommen.
6.

Ausblick

In diesem Beitrag wurde versucht, die relevanten Elemente fremdsprachlicher mndlicher


Prfungen einzeln zu beschreiben und auf Probleme und Herausforderungen einzugehen, die sich
Entwicklern mndlicher Prfungen stellen. Den theoretischen Rahmen bildeten dabei die
Ntzlichkeitskriterien von Bachman / Palmer (1996), Validitt, Reliabilitt, Authentizitt,
Interaktivitt, Praktikabilitt und Rckwirdung. Es wurde auf Fragen der Konstruktvaliditt
eingegangen, wobei zwischen direkten, indirekten und semidirekten Prfungen unterschieden
wurde. Zwei Arten der Validierung wurden vorgestellt, zum einen ber ein theoretisches Modell
mndlicher Handlungsfhigkeit und zum anderen ber eine Bedarfsanalyse als Grundlage fr
einen Performanztest. Dann wurden die zwei Prozesse, aus denen sich eine mndliche Prfung
zusammensetzt beschrieben, das Prfungsgesprch und die Bewertung. Beim Prfungsgesprch
ging es vor allem um die Aufgabenstellungen und die Struktur einer mndlichen Prfung, wobei
hier auf die Kriterien Authentizitt, Interaktivitt, Praktikabilitt und Rckwirkung eingegangen
wurde. Die Bewertung schlielich befasste sich vor allem im Hinblick auf die Validitt und
Reliabilitt mndlicher Prfungen mit unterschiedlichen Arten von Bewertungsskalen,
analytischen und holistischen, mit dem Bewertungsprozess selbst und mit der Prfer- und
Bewerterschulung.Dabei wurden eine Reihe von unterschiedlichen Prfungen aus dem deutschund englischsprachigen Raum angesprochen, vor allem die Prfungen des Goethe-Instituts, das
Zertifikat Deutsch und das ACTFL Oral Proficiency Interview in seiner Neufassung von 1999.

Der Aufwand einer mndlichen Prfung, vor allem wenn sie wie das OPI hohe Reliabilittswerte
erreichen mchte, ohne zu groe Abstriche bei der Validitt, Authentizitt und Interaktivitt der
Prfung zu machen, ist sehr hoch, vor allem im Hinblick auf die Prfer- und Bewerterschulung
und auf das Bewertungsverfahren (blinde Doppelbewertung mit Arbitratierung bei
Diskrepanzen). Whrend dieser Aufwand bei wichtigen Prfungen, durch die Lebenswege
beeinflusst werden, sicherlich angebracht ist, stsst man bei Lernfortschrittsprfungen im
schulischen und universitten Bereich doch recht bald an die Grenzen der Praktikabilitt. Deshalb
bemht man sich schon seit einigen Jahren, Prfungsverfahren zu entwickeln, die ebenso gltig
und zuverlssig, jedoch wesentlich konomischer und praktikabler sind. Kassettengesttzte
simulierte Prfungsgesprche, wie das SOPI (Kenyon / Stansfield 1992) oder TestDaF (Kniffka /
stnsz-Beurer in diesem Band) scheinen dabei ein Schritt in die richtige Richtung zu sein.
Studien zur bereinstimmungsvaliditt zwischen ACTFL OPI und SOPI haben z.B. gezeigt, dass
beide Prfungsformen sehr hoch miteinander korrelieren, mit einem Korrelationskoeffizienten
von mindestens 0,8, der sogar oft noch deutlich hher lag, bis zu einem Koeffizienten von 0,99
(Kenyon / Tschirner 2000). Weitere Fortschritte in Richtung Praktikabilitt und Testkonomie
werden vielleicht im Rahmen computeradaptiver Prfungsformen gemacht werden, obwohl auch
diese Prfungsformen nicht unproblematisch sind (vgl. dazu Grotjahn in diesem Band).
Bibliographie
AMERICAN COUNCIL ON THE TEACHING OF FOREIGN LANGUAGES (1986):
Proficiency guidelines. Hastings_on_Hudson, NY: ACTFL.
AMERICAN COUNCIL ON THE TEACHING OF FOREIGN LANGUAGES (1999): ACTFL
proficiency guidelinesspeaking: Revised 1999. Hastings_on_Hudson, NY: ACTFL.
AITCHISON, Jean (1994): Words in the mind: An introduction to the mental lexicon, 2. Aufl.
Oxford: Blackwell.
BACHMAN, Lyle (1990): Fundamental considerations in language testing. Oxford: Oxford
University Press.
BACHMAN, Lyle / PALMER, Adrian (1996): Language testing in practice. Oxford: Oxford
University Press.
BROWN, Gillian / MALMKJR, Kirsten / POLLITT, Alastair / WILLIAMS, John (Hrsg.)
(1994): Language and understanding. Oxford: Oxford University Press.
CANALE, Michael (1983): "From communicative competence to communicative language
pedagogy." In: RICHARDS, Jack / SCHMIDT, Richard (Hrsg.): Language and communication.
London: Longman, 3-27.
CANALE, Michael / SWAIN, Merrill (1980): "Theoretical bases of communicative approaches
to second language teaching and testing." In: Applied Linguistics 1, 3-47.
COHEN, Andrew / OLSHTAIN, Elana. (1993): "The production of speech acts by EFL learners."
In: TESOL Quarterly 27, 33-56.

COOK, Vivian (1994): Second language learning and language teaching. London: Arnold.
CUMMING, Alister (1997): "The testing of writing in a second language." In: CLAPHAM,
Caroline / CORSON, David (Hrsg.): Encyclopedia of language and education, vol. 7: Language
testing and assessment. Dordrecht: Kluwer, 51-64.
CUMMING, Alister / BERWICK, Richard (1996): Validation in language testing. Philadelphia:
Multilingual Matters.
DANDONOLI, P. / HENNING, G. (1990): "An investigation of the construct validity of the
ACTFL proficiency guidelines and oral interview procedure." In: Foreign Language Annals 23,
11_22.
DIEHL, Erika / CHRISTEN, Helen / LEUENBERGER, Sandra / PELVAT, Isabelle / STUDER,
Thrse (2000): Grammatikunterricht: Alles fr der Katz? Untersuchungen zum
Zweitsprachenerwerb Deutsch. Tbingen: Niemeyer.
EDUCATIONAL TESTING SERVICE (1985): SPEAK examinee handbook and sample
questions. Princeton: Educational Testing Service.
FODOR, Jerry (1983): The Modularity of Mind. Cambridge, MA: MIT Press.
FULCHER, Glenn (1997): "The testing of L2 speaking." In: CLAPHAM, Caroline / CORSON,
David (Hrsg.): Encyclopedia of language and education, vol. 7: Language testing and
assessment. Dordrecht: Kluwer, 75-85
GOETHE-INSTITUT (1997): Zentrale Mittelstufenprfung: Trainingsmaterial fr Prfer zum
Mndlichen Ausdruck. Mnchen: Goethe-Institut.
GROTJAHN, Rdiger (2000): Leistungsmessung und Leistungsbeurteilung. Band A: Einfhrung,
Glossar und Grundlagen. Patras: Hellenic Open University.
HAMP-LYONS, Liz (1990): "Second language writing: Assessment issues." In: KROLL,
Barbara (Hrsg.): Second language writing: Research insights for the classroom. Cambridge:
Cambridge University Press, 69-87.
HUGHES, Arthur (1989): Testing for language teachers. Cambridge: Cambridge University
Press.
HYMES, Dell (1972): "On Communicative Competence." In: PRIDE, J. B. / HOLMES, J.
(Hrsg.): Sociolinguistics. Harmondsworth: Penguin, 269-293
KATO, H. (1977): "Some thoughts on oral examinations for advanced students in Japanese." In:
System 5, 181-186.
KENYON, Dorry / TSCHIRNER, Erwin (2000). "The rating of direct and semi-direct oral proficiency interviews: Comparing performance at lower proficiency levels." In: Modern Language

Journal 84, 85-101.


NORTH, B. (1994): Scales of language proficiency: A survey of some existing systems.
Strasbourg: Council of Europe.
PERLMANN-BALME, Michaela (1998): Zentrale Oberstufenprfung: Trainingsmaterial fr
Prfer zur Mndlichen Prfung. Mnchen: Goethe-Institut.
PIENEMANN, Manfred (1999): Language processing and second language development:
Processability theory. Amsterdam: John Benjamins.
PIKE, L.W. (1979): An evaluation of alternative item formats for Testing English as a Foreign
Language. TOEFL Research Reports. No. 2. Princeton, NJ: Educational Testing Service.
SPOLSKY, Bernard (1995): Measured words: The development of objective language testing.
Oxford: Oxford University Press.
STANSFIELD, Charles / KENYON, Dorry (1992): "Research on the comparability of the Oral
Proficiency Interview and the Simulated Oral Proficiency Interview." In: System 20, 347_64.
SWENDER, Elvira (Hrsg.) (1999): ACTFL Oral Proficiency Interview: Tester training manual.
Yonkers, NY: ACTFL.
TSCHIRNER, Erwin (1996): "Scope and sequence: Rethinking beginning foreign language
instruction." In: Modern Language Journal 80, 1-14.
WEITERBILDUNGS-TESTSYSTEME (1998): Die Europischen Sprachenzertifikate. Zertifikat
Deutsch. Modelltest 1. Frankfurt: WTB.