Sie sind auf Seite 1von 26

วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1

21

Testen und Prüfen in der Fremdsprache: Was macht eine gute Sprachprüfung aus?
Foreign Language Testing and Evaluation: What defines a good test?

Jan Stevener1

Abstract
This paper aims to outline essential concepts and criteria in order to assess the quality and
aptitude of language tests for any given specific goal. For this purpose, vital terms related to
language-assessment and evaluation are explained and discussed. Subsequently, this paper
describes six points which enable test users and authors to assess the aptitude of a test for a
specific goal. Among these points are clarity about the research object, the test construct, the
properties that researchers assign to it and how these can be measured, as well as how adequate
the research design is to evaluate the research object. Moreover, the application of well-
established quality criteria like validity, objectivity, reliability, etc. facilitates the evaluation of
language tests. It is shown that quality criteria interact with each other and that test users and
authors have to weigh them according to the purpose of the test.
Keywords: Language Testing; Evaluation; Assessment; Data Collection; TestDaF; DSH;
Quality Criteria

Assistant Lecturer from the Humanities and Language Department of Mahidol University International
1

College (MUIC), Humanities and Language Division, Mahidol University, Salaya, Nakhon Pathom.
Email: janstevener@yahoo.de
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
22

Abstrakt
Der vorliegende Beitrag stellt zentrale Konzepte und Kriterien zur Einschätzung der
Eignung und Qualität einer Sprachprüfung für spezifische Zielsetzungen vor. Zu diesem Zweck
werden zuerst zentrale Begriffe der Leistungsmessung vorgestellt und diskutiert. Anschließend
werden sechs zentrale Punkte erläutert, die Prüfungsanwender oder –hersteller in die Lage
versetzen sollen, die Eignung einer Prüfung für einen spezifischen Zweck einzuschätzen. Dazu
zählen Klarheit über den Untersuchungsgegenstand und das Testkonstrukt sowie die damit
verbunden Eigenschaften, in welchen Maßen sich diese messen lassen und wie geeignet die
Operationalsierung zur Erfassung des Untersuchungsgegenstandes ist. Des Weiteren soll mit
Hilfe etablierter Gütekriterien wie Validität, Objektivität, Reliabilität etc. eine Einschätzung der
Qualität einer Prüfung ermöglicht und gezeigt werden, dass Gütekriterien sich wechselseitig
beeinflussen und der Testersteller oder –anwender diese je nach Zielsetzung unterschiedlich
gewichten kann.
Schlüsselwörter: Testen, Prüfen, Fremdsprachenprüfungen, Datenerhebung, TestDaF, DSH,
Gütekriterien
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
23

1. Einleitung und Abschlussprüfungen über die Note im


Lehrende im Fremdsprachenunterricht Bachelor oder Master und damit auch über
verbringen beträchtliche Zeit damit, die Optionen, die ein Absolvent nach dem
Lernende zu evaluieren. Dies geschieht in Studium hat. Es muss daher ein Merkmal des
unterschiedlichsten Formen und reicht vom Testens und Prüfens sein, dass das verwendete
spontanen Test zur Lernstandskontrolle bis Testverfahren kritisch reflektiert und die
zu komplexen formellen Abschlussprüfungen. Grenzen des möglichen Erkenntnisgewinns
Es kann um die Evaluation einzelner deutlich werden, denn „eine voreilige Diagnose
Teilkompetenzen gehen oder um die von sprachlichen Fertigkeiten ohne die
Erfassung kombinierter Fertigkeiten mit wissenschaftliche Fundierung solcher Tests
Hilfe von Testbatterien. Für die Lernenden kann verhängnisvoll werden“ (Roche, 2013,
können die Ergebnisse solcher Evaluationen p. 108). Bevor jedoch Kriterien beschrieben
erhebliche persönliche Konsequenzen haben. werden, mit denen die Qualität einer Prüfung
Das Ergebnis kann über eine Versetzung in oder eines Tests erfasst werden kann, sollen
eine höhere Schulklasse entscheiden, über die zentralen Begriffe näher beschrieben
die Aufnahme eines Hochschulstudiums in werden.
Deutschland, sogar über die Erteilung eines
Visums zum Zwecke der Eheschliessung 2. Zentrale Begriffe: Test und Prüfung
oder die Erteilung einer Staatsbürgerschaft. In der Praxis, aber auch der Fachliteratur,
In vielen Programmen an Universitäten werden die Begriffe Prüfen/Prüfung und
in Thailand ist die Note für einen Testen/Test nicht einheitlich verwendet. Vor
Kurs identisch mit den Ergebnissen der allem in älterer Fachliteratur findet man das
Zwischenprüfung und der Abschlussprüfung. Bemühen, die beiden Begriffe durch das
Letzendlich entscheiden damit Zwischen- Merkmal formell (Prüfung) und informell
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
24

(Test) zu unterscheiden. Demzufolge beziehen formelle Prüfung. Ferner scheint der Bezug
sich informelle Tests nur auf eine bestimmte zur nicht-deutschen Fachliteratur, in der vom
Gruppe von Lernenden und einen begrenzten test gesprochen wird, einigen Einfluss zu
Lehrstoff. Sie werden von den Lehrenden haben. Unter anderem sind PET (Preliminary
entworfen und oft ad-hoc ohne besondere English Test), TCF (Test de Connaissance du
Vorbereitung durchgeführt. Testerstellung Francais) oder TOEFL (Test of English as
und Bewertung orientieren sich nicht a Foreign Language) zu nennen. Einer
an offiziellen Kriterien (Bolton, 1996, p. 6). der größten Anbieter für Sprachzertifikate
Prüfungen werden hingegen als formell nach dem Gemeinsamen Europäischen
eingestuft. Sie beanspruchen, unabhängig Referenzrahmen für Sprachen (im Folgenden
von der Bezugsgruppe, den eingesetzten als GER bezeichnet) des Europarates (2001),
Lernmedien und –methoden Auskunft über die TELC (früher: Weiterbildungs-Testsysteme
das sprachliche Können zu geben. Formelle GmbH), bezeichnet die angebotenen Zertifikate
Prüfungen orientieren sich an festgelegten auf der Homepage als language tests (2018).
Kriterien und können daher objektive Besonders wenn es um die Vergabe von
Aussagen in Bezug auf diese Kriterien Zertifikaten geht, wird zwar eher von
liefern (Albers & Bolton, 1995, p. 14). Diese Prüfungen gesprochen, jedoch verwenden
Unterscheidung wird jedoch nicht Anbieter solcher Prüfungen auch zunehmend
strikt befolgt. Während beispielsweise die Bezeichnungen, die neutral sind: Fit in
DSH (Deutsche Sprachprüfung für den Deutsch, Start Deutsch 1, Kleines/Großes
Hochschulzugang) noch die Prüfung im Deutsches Sprachdiplom, Zertifikat Deutsch
Namen trägt, ist der jüngere TestDaF, für den Beruf etc. Auch neuere Fachliteratur
der den Test im Namen trägt, nach den verzichtet eher auf eine strenge Trennung
obengenannten Bestimmungen eindeutig eine beider Begriffe (vgl. Grotjahn & Kleppin,
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
25

2015). Für diesen Beitrag habe ich mich zwischen summativer und formativer
daher entschieden, vor allem den Begriff Evaluation unterschieden. Summative
Prüfung und Prüfen zu verwenden, Evaluationen sind punktuell und produkt-
da die für formelle Prüfungen geforderte /ergebnisorientiert, beispielsweise als Noten
Kriterienorientierung dem Ziel dient, in Zeugnissen, während formative Evaluationen
die Qualität einer Sprachprüfung besser kontinuierlich und prozessorientiert im
bestimmen zu können und auch bei Unterricht integriert sind. Sie dienen dazu,
informellen Tests beachtet werden sollte. den Unterricht zu optimieren und die
Gemeinsames Merkmal von Tests und Fertigkeiten der Lernenden weiterzuentwickeln
Prüfungen ist es, dass Prüflinge durch (Grotjahn & Kleppin, 2015, p. 36). Im Grunde
eine Aufgabenstellung zu bestimmten ist somit schon die Beobachtung im
sprachlichen Handlungen oder Reaktionen Unterricht, dass es bei den Lernenden
gebracht werden sollen. Es handelt sich um bestimmte Defizite gibt, eine formative
den Einsatz von „theoretisch und empirisch Evaluation.
fundierten Verfahren zur kontrollierten Verfahren, die auf Grund von Zahlenwerten
Auslösung von diagnostisch relevantem Rückschlüsse auf sprachliche Fertigkeiten
Verhalten durch standardisierte Reize – mit liefern, werden oft als Messverfahren
dem Ziel eines Rückschlusses auf sprachliche bezeichnet. Letzlich liefern die meisten Tests
Kompetenzen“ (Grotjahn, 2013, p. 211). Bei und Prüfungen Leistungsbeurteilungen auf
alternativen Formen der Leistungsmessung, Grund von Zahlenwerten und müssen daher
z.B. durch Unterrichtsbeobachtung oder als Messverfahren gelten. So beschreibt
Selbstevaluation, verwendet man hingegen Kecker Sprachprüfungen weiterführend als
die Begriffe Evaluation oder im Englischen „Messverfahren, die in möglichst sytematischer
den Begriff Assessment. Ferner wird und objektiver Weise Aussagen über die
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
26

Sprachfähigkeit von Personen treffen 3. Kriterien und deren testtheoretische


oder über ihre Fähigkeit, bestimmte Funktionen
sprachliche Aufgaben zu bewältigen“ (Kecker, Die Kriterien erfüllen eine wichtige
2011, p. 26). Für eine Leistungsbeurteilung Funktion bei der Beantwortung der Frage,
müssen nicht direkt beobachtbare was untersucht werden soll und kann.
theoretische Konstrukte, z.B. kommunikative Sprachprüfungen beanspruchen zumeist,
Kompetenz oder Hörverstehenskompetenz, bestimmte Kompetenzbereiche zu überprüfen
in quantifizierbare und zählbare Ergebnisse (Hörverstehen, Leseverstehen, Sprechen,
überführt werden. Bei der Überführung Schreiben, Hör-Seh-Verstehen, Sprachmittlung
muss mit großer Achtsamkeit vorgegangen etc.). Kompetenzen können verschiedene
werden, denn es sollte erkennbar sein, dass Teilkompetenzen voraussetzen (Beispiele
Überlegungen dazu angestellt worden finden sich u.a. in Hallet, 2008 und
sind, welcher Erkenntnisgewinn mit einer Traoré, 2016). Die explizite Benennung
bestimmten Prüfung überhaupt möglich ist von Kompetenzen als Untersuchungsgegen-
und wie zuverlässig und objektiv gemessen stand hat vor allem damit zu tun,
wird. Im Folgenden möchte ich daher dass moderner Fremdsprachenunterricht als
Kriterien vorstellen, die Voraussetzungen, kompetenzorientiert oder handlungsorientiert
Möglichkeiten und Grenzen von Prüfungen beschrieben wird. Einen nicht zu
eruieren und einen kritischen und reflektierten unterschätzenden Einfluss auf diese Entwick-
Umgang mit Prüfungen ermöglichen. lung hatte wohl auch der Gemeinsame
Europäische Referenzrahmen (GER), der die
sprachlichen Niveaustufen A1 bis C2 als
Kompetenzniveaus mit Hilfe von Kann-
Beschreibungen definiert. Seither verorten
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
27

Lehrmaterialien und Kurse ihre Niveaustufen Die Explizierung des Testkonstrukts


gemäß den Kompetenzniveaus im GER, selbst schafft Klarheit über den zu prüfenden
methodisch hochentwickelte Prüfungen Phänomenbereich. Entwickler sollten in
wie der TestDaF, der gut fundierte eigene Zusammenhang mit der Operationalisierung
Niveaustufen (TDN 3 - TDN 5) aufweisen transparent machen, welche Merkmale sie
kann. Ziel des Fremdsprachenunterichts ist die diesem Konstrukt theoretisch zuschreiben
Vermittlung von bestimmten Kompetenzen, und wie sich diese empirisch messen lassen.
und der Erfolg der Sprachvermittlung kann Der Zusammenhang von Theorie und Empirie
durch eine Erhebung dieser Kompetenzen soll so offengelegt werden. Damit wird
überprüft werden. Klare Aussagen darüber, Testanwendern die Möglichkeit gegeben, oft
was die Lernenden schon können sollen, nur implizite theoretische Grundannahmen
bilden eine sehr wichtige Grundlage für die zu hinterfragen und die Nachvollziehbarkeit
lernzielgerechte Überprüfung dieser (Teil-) und Transparenz der Prüfung erhöht. Grotjahn
Kompetenzen. Dabei sollte nicht vergessen & Kleppin (2015, p. 87) verweisen auf die
werden, dass man Kompetenzen nicht direkt genaue Beschreibung des Testkonstruktes
erfassen kann. Erfasst werden kann Kompetenz auch als Voraussetzung für die Auswahl
nur über beobachtbares Verhalten. Die geeigneter Aufgabenformate. Ferner sollen
Kompetenz an sich ist nur ein theoretisches die klassischen Gütekriterien Validität,
Konstrukt, dem vom Testentwickler bestimmte Reliabilität und Objektivität auf den Test
Ausprägungen als beobachtbares Verhalten angewendet werden, denn erst mit Hilfe
zugeschrieben werden. Kompetenzen, die in der Gütekriterien wird deutlich, welcher
einer Prüfung gemessen werden sollen, Erkenntnisgewinn mit der eingesetzten
werden daher als Testkonstrukte bezeichnet. Sprachprüfung überhaupt zu erzielen ist. Im
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
28

Rahmen dieses Artikels können jedoch nur in halboffene oder geschlossene Fragen zu
sehr beschränktem Umfang Beispiele gezeigt klassifizieren. Eine Prüfung kann sich
und Kriterien praktisch angewendet werden. dabei aus verschiedensten Einzelprüfungen
Die nun folgenden Punkte 3.1 bis zusammensetzen, insbesondere bei Ein-
3.6 sollen daher vor allem helfen, eine stufungsprüfungen, Eignungsprüfungen oder
größere testtheoretische Reflektiertheit Zulassungsprüfungen (DSH, TestDaF, TOEFL
und Transparenz bei Lehrenden, die Tests etc). Es ist zu beachten, dass die
entwicklen und anwenden möchten, zu Einzelprüfungen einzeln beschrieben werden.
erreichen: Ein Vorbild ist z.B. der TestDaF, bei dem
3.1 Kurzbeschreibung des Verfahrens den Prüflingen vor dem Prüfungsteil
Eine Kurzbeschreibung des Verfahrens schriftlich und auditiv der Gegenstand
ermöglicht potenziellen Anwendern, ein erste benannt und kurz beschrieben wird, welche
Einschätzung bezüglich der Eignung Aufgaben zu erwarten sind: „Im Prüfungsteil
des Verfahrens für eine bestimmte Mündlicher Ausdruck sollen Sie zeigen,
Fragestellung als auch eine Einschätzung zur wie gut Sie Deutsch sprechen. Dieser Teil
Durchführbarkeit vorzunehmen. Dazu gehört besteht aus insgesamt 7 Aufgaben, in denen
es, einerseits kurz den Gegenstand der Ihnen unterschiedliche Situationen aus dem
Prüfung zu beschreiben und andererseits Universitätsleben vorgestellt werden. Sie
die Form der Prüfung und seiner Aufgaben sollen sich zum Beispiel informieren,
zu klassifizieren. Soll das Verfahren Auskunft geben oder Ihre Meinung sagen.
beispielsweise den Mündlichen Ausdruck Jede Aufgabe besteht aus zwei Teilen: Im
(Gegenstand) eines Probanden erheben, so ersten Teil wird die Situation beschrieben, in
kann dies mit einem Interview (Form) der Sie sich befinden, und es wird gesagt,
erfolgen. Die Aufgaben wären als offene, was Sie tun sollen ... im zweiten Teil der
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
29

Aufgabe spricht Ihr Gesprächspartner oder sie verschiedene Einzelprüfungen umfassen:


Ihre Gesprächspartnerin, danach sollen Sie Mündlicher und schriftlicher Ausdruck,
sprechen“. Das Beispiel stammt aus der Hör- und Leseverstehen. Ein wichtiger
Musterprüfung 1 (TestDaF-Institut, 2005, Unterschied ist jedoch, dass TestDaF auf die
p. 41). gesonderte Erhebung des Phänomenbereichs
3.2 Gegenstand der Prüfung „Grammatik/Strukturen“ verzichtet. Während
Dieser Punkt erfordert eine man einwenden kann, dass wissenschafts-
Benennung des Untersuchungsgegenstandes sprachliche Strukturen mit bestimmten
aus theoretischer Sicht. Erst wenn Klarheit grammatischen Formen einhergehen und
über den zu untersuchenden Phänomenbereich daher ein Prüfungsteil Grammatik nötig sei,
herrscht, kann entschieden werden, ob eine kann ebenso argumentiert werden, dass
Prüfung in der Lage ist, über diesen solche wissenschaftssprachlichen Strukturen
Gegenstand Auskunft zu geben oder ob die bereits bei den anderen 4 Prüfungsteilen
Prüfung modifiziert oder sogar um weitere erhoben werden. Eine Einschätzung, welche
Verfahren ergänzt werden muss. Zur Prüfung den genannten Gegenstand am
Verdeutlichung können hier die beiden besten erhebt, ist jedoch nur mit einer
bekanntesten Sprachprüfungen für die transparenten und expliziten Benennung des
Zulassung zum Studium in Deutschland Gegenstandes möglich.
angeführt werden, die DSH und der TestDaF. Sprachprüfungen erfassen in aller Regel
Beide beanspruchen, die sprachliche Fähigkeit Kompetenzen als Untersuchungsgenstand.
von ausländischen Studienbewerbern zum Wie bereits erwähnt lassen sich diese
Studium an einer deutschen Hochschule Kompetenzen nicht direkt messen.
als Untersuchungsgegenstand zu erheben. Kompetenzen, die beobachtbarem Verhalten
Beide Prüfungen gelten als Testbatterien, da zugrunde liegen, werden häufig als
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
30

Testkonstrukte bezeichnet (Grotjahn & Kleppin, beispielsweise durch das Ankreuzen in einer
2015). Da jedoch das Konstrukt nicht Mehrfachauswahlaufgabe. Bei solchen Tests
umittelbar messbar ist, kann nur das sprachliche wird häufiger von Kompetenztests gesprochen
Handeln und Verhalten beobachtet werden; (Grotjahn, 2013, p. 213). Werden Prüfungen
daher spricht man auch von Performanztests. für den Einsatz als Abschluss- oder
Anschließend sollten Rückschlüsse auf Lernfortschrittstest konzipiert, so kann das
die zugrundeliegende Kompetenz möglich Testkonstrukt passgenau auf die Lernziele des
sein. Ein Beispiel ist die Prüfung der vorangegangenen Unterrichts abgestimmt
Sprechfähigkeit mittels eines Rollenspiels, werden. Prüfungen, die das Erreichen der
wie in der Prüfung Goethe Zertifikat Niveaustufen A1 – C2 überprüfen, können sich
B1 des Goethe Instituts oder simulierte mit einer gewissen Vorsicht auf die im GER
Telefongespräche wie im Prüfungsteil (Europarat, 2001) definierten Niveaustufen
Mündlicher Ausdruck des TestDaF. Ferner beziehen. Der GER bietet zwar Beschreibungen
ist zu beachten, dass beim TestDaF oder der der jeweiligen Kompetenzstufen, jedoch
DSH sprachliche Kompetenzen für einen warnen Fulcher (2004, 2010) und Milanovic
bestimmten Bezugsbereich, das Studium, (2009, p. 3) vor einer Überschätzung der
geprüft werden sollen. Neben einer exakten Möglichkeiten des GER. Das Konstrukt einer
Benennung der Kompetenzen setzt dies auch Prüfung werde nicht vom GER bestimmt,
eine Definition des Bezugsbereichs voraus sondern ein Testkonstrukt in einem
(Chapelle et al, 2010, p. 8). spezifischen Kontext kann in Hinblick auf
Insbesondere bei der Überprüfung rezeptiver seine Übereinstimmung mit dem GER
Kompetenzen (Lese- oder Hörverstehen) überprüft werden. Ferner wurde kritisiert, dass
kann nur sehr indirekt durch Interferenz die in den Skalen verwendeten Begriffe, wie
auf Kompetenzen geschlossen werden, „vertraut“, „einfach“ oder „komplex“ nicht
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
31

erläutert und Schwierigkeitsmerkmale nicht soll, wieweit die Prüflinge bereits ihre
kohärent verwendet werden (Alderson & Sprachverwendung automatisiert haben, so
Hutha, 2005). muss deutlich werden, welche Merkmale
3.3 Operationalisierung diesem Untersuchungsgegenstand theoretisch
Die Frage, welcher Gegenstand wie zugeschrieben werden. Die Operationalisierung
gemessen wird, ist zentral für Entscheidungen muss sich also auf die Frage beziehen, wie
zur Operationalisierung der Forschungsfrage: sich diese Eigenschaften messen lassen.
„Die Operationalisierung eines theoretischen Prüfungen, die Niveaustufen nach dem GER
Begriffs besteht aus der Angabe einer erfassen möchten, können auf die dortigen
Anweisung, wie Objekten mit Eigenschaften Kann-Beschreibungen zurückgreifen. Diese
(Merkmalen), die der theoretische Begriff sind jedoch recht abstrakt und oft frei
bezeichnet, beobachtbare Sachverhalte interpretierbar. Daher empfiehlt sich für die
zugeordnet werden können“ (Schnell, Esser, Operationalisierung der Einsatz von „Profile
& Hill, 1995). Es ist beispielsweise fraglich, Deutsch“ (Glaboniat et al, 2005). Profile
ob Mehrfachauswahlaufgaben (multiple choice Deutsch beruht auf den Kann-Beschreibungen
Aufgaben) tatsächlich sprachliche Kompetenzen des GER, konkretisiert diese jedoch für die
erfassen können, oder ob nicht eher die Praxis und erweitert sie durch Beispiele.
Vertrautheit der Prüflinge mit eben diesem Das folgende Beispiel ist aus einer High-
Testformat erfasst wird (Perlemann-Balme, Stakes Prüfung für den Hochschulzugang
2001). Um die Eignung einer Prüfung (Professional Aptitude Test, PAT 7.2, 2011).
einschätzen zu können, müssen die ihr Im Prüfungsteil Grammatik gibt es die
zugrundeliegenden theoretischen Annahmen folgende Mehrfachauswahlaufgabe mit der
offenbart werden. Arbeitsanweisung „Wählen Sie die beste
Wenn beispielsweise erhoben werden Antwort!“:
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
32

Was, du __________ heiraten? feststehende Redewendung handelt, ist ferner


Das ___________ nicht wahr sein! auch die Arbeitsanweisung irreführend, da
a) möchtest/muss nur eine Antwort korrekt ist. Ferner kann an
b) möchtest/soll Hand von Profile Deutsch ermittelt werden,
c) willst/darf dass das Verstehen durch schriftliche Rezeption
d) willst/mag von oft gebrauchten Wendungen auf dem
Neben der bereits genannten Kritik an der Niveau B1 verortet wird (p. 105), während
Eignung vom multiple choice Aufgaben zur die Beherrschung der Modalverben den
Erfassung vom Kompetenzen ist hier zu Niveaustufen A1 (wollen, müssen, mögen)
bemerken, dass keine Grammatik erfasst und A2 (dürfen, sollen) zugeschrieben wird
wird, weil die Stellung der Verben im Satz (Glaboniat et al, 2005).
vorgegeben ist und die Verben flektiert sind. Die Offenlegung der Operationalisierung
Bei Fragestellungen der Operationalisierung macht es auch möglich, Faktoren, die
kann man also auch deduktiv fragen, welche das Ergebnis verfälschen, leicher zu
Eigenschaften für die Lösung dieser Aufgabe erkennen. Es kann sich dabei um Messfehler
nötig sind. „Das darf nicht wahr sein“ kann handeln, beipielsweise wenn der Einsatz von
als feststehende Redewendung zum Ausdruck Wörterbüchern oder Smartphones während
von Überraschung betrachtet werden, denn der Prüfung nicht geregelt ist und so manche
das Modalverb dürfen wird eben nicht in der Prüflinge bessere Ergebnisse erzielen können
modalen Bedeutung „erlauben“ verwendet. als andere. Andererseits kann es sich um
Insofern geht es weder um Semantik noch im Störfaktoren handeln, die oft nicht beeinflussbar
Speziellen um die Bedeutung der Modalverben, sind. Dies kann z.B. die fehlende Vetrautheit
sondern vielmehr um Vertrautheit mit mit einem bestimmtem Testformat sein. Man
Redewendungen. Da es sich um eine denke an den TestDaF: Im Prüfungsteil
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
33

mündlicher Ausdruck muss der Prüfling auf der Prüfung, bei der die Bedingungen, unter
eine Frage monologisch die Antwort in das denen die Prüfung abgelegt wird, so
Aufnahmegerät sprechen, zudem gibt es auch vergleichbar wie möglich gemacht werden.
eine strikte Zeitvorgabe für die notwendigen So muss z.B. festgelegt werden, welche Texte
Handlungen Überlegen und Sprechen. Ist und welche Aufgabenformate verwendet
der Prüfling nicht auf dieses Format werden, welche sprachliche Handlungen der
vorbereitet, ist eine schlechtere Performanz Prüflinge als erfolgreich zu sehen sind und
als in einer natürlichen Situation erwartbar. wie diese Reaktionen zu bewerten sind. Die
Andere Störfaktoren können unterschiedliche Standardisierung ist insbesondere unerlässlich
Belastbarkeit der Teilnehmer, unterschiedliche für formelle Prüfungen wie den TestDaF, die
Lösungsstrategien etc. sein, auf Seiten der DSH oder TOEFL, denn diese Prüfungen
Prüfenden Vorlesende mit dialektaler Färbung werden mehrfach pro Jahr angeboten. Dabei
(DSH) usw., ebenso zufällige Störfaktoren muss gewährleistet bleiben, dass beispielsweise
in der Durchführung: Störgeräusche aus ein Ergebnis von TDN 4 im Leseverstehen
Nebenräumen, ungünstige Sitzplätze bei des TestDaf aus einem Prüfungsdurchgang
Hörverstehensaufgaben, Ausfall technischer vergleichbar bleibt mit einem TDN 4 aus
Geräte. All diese Faktoren beeinflussen die einem Prüfungsdurchgang im folgenden Jahr,
Zuverlässigkeit, mit der gemessen wird. Da bei dem andere spezifische Items verwendet
diese nicht beeinflussbar sind, sollten sie wurden. Die Standardisierung im Leseverstehen
zumindest dokumentiert werden. des TestDaF erfolgt daher an Hand der
3.4 Standardisierung folgenden Kriterien: Dauer, Anzahl der Items,
Eine zentrale Forderung für eine gute Textlänge, Itemtyp (Zuordnung, multiple
Prüfung ist eine hohe Standardisierung. Ziel choice, ja/nein/Text sagt nichts dazu),
der Standardisierung ist eine Vereinheitlichung Diskursart, Aspekte des Leseverstehens
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
34

(Globalverstehen, Einzelheiten verstehen, als „eine zentrale Voraussetzung für eine


Inferenzen ableiten) und Zielsetzung des zufriedenstellende Objektivität“ (2013, p. 212)
Leseverstehens (zur Orientierung lesen, der Prüfung. Weiterführendes dazu findet
Information und Argumente verstehen, sich unter 3.2.
Gedankengang in einem Text verstehen, 3.5 Maße
implizite Bedeutungen verstehen) (Kecker, Die Offenlegung der Maße soll
2011, p. 141). Auf diese Weise bleibt trotz Klarheit darüber schaffen, welche Ausprägung
unterschiedlicher Items in der jeweiligen die beobachtbare Eigenschaft, die dem
Prüfung das getestete Leseverstehen Gegenstand der Prüfung zugeschrieben wird,
vergleichbar. Im Vergleich ist die DSH deutlich annehmen kann. Die verwendeten Maße
schwächer standardisiert als TestDaF, da dienen damit der Quantifizierung
es zwar eine Rahmenordnung für die der beobachteten Sachverhalte. Wenn
Durchführung gibt, jedoch die Auslegung beispielsweise erfasst werden soll, inwieweit
dieser Regelungen Ermessensspielräume lässt, ein Prüfling die mündliche Sprachverwendung
die von den Hochschulen unterschiedlich automatisiert hat, so ist „Automatisierung“
ausgelegt werden; so kann der ein theoretisches Konstrukt, dem u.a. die
Hörverstehenstext an einer Hochschule vom beobachtbaren Eigenschaften „Schnelligkeit“
Band kommen, an einer anderen Hochschule und „Mühelosigkeit“ zugeschrieben werden
aber von einem Prüfer vorgelesen (Stevener, 2003). Diese Eigenschaften müssen
werden, wobei Variablen wie Aussprache, zählbar werden. Als Maße für Schnelligkeit
Lesegeschwindigkeit, dialektale Färbung werden vor allem temporale Variablen
usw. nicht standardisert sind und je nach untersucht. Daher kann z.B. die
Vorlesendem anders ausfallen werden. Artikulationsrate (die Anzahl von Silben pro
So bezeichnet Hallet die Standardisierung Minute, Pausen herausgerechnet), die Anzahl
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
35

gefüllter und ungefüllter Pausen, die sog. easiest things to do, it has been suggested, is
speech rate (das Verhältnis von Silben zur to develop a new kind of test – what is hard
Gesamtdauer der Äußerung inklusive Pausen) to know is to know what an existing test
etc. verwendet werden. really measures”. Die Maße quantifizieren die
Sprachprüfungen wollen bestimmte beobachteten Eigenschaften und bilden so
Kompetenzen erfassen. Dabei muss deutlich die Brücke zwischen der Operationalisierung
werden, auf welche Eigenschaften die Prüfung und der anschließenden Bewertung der
zielt und welche Maße gewählt wurden. Prüfungsleistung.
Wird z.B. die Schreibkompetenz untersucht, 3.6 Gütekriterien und ihre
so dürften viele Lehrende annehmen, dass Wechselwirkungen
die beobachtbare Eigenschaft „Korrektheit“ Die Gütekriterien verdeutlichen, wo die
an Hand der Anzahl von Fehlern gemessen Grenzen eines möglichen Erkenntnisgewinns
werden kann und so ein Rückschluss auf zu sehen sind. Daher ist es ratsam, jede
Schreibkompetenz möglich ist. Diese Fehler Prüfung hinsichtlich ihrer Leistungsfähigkeit
können unterschiedlich gewichtet werden. zu evaluieren. Grotjahn, (2013) fordert,
Darüber hinaus können der Schreibkompetenz „Sprachtests im Sinne der pädagogisch-
aber weitere Eigenschaften zugeschrieben psychologischen Diagnostik sollten die
werden, z.B. Komplexität, Angemessenheit, folgenden Qualitätsmerkmale aufweisen [...]:
Kohärenz, etc. Die Offenlegung der Erfüllung der klassischen Gütekriterien
verwendeten Maße ermöglicht eine genauere der Objektivität, Reliabilität und Validität“
Einschätzung, was gemessen wird und in (Grotjahn, 2013, p. 211) und verweist darauf,
welchem Verhältnis diese Maße zum dass diese Kriterien nicht nur bei formellen
Gegenstand der Prüfung stehen. Spolsky Prüfungen zu gelten haben, sondern auch bei
(2000, p. 539) schreibt treffend: „One of the informellen Tests eine wichtige Rolle spielen.
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
36

Da die Ergebnisse von Tests und Prüfungen 3.2) lässt sich nicht direkt beobachten,
eine wichtige Rolle bei vielen praktischen sondern benötigt Indikatoren, die erfasst
Entscheidungen, z.B. Weiterversetzung in werden können. Das Item aus PAT 7.2 unter
der Schule, Beförderung, Einstellung, 3.3 kann bezüglich seiner Validität eingeschätzt
sprachpolitische Entscheidungen etc., spielen werden, denn das Konstrukt, das erfasst
können, formulierte Bachmann schon 1990: werden soll, ist grammatische Kompetenz.
„The more important the decision, in terms Das Item erfasst jedoch die Vertrautheit
of its impact upon individuals and programs, mit Redewendungen, eventuell auch die
the greater assurance we must have that our Vertrautheit mit dem Testformat, und ist
test scores are reliable and valid“ (p. 78). Im daher nicht valide. Schwieriger ist es, wenn
Folgenden werden wichtige Gütekriterien z.B. kognitive Verabeitungsprozesse bei
diskutiert: der Bearbeitung von Testaufgaben, das
3.6.1 Validität Hörverstehen oder Leseverstehen erfasst
Validität (Gültigkeit) ist das werden sollen. Diese sind nicht direkt
wichtigste Gütekriterium einer Prüfung. beobachtbar. Zur Bestimmung der Validität
Man kann damit u.a. einschätzen, ob einer Leseverstehensaufgabe muss gefragt
wirklich das erfasst wurde, was erfasst werden, ob man auf Grund der beobachteten
werden sollte. Der Begriff „Validität“ hat Leistung in der Prüfung gültige Aussagen zur
eine wissenschaftshistorische Entwicklung Leseverstehenskompetenz der Prüflinge in
durchlaufen (Kecker, 2011, p. 18 f.) und sich bestimmten realen Situationen formulieren
in verschiedene Ausprägungen entwickelt. kann.
Für die Praxis der Sprachprüfungen ist die Eine weitere Form der Validität ist die
sogenannte „Konstruktvalidität“ das zentrale Augenscheinvalidität, die als Gültigkeit des
Konzept von Validität. Das Konstrukt (siehe Tests in den Augen der Getesteten und
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
37

Testabnehmer beschrieben werden kann. In TestDaF zeigt, wird er diese Leistung dann
der Praxis ist die Validierung einer Prüfung auch im Studium bei Vorlesungen und
recht anspruchsvoll und kann nur ansatzweise Seminaren zeigen können? Für interne
von Lehrenden für informelle Prüfungen und externe Validiät einer Prüfung sind
durchgeführt werden. Hilfreich ist das Gespräch die Konstrukteure der Prüfung zuständig,
mit KollegInnen, um möglichst genau zu allerdings sollten Testanwender in der Lage
spezifizieren, was gemessen werden soll, sein, interne und externe Validität kritisch zu
warum eine bestimmte Aufgabe in der reflektieren.
Prüfung verwendet wird und warum diese 3.6.2 Objektivität
Aufgabe wie bewertet wird. Weiter kann Zentrale Voraussetzung für
Validität in interne und externe Validität Objektivität ist die Standardisierung (Ver-
unterschieden werden. Die interne Validität einheitlichung) der Durchführung und
bezieht sich auf die Eindeutigkeit, mit der die Bewertung einer Prüfung. Geschlossene
Ergebnisse interpretiert werden können. Sind Aufgabenformate wie multiple choice
die Resultate auf die untersuchte Kompetenz Aufgaben, Zuordnungsaufgaben und Alter-
zurückzuführen, oder gibt es alternative nativantwort Aufgaben können völlig
Erklärungen für das in der Prüfung gezeigte objektiv bewertet werden. Jedoch besonders
Verhalten? Je mehr Alternativerklärungen bei produktiven und komplexen Kom-
möglich sind, desto geringer ist die interne petenzen (Schreibfertigkeit, sprachliche
Validität einzustufen. Die externe Validität Studierfähigkeit etc.) ist es schwierig,
hingegen bezeichnet die Verallgemeinbarkeit Objektivität zu gewährleisten. Objektivität
der Ergebnisse über die spezifische Prü- wird in die zentralen Konzepte „Durch-
fungssituation hinaus. Wenn ein Prüfling führungsobjektivität“ und „Bewertungs-
eine gute Leistung im Hörverstehen des objektivität“ unterschieden. Da der vorliegende
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
38

Beitrag sich nicht mit der Bewertung beispielsweise der mündliche Ausdruck in
beschäftigt, bezieht sich die hier einer so stark standardisierten Weise geprüft
erörterte Objektivität allein auf die (festgelegte Zeiten zur Planung und Produktion
Durchführungsobjektivität. Die Durchfüh- der Äußerung, Anweisungen mit Pieptönen,
rungsobjektivität hängt vor allem von Konversation mit einem Computer oder
zufälligen oder systematischen Ab- Tonband etc.), dass fraglich ist, ob hier nicht
weichungen im Verhalten von Prüfern oder die Vertrautheit mit dem Prüfungsformat
Kommunikationspartnern ab, da diese mitgetestet wird, was eine geringere interne
ihrerseits das sprachliche Verhalten der Validität bedeutet, und auch ob das in einer
Prüflinge beeinflussen. Die Hörverstehens- so kontrollierten Situation gezeigte Verhalten
aufgabe in DSH Prüfungen kann von in einer realen Situation außerhalb der
unterschiedlichen Prüfern vorgelesen werden, Prüfung gezeigt werden kann; ergo sinkt
deren Aussprache, Lesegeschwindigkeit, auch die externe Validität. Am Beispiel des
dialektale Färbung, Stimmhöhe, Pausen- PAT 7.2 kann man sehen, dass eine multiple
verhalten etc. jedoch nicht standardisiert ist. choice Aufgabe zwar hochgradig objektiv ist,
Daher hat der Hörverstehensteil in der DSH damit jedoch nicht automatisch auch eine
eine geringere Objektivität als der Verbesserung der Validität erreicht wird.
Hörverstehensteil im TestDaF, denn dort Problematisch hinsichtlich der Durch-
wird an festgelegten weltweiten Prüfungs- führungsobjektivität sind des Weiteren
terminen ein identischer Hörtext digital über Paarprüfungen, die beispielsweise im
Kopfhörer präsentiert. Zertifikat B1 des Goethe Instituts verwendet
Es ist jedoch zu beachten, dass werden. Der mündliche Ausdruck hängt stark
Gütekriterien untereinander Wechsel- von der Qualität der Äußerungen des
wirkungen zeigen. Im TestDaF wird Prüfungspartners ab. Wenn der Prüfling den
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
39

Beitrag des Partners nicht verstehen kann, wiederholt, der also theoretisch den gleichen
weil dieser nicht auf dem entsprechenden Kenntnisstand besitzt, in den wiederholten
Niveau ist, so kann der Prüfling nicht zeigen, Tests das gleiche Ergebnis wie beim ersten
welche mündliche Kompetenz er besitzt. Durchlauf erzielen. Ein Kandidat, der den
Ferner wird auch das Hörverstehen erfasst, TestDaF nach kurzer Zeit ein zweites Mal
welches doppelt erhoben wird, da die ablegt, sollte also auch ein fast identisches
Prüfung das Hörverstehen auch in einem Ergebnis erhalten. Gerade bei informellen
weiteren Prüfungsteil separat erfasst. Die Tests und Prüfungen wird oft keine
interne Validität und Durchführungs- hinreichende Reliabilität gewährleistet. Doch
objektivität sind damit zwar geringer, auch der sogenannte „DSH Tourismus“, bei
andererseits ist von einer hohen externen dem ausländische Studienbewerber die DSH
Validität auszugehen, da die Prüfungs- an verschiedenen Universiäten probieren, weil
situation einer realen Situation stark ähnelt. einige DSHs als „leicht“ gelten, ist ein
3.6.3 Reliabilität klares Indiz für mangelhafte Reliabiliät der
Das Gütekriterium Reliabilität formellen DSH Prüfung.
bezieht sich auf die Zuverlässigkeit, mit der Die Reliabilität in der Durch-
gemessen wird und soll sich kritisch mit führungsphase wird beispielsweise durch
der Frage beschäftigen, welcher Anteil der nicht eindeutige Arbeitsanweisungen
vom Prüfling gezeigten Leistung sich beeinträchtigt. Die mehrfach zitierte Aufgabe
auf Messfehler und wieviel sich auf aus dem PAT 7.2. formuliert „wählen Sie die
die intendierte sprachliche Kompetenz beste Antwort“, wobei die Formulierung
zurückführen lässt. Theoretisch sollte problematisch ist, denn es suggeriert, dass
beispielsweise ein Lerner, der den strukturell mehrere Antworten richtig sind. Darüber
gleichen Test innerhalb kurzer Zeit mehrmals hinaus kann es zu Problemen bei der
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
40

Bewertung führen, da Bewerter unterschiedliche andererseits kaum praktikabel, wenn es sich


Vorstellungen davon haben können, was um informelle kleinere Tests und Prüfungen
die beste Antwort ist. Weitere Probleme bei handelt
der Reliabilität können durch nicht 3.6.4. Ergänzende Gütekriterien
standardisiertes Material (unterschiedlich Die drei genannten Gütekriterien
lange oder schwere Texte, unterschiedliche sind zentral für die Einschätzung der Qualität
Sprecher, unterschiedliches Verhalten von eines Verfahrens. Insbesondere aus der
Testern), mangelhafte Messapparatur (man- Prüfungspraxis haben sich eine ganze Reihe
gelhafte Tonbänder, schlechte Druck - oder weiterer Gütekriterien gebildet, die hilfreich
Kopierqualität, Probleme der Raumakkustik für die Einschätzung eines Verfahrens
etc.) und eine nicht standardisierte Durch- sind. Der bereits angesprochene Punkt der
führung (unterschiedliche Dauer zur Praktikabilität ist ein solches Gütekriterium,
Bearbeitung von Aufgaben, unterschiedliche denn wenn eine Prüfung bestimmte
mündliche Arbeitsanweisungen etc.) ent- Ressourcen erfordert, die nicht vorhanden
stehen. Auch hier ist zu bemerken, dass sich sind, ist er nicht praktikabel. Man denke hier
ein Maximum an Reliabilität negativ auf an online-Prüfungen, die Internetzugang und
andere Gütekriterien auswirken kann. Gerade bestimmte Programme voraussetzen, die
bei Prüfungen zu mündlichen Kompetenzen nicht überall verfügbar sind. Aus der
ist es schwierig, das Verhalten der Tester Psychologie stammt das Gütekriterium der
oder die Dauer von Redebeiträgen zu stan- Ökonomie, das ähnlich wie Durchführbarkeit
dardisieren, da eine solche Beschränkung in danach fragt, welche Voraussetzungen
aller Regel nicht authentischen Situationen gegeben sein müssen, aber auch konkret den
entspricht und damit die Validität Nutzen im Verhältnis zum entstehenden
beeinträchtigt. Eine maximale Reliabilität ist Aufwand (Mitarbeiter, Raummieten, Gehälter,
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
41

Kosten der Apparatur etc.) erfragt. Prüfung besser abschneiden, handelt es sich
Das Kriterium Authentizität befasst um Messfehler. Dies kann z.B. den Abstand
sich mit der Übereinstimmung der zur Hörquelle betreffen, aber auch
Prüfungssituation und Aufgaben mit dem unterschiedliche Vertrautheit mit dem
zielsprachlichen realen Verwendungskontext. Testformat. Bei Sprachlehrangeboten mit e-
Insbesondere Prüfungen, die Kompetenzen für learning oder Fernlernen und obligatorischer
spezifische Situationen und Kontexte erheben Teilnahme am Präsenzunterricht ist auch zu
(bspw. der TestDaF für den studentischen beachten, dass Präsenzunterricht, der in
Kontext, Prüfungen zum Wirtschaftsdeutsch, unterschiedlichem Maß zugänglich ist, die
Deutsch für den Tourismus etc.), müssen sich Fairness einer Prüfung beeinträchtigt.
an diesem Kriterium orientieren. Wichtig sind Mit dem Gütekriterium Washback
hier vor allem die sprachliche und die -Effekt wird erfasst, inwieweit Prüfungen
situationelle Authentizität. Im Fremdspra- Rückwirkung auf die Unterrichtspraxis
chenunterricht spricht man von einer (Cheng et al, 2004) oder in einem erweiterten
„gemäßigten“ Authentizität (Bolton, 1996, p. Sinne auch auf Curricularentwicklung oder
21), bei der vor allem die Textmerkmale mit Zulassungspolitik von Universitäten haben.
authentischen Texten übereinstimmen, die Für Lehrende ist dies nur im Zusammenhang
aber durchaus vereinfacht und bearbeitet sein mit der Unterrichtspraxis nützlich.
können, um insbesondere in der Grundstufe Wenn beispielsweise Prüfungen nicht
eingesetzt werden zu können. das Hörverstehen erfassen, werden die
Fairness erfasst die Gerechtigkeit einer Lernenden den Hörverstehensaufgaben im
Prüfung. Wenn Prüflinge nicht auf Grund Unterricht weniger Beachtung schenken
höherer Kompetenzen, sondern auf Grund und sich stattdessen eher auf die Inhalte
von individuellen Vorteilen während der konzentrieren, die in Tests und Prüfungen
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
42

erfasst werden. kompetentere Prüflinge. Sind die Aufgaben


Die Transparenz bezieht sich darauf, dass zu leicht, werden sie von allen Prüflingen
wichtige Merkmale einer Prüfung zu gelöst und machen es damit unmöglich,
Zielsetzung, Aufgaben, Schwierigkeitsgrad, Leistungen in eine Reihenfolge zu bringen.
Strukturellem Aufbau und Ablauf, Be- Gleiches gilt für zu schwierige Items. Wenn
wertungskriterien etc. offengelegt werden kein Prüfling diese lösen kann, ist der
sollen. Eine hinreichende Transparenz ist Erkentnisgewinn minimal, da keine präzisen
beispielsweise Voraussetzung, wenn die hier Aussagen über individuelle Leistungsniveaus
vorgestellten Punkte von Testanwendern auf innerhalb einer Gruppe möglich sind.
eine Prüfung bezogen werden sollen, um Die Nützlichkeit eines Verfahrens kann
deren Qualität einzuschätzen. Ferner ist schließlich als ein übergeordnetes Kriterium
Transparenz vorauszusetzen, wenn die verstanden werden, das Kriterien wie
Übereinstimmung einer Prüfung mit dem Reliabilität, Konstruktvalidität, Authen-
GER oder curricularen Vorgaben tizität, Interaktivität, Wirkung („impact“)
eingeschätzt werden soll. Für Prüflinge und Praktikabilität subsumiert (Bachmann
bedeutet Transparenz auch eine erhöhte & Palmer, 1996) und deren Gewichtung
Fairness, da insbesondere die Offenlegung thematisiert (Grotjahn & Kleppin, 2015).
der Bewertung einer Prüfungsleistung eine
entsprechende Vorbereitung ermöglicht. 4. Einschätzung von Sprachprüfungen
Das Gütekriterium der Trennschärfe ist Die unter 3. vorgestellten Kriterien verstehen
vor allem für die Bewertung relevant. Ziel sich als Handreichung zur Einschätzung
von einzelnen Aufgaben und Items ist es, der Qualität und Eignung von Tests
dass weniger kompetente Prüflinge diese und Prüfungen. Es wurde bereits darauf
Aufgaben häufiger nicht lösen können als hingewiesen, dass es unter den Gütekriterien
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
43

Wechselwirkungen gibt (siehe 3.6) und es durch die Rahmenbedingung erschwert und
daher nicht Ziel sein kann, alle Gütekritereien eine zuverlässige Messung der Fähigkeit
maximal zu erfüllen. Vielmehr geht es sowie deren zeitnahe Auswertung
darum, die Prüfung kritisch reflektieren und zur Herausforderung“ (Kecker, 2011, p. 21).
entsprechend den jeweiligen Bedürfnissen Dies kann bedeuten, dass beispielsweise
beurteilen zu können. Dies bedeutet auch, produktive Fertigkeiten mit multiple choice
bewusst zu entscheiden, wie wichtig einzelne erhoben werden, z.B. in der Form, die
Gütekriterien in einer spezifischen Prüfung richtige Reaktion auf einen Stimulus zu
jeweils sind, denn Testanwender haben in der wählen. Bei einer solchen Prüfung wird die
Praxis mit einer Reihe von Beschränkungen Praktikabilität dann auf Kosten der Validität
zu rechnen, die den Einsatz der theoretisch stärker gewichtet. Multiple choice Aufgaben
„besten“ Prüfung verhindern. Technische, mögen in der Herstellung aufwändig
organisatorische oder finanzielle Be- sein und für produktive Kompetenzen nur
schränkungen wurden bereits unter bedingt valide. Die Beliebtheit dieses
„Praktibilität“, „Ökonomie“ und „Nützlichkeit“ Aufgabenformats erklärt sich jedoch aus der
angesprochen. Darüber hinaus ist auch sehr einfachen Handhabung für Testanwender.
zu beachten, dass große Prüfungen mit Antworten sind eindeutig richtig oder falsch
sehr vielen Prüflingen gewisse Abstriche und die Bewertung kann mit Hilfe
in der Qualität hinnehmen müssen. eines Lösungsschlüssels in kürzester Zeit
Kecker meint, „insbesondere wenn große vorgenommen werden. Mit Hilfe der hier
Kandidatengruppen zur gleichen Zeit geprüft vorgestellten Überlegungen sollte jedoch ein
werden sollen, wird beispielsweise in den Testanwender in der Lage sein, Vor- und
produktiven Teilkompetenzen die Anwendung Nachteile abzuwägen und einen geeigneten
direkter Methoden der Kompetenzerfassung Test zu wählen oder selbst zu erstellen.
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
44

5. Schlussbetrachtung (Kecker, 2011). Für eine solide Entscheidung


Die hier vorgestellten Punkte sollen über die Eignung einer Prüfung sollte dieser
Lehrende in die Lage versetzten, Prüfungen Beitrag jedoch eine brauchbare Handreichung
kritisch zu beurteilen. Dabei liefern die sein.
genannten Punkte eine Basis, die jedoch Eine umfassende Anwendung der Kriterien
um weitere Punkte erweitert und weiter auf Sprachprüfungen mit zahlreichen
konkretisiert werden sollte. In der Beispielen und auf die Erstellung von
Prüfungspraxis wäre es denkbar, dass die Prüfungen in der Praxis würde den Rahmen
Beurteilungen von Prüfungen im World dieses Artikels sprengen, könnte jedoch in
Wide Web geteilt werden könnten, um einem weiterführenden Artikel anvisiert
auch die Evaluation einer Prüfung für werden.
Standardsituationen zu ökonomisieren. Darüber
hinaus würde die Anwendung der Punkte
3.1 bis 3.6 helfen, wissenschaftliche Standards
für die Prüfungspraxis umfassender zu
etablieren und so auch eine Vergleichbarkeit
von Sprachprüfungen zu ermitteln. Die mit
Hilfe dieses Beitrages mögliche Beurteilung
ist keinesfalls vollständig. Die für eine
umfassende Evaluation und Validierung von
Prüfungen erforderlichen Maßnahmen sind
jedoch in der Praxis kaum zu leisten;
so erfolgt beispielsweise eine Validierung
des TestDaF im Rahmen einer Promotion
วารสารรามคาแหง ฉบับมนุษยศาสตร์ ปี ที่ 37 ฉบับที่ 1
45

References
Albers, H. G., & Bolton, S. (1995). Testen und Prüfen in der Grundstufe. Einstufungstests und
Sprachstandsprüfungen. Langenscheidt: Berlin.
Alderson, J. C., & Huhta, A. (2005). The development of a suite of computer based diagnostic tests
based on the Common European Framework. Language Testing, 22, 301-320.
Bachmann, L. F., & Palmer, A. S. (1996). Language testing in practice: Designing and developing
useful language tests. Oxford: Oxford University Press.
Bolton, S. (1996). Probleme der Leistungsmessung. Lernfortschrittstests in der Grundstufe. Berlin:
Langenscheidt.
Chapelle, C. A., Enright, M. K., & Jamieson, J. M. (2010). Does an argument-based approach
to validity make a difference? Educational Measurement: Issues and Practice, 28 (1), 3-13.
Cheng, L., Watanabe, Y., & Curtis, A. (2004). Washback in language testing. Research contexts
and methods. Mahwah, NJ: Erlbaum.
Europarat. (2001). Gemeinsamer Europäischer Referenzrahmen für Sprachen: Lernen, lehren,
beurteilen. Berlin: Langenscheidt.
Fulcher, G. (2004). Deluded by Artifices? The common European framework and harmonization.
Language Testing Quarterly, 1(4), 253 – 266.
Fulcher, G. (2010). Practical Language Testing. London: Hodder Education.
Glaboniat, M., Müller, M., Rusch, P., Schmitz, H., & Wertenschlag, L. (2005). Profile Deutsch.
Gemeinsamer Europäischer Referenzrahmen, Lernzielbestimmungen,
Kannbeschreibungen, Kommunikative Mittel, Niveau A1-A2, B1-B2, C1-C2. Berlin:
Langenscheidt.
Grotjahn, R. (2013). Sprachtests: Formen und Funktionen. In Hallet, W. & Königs, F.G. Handbuch
Fremdsprachendidaktik. 3. Auflage. Seelze-Velber: Klett.
Grotjahn, R., & Kleppin, K. (2015). Prüfen, Testen, Evaluieren. Klett-Langenscheidt: München.
Ramkhamhaeng University Journal Humanities Edition Vol. 37 No. 1
46

Hallet, W. (2008). Zwischen Sprachen und Kulturen vermitteln. Interlinguale Kommunikation als
Aufgabe. In Der fremdsprachliche Unterricht Englisch, 93, 2-7.
Kecker, G. (2011). Validierung von Sprachprüfungen. Die Zuordnung des TestDaF zum
Gemeinsamen europäischen Referenzrahmen für Sprachen. Frankfurt am Main: Peter Lang.
Milanovic, M. (2009). Cambridge ESOL and the CEFR. Cambridge ESOL: Research Notes, 37, 2-5.
Perlemann-Balme, M. (2001). Formen und Funktionen von Leistungsmessung und –kontrolle.
In G. Helbig, L.Götze , G. Henrici, & H. J. Krumm. Deutsch als Fremdsprache. Ein
internationales Handbuch. Band II, 994-1006. Berlin: de Gruyter.
Professional Aptidude Test 7.2. (2011). https://www.opendurian.com/exercises/pat72mar54/1/.
Zuletzt gesehen 31.3.2018.
Roche, J. (2013). Fremdsprachenerwerb Fremdsprachendidaktik. 3. Auflage. Tübingen: Narr
Francke Attempto Verlag.
Schnell, R., Esser, E., & Hill, P. B. (1995). Methoden der empirischen Sozialforschung. München:
Oldenbourg.
Spolsky, B. (2000). Language testing in the Modern Language Journal. The Modern Language
Journal, 84, 536-552.
Stevener, J. (2003). Aufmerksamkeit, Automatisierung und Monitoring: zur Forschungsmethodik.
Fremdsprachen Lehren und Lernen, 32, 98-114.
TELC. (2018). Wer wir sind. https://www.telc.net/ueber-telc/wer-wir-sind.html. Zuletzt gesehen
28.3.2018.
TestDaF-Institut. (2005). Musterprüfung 1. Ismaning: Max Hueber.
Traoré, S. (2016). Translation, intercultural communication and German as a foreign language.
Accesses, application possibilities, curricular approach. Ramkhamhaeng University
Journal, Humanities Edition, 35(1), 27-40.

Das könnte Ihnen auch gefallen