Sie sind auf Seite 1von 32

Zertifikat B1 Deutschprfung fr Jugendliche und Erwachsene Standard Setting.

Ein Arbeitsbericht

ZERTIFIKAT B1:
STANDARD SETTING, BENCHMARKING
ERGEBNISSE
Mnchen, 15.16.10.2012

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 2

Inhalt

Vorwort

Das Projekt Zertifikat B1

Arbeitsgruppen zum Standard Setting und Benchmarking

2.1

Lesen, Hren

2.2

Schreiben

2.3

Sprechen

Evaluation der Veranstaltung

Bibliographie

Anlagen
Zertifikat B1 Standard Setting / Benchmarking Programm
Zertifikat B1 Standard Setting / Benchmarking Teilnehmerliste

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 3

Vorwort
Am 15. und 16. Oktober 2012 fand in der Zentrale des Goethe-Instituts in Mnchen eine Konferenz zum Standard
Setting und Benchmarking zum neuen Zertifikat B1 statt. Diese neue Prfung wird im Portfolio der beiden Testinstitutionen Goethe-Institut und sterreichisches Sprachdiplom Deutsch (SD) die bisherigen Prfungen Zertifikat
Deutsch (ZD) und Zertifikat Deutsch fr Jugendliche (ZDj) zum 01. August 2013 ablsen.
An der Konferenz haben ausgewiesene Testexpertinnen und -experten, Sprachlehrende sowie Reprsentantinnen
und Reprsentanten von Politik und Bildungsinstitutionen teilgenommen. Insgesamt waren 45 Experten aus neun
europischen Lndern anwesend.
Vertreten waren folgende Institutionen:
Bundesdeutsche anerkennende Einrichtungen:
Bundesamt fr Migration und Flchtlingen (BAMF)
Testentwickler, pdagogische und testmethodische Einrichtungen:
Arbeitskreis Deutsch als Fremdsprache/Deutsch als Zweitsprache in der Schweiz (AKDaF), Association
of Language Testers in Europe (ALTE), Europisches Fremdsprachenzentrum des Europarats, GoetheInstitut e. V., Institut fr Qualittssicherung im Bildungswesen Berlin (IQB), Instituut voor
Toetsontwikkeling Niederlande (CITO), sterreichisches Sprachdiplom Deutsch, Universitt Freiburg/Schweiz,
Hochschulen, Universitten:
Alpen-Adria-Universitt Klagenfurt, Freie Universitt Bozen, Ludwig-Maximilians-Universitt Mnchen,
Universitt Freiburg/Schweiz, Universitt Ljubljana, Universitt St. Gallen, Universitt Udine, Universitt
Wien, Zrcher Hochschule fr Angewandte Wissenschaften
Verlage fr Deutsch als Fremdsprache:
Duden, Hueber Hellas, Hueber, Klett, Langenscheidt
Landesverbnde der Volkshochschulen:
Baden-Wrttemberg, Bayern, Niedersachsen, Saarland, Sachsen-Anhalt, Verband der Schweizerischen
Volkshochschulen, Volkshochschule Wien
Anbieter von Deutschkursen und Prfungszentren:
Deutschkurse bei der Universitt Mnchen e. V., Goethe-Institut Athen, Goethe-Institut Mnchen, Klubschulen Schweiz, Lernraum Wien, Lyce Jean Piaget Neuchtel,
sterreich-Institut Budapest, sterreich-Institut Warschau
Das Programm wurde auf der Grundlage der im Manual for Relating Language Examinations to the Common European Framework of Reference for Languages (2009) des Europarats vorgeschlagenen Schritte durchgefhrt.
Das Standard Setting hatte zwei Ziele. Zum einen ging es darum nachzuweisen, dass die Prfungsanforderungen
und die erhobenen Kandidatenleistungen mit der Definition des angestrebten Niveaus im Referenzrahmen kompatibel sind. Zum zweiten sollte festgestellt werden, wo die Bestehensgrenze gezogen werden muss (cut-off).
Zwei Tage lang wurden die Aufgabenstellungen und Erprobungsergebnisse diskutiert. Die Expertinnen und Experten in der Arbeitsgruppe Lesen/Hren beurteilten Items, deren Schwierigkeitswerte aus der statistischen Analyse der Erprobungsrcklufe bekannt waren. In den Arbeitsgruppen Sprechen und Schreiben wurden Teilnehmerleistungen begutachtet, die die Anforderungen der Aufgaben illustrieren. Diese Leistungsbeispiele wurden auf
ihr Niveau hin eingeschtzt.
Die Ergebnisse des Workshops flieen direkt in die weitere Arbeit des Entwicklungsteams ein. An dieser Stelle
bedanken wir uns noch einmal herzlich bei allen Teilnehmenden fr ihre Zeit und das hohe Engagement.
Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 4

Manuela Glaboniat, SD, Alpen-Adria-Universitt Klagenfurt (Sprechen)


Michaela Perlmann-Balme, Goethe-Institut e. V. (Schreiben und allgemeiner Teil)
Thomas Studer, Universitt Freiburg/Schweiz (Lesen und Hren)

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 5

Das Projekt Zertifikat B1

Das Zertifikat B1 wurde gemeinschaftlich von den drei folgenden Institutionen entwickelt: dem Goethe-Institut,
Zentrale, Bereich 41, der Universitt Freiburg (Schweiz), Bereich Mehrsprachigkeitsforschung und Fremdsprachendidaktik, Deutsch als Fremdsprache sowie dem sterreichischen Sprachdiplom Deutsch (SD), Klagenfurt/Wien.
Eine weltweit durchgefhrte Bedarfs- und Zielgruppenanalyse bildete die Grundlage fr die Konzeption der neuen
Prfung. Unter Hinzuziehung renommierter Expertinnen und Experten begann 2010 die Entwicklung des Zertifikats B1 mit der Definition des Prfungsformats und der Aufgabentypen.
Um die neue Sprachprfung auf dem Referenzrahmen zu positionieren, wurde ein zweistufiges Verfahren eingesetzt: zunchst das Expertenurteil als qualitatives und dann die statistische Analyse als quantitatives Verfahren.
Mit einer detaillierten Beschreibung der Prfungsziele und -inhalte wurde ein transparenter Bezug zu den KannBeschreibungen des Referenzrahmens fr die Stufe B1 sichergestellt, der durch Gutachten externer Expertinnen
und Experten ergnzt wurde.
2011 begann man mit der weltweiten Validierung des Testmodells, die u. a. zum Ziel hatte, die Brauchbarkeit der
Aufgabentypen zu berprfen. Hierbei wurde besonders auf die Akzeptanz und Praktikabilitt der Aufgaben, den
Zeitbedarf und die Lnge der produzierten Texte geachtet. Durch die statistische Erprobung der Prfungsmodule
lie sich auf die Performanz sowie Schwierigkeit und Trennschrfe der einzelnen Testitem-Entwrfe schlieen.
Im August 2012 wurden der Modellsatz (Erwachsene) und das Handbuch Prfungsziele. Testbeschreibung sowie
Wortschatz und Strukturen in einer separaten Publikation im Intranet des Goethe-Instituts verffentlicht (alle in
einer vorlufigen Version). Es folgten die Trainingsmaterialien zu den Modulen Sprechen und Schreiben sowie der
Modellsatz (Jugendliche).
Bevor die Prfung ab August 2013 in den Echteinsatz geht, fand im Oktober das hier beschriebene Standard
Setting und Benchmarking statt. Auerdem begannen im August 2012 Schulungen von Multiplikatorinnen und
Multiplikatoren bzw. von Bewertenden, die im Echtbetrieb die Teilnehmerleistungen in den Modulen Schreiben
und Sprechen bewerten werden.

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 6

2 Arbeitsgruppen zum Standard Setting und Benchmarking


2.1 Lesen, Hren
Leitung: Thomas Studer
Assistenz:
Naomi Shafer, Eva Wiedenkeller
Teilnehmende:

Matthias Buschhaus, Bayerischer Volkshochschulverband e. V.


Renate Faistauer, Universitt Wien
Ina Ferbear, Universitt Ljubljana
Karin Fux, Klubschulen Schweiz
Renate Khl-Kuhn, Goethe-Institut e. V., Zentrale, Bereich 42
Rotraud Koll, Landesverband der Volkshochschulen Niedersachsens e. V.
Kathrin Kunkel-Razum, Duden-Verlag
Martina Mrz, Universitt Wien
Osman Osmanoglu, Bundesamt fr Migration und Flchtlinge, Nrnberg
Denise Pochon, Verband der Schweizerischen Volkshochschulen
Chris Punter, sterreichisches Sprachdiplom, Klagenfurt
Robert Saxer, Universitt Klagenfurt
Ursula Schmitz, Goethe-Institut e. V., Zentrale, Bereich 41
Nora Tahy, Hueber-Verlag
Rob Verheyen, CITO Niederlande
Andrea Zank, Zrcher Hochschule fr Angewandte Wissenschaften

Hauptziel der Arbeitsgruppe war es, die Bestehensgrenze der Prfungsmodule Lesen und Hren zu bestimmen.
Dazu wurde in einem mehrstufigen Verfahren als kritischer Wert (cut score) ein Leistungsstandard (performance
standard) festgelegt, der ber das letzte, von einer mindestkompetenten B1-Person gerade noch lsbare Item
definiert ist. Vor dieser Festlegung sollte sichergestellt werden, dass die in Form von Aufgaben operationalisierten
Anforderungen der Prfung Zertifikat B1 in den Modulen Lesen und Hren dem angezielten Niveau B1 des Gemeinsamen europischen Referenzrahmens fr Sprachen (GER) entsprechen.
Bestimmt wurde die Bestehensgrenze mit der Bookmark-Methode. Grundlage dieses testzentrierten, IRTbasierten Verfahrens ist ein Ordered Item Booklet, in dem die Items nicht nach der Abfolge in der Prfung angeordnet sind, sondern nach ihrem statistischen Schwierigkeitswert (scaled measure), und zwar aufsteigend, beginnend mit dem leichtesten Item. Die Schwierigkeitswerte wurden mittels Rasch-Analyse der Rcklufe aus der
zweiten Erprobung des Modellsatzes ermittelt (n=206).
Vorgelegt wurden den Teilnehmenden zwei Booklets mit je 30 Items zum Modul Lesen bzw. zum Modul Hren.
Jedes Item wurde auf einer separaten Seite dargestellt, auch wenn mehrere Items zu einem Text gehrten. Zustzlich zum Item selbst wurden auf jeder Seite weitere Informationen prsentiert, um die Schwierigkeit des Items
besser nachvollziehbar zu machen: die Instruktion zur Aufgabe, die Aufgabensituierung, der Lese- oder Hrtext
und der Lsungsschlssel (ggf. inklusive Distraktoren). Die Jurorinnen und Juroren hatten die Aufgabe zu entscheiden, was ihrer Meinung nach eine knapp gengende B1-Leistung ist. Ihre Entscheidung sollten sie auf zwei
Konzepte sttzen: erstens auf das Konzept einer Person, die hinsichtlich des Niveaus B1 minimal kompetent ist,
und zweitens auf das Konzept der Lsungswahrscheinlichkeit. Beim Konzept der minimal kompetenten Person
mussten sich die Jurorinnen und Juroren eine/n Prfungsteilnehmende/n mit einer Kompetenz am unteren Rand
von B1 vorstellen. Beim Konzept der Lsungswahrscheinlichkeit (response probability; RP) galt es zu przisieren,
was es bedeutet, ein Item zu beherrschen bzw. dieses Item mit relativ hoher Wahrscheinlichkeit korrekt lsen zu
knnen (mastery of an item). Hier wurde, basierend auf der Fachliteratur (s. Bibliographie), ein Wert von RP=0.67
angesetzt. Alternativ, aber bedeutungsquivalent zu diesem numerischen Wert konnten sich die Juroren vorstellen, dass die mindestkompetente Person das Item in zwei von drei Fllen richtig lst oder dass zwei von drei mindestkompetenten Personen das Item korrekt lsen. Auf der Grundlage dieser beiden Konzepte mussten die Jurorinnen und Juroren die Item-Booklets Seite fr Seite durcharbeiten, d. h. die Schwierigkeit der Items aus der Sicht
der mindestkompetenten B1-Person nachvollziehen und entscheiden, bei welchem Item die Wahrscheinlichkeit
Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 7

nicht mehr relativ hoch (also RP < 0.67) ist, dass diese Person das Item korrekt lst. Dieses Item musste durch
Markieren der betreffenden Seite im Item-Booklet bezeichnet werden. Die Markierung steht gleichzeitig auch fr
die Meinung der Jurorinnen und Juroren, dass alle Items, die im Booklet auf den Seiten vor der markierten Seite
stehen, von der mindestkompetenten Person mit einer Wahrscheinlichkeit von RP = 0.67 oder hher korrekt gelst werden.
Die Arbeit vollzog sich in drei Phasen.
Als erste Phase stand das auch fr Fachleute immer wieder notwendige Vertrautmachen mit dem Referenzrahmen
im Mittelpunkt. Nachdem ein allgemeines Vertrautmachen besonders mit dem Niveau B1 bereits in der Gesamtgruppe vorgenommen worden war, konzentrierte sich die Gruppe Lesen/Hren auf die Deskriptoren mit Relevanz fr diese beiden Fertigkeiten. Gearbeitet wurde mit einer Art Zuordnungs-Aufgabe, bei der es darum ging,
das Niveau einer Reihe von Kann-Beschreibungen des Referenzrahmens aus den Einzelskalen zum Lesen und zum
Hren zu erkennen. Vorgelegt wurden Kann-Beschreibungen der Niveaus A2, B1 und B2, jedoch ohne NiveauAngabe, denn das Erkennen des Niveaus sollte ausschlielich auf Basis von Niveauindikationen in den Deskriptoren erfolgen. Als Hilfestellung dienten den Teilnehmenden die Beschreibungen der Niveaubereiche A2, B1 und B2
aus den Skalen Leseverstehen allgemein bzw. Hrverstehen allgemein. Besonders fokussiert und diskutiert
wurde bei dieser Arbeitsgruppenaktivitt, mit Blick auf Arbeitsphase drei, der bergang von A2 zu B1.
Im Anschluss an kurze Vorstellungen der Test-Konstrukte Lesen und Hren und Erluterungen zur Umsetzung der
Konstrukte in Aufgaben folgte eine zweite Phase des Vertrautmachens, bei der die Prfungsaufgaben der Module
Lesen und Hren im Vordergrund standen. In dieser Arbeitsphase lsten die Juroren die Aufgaben unter Prfungsbedingungen und glichen dann ihre Antworten mit dem Lsungsschlssel ab.
Als dritte Phase folgte das eigentliche Standard Setting, bei dem die Item-Booklets fr das Hren und das Lesen
je zweimal durchgearbeitet werden mussten. In Runde 1 beurteilten die Jurorinnen und Juroren die Items in Einzelarbeit und setzten die Markierung im Item-Booklet. Die Ergebnisse dieser 1. Runde wurden registriert, als
Sulendiagramme aufbereitet (vgl. Schaubild 1) und in dieser Form als Input fr die Diskussion verwendet, die im
Anschluss an Runde 1 stattfand. Diskutiert wurde in drei separaten Teilgruppen von jeweils vier bis sechs Jurorinnen und Juroren, wobei bei der Zusammensetzung der Diskussionsgruppen darauf geachtet wurde, Teilnehmende
mit weiter auseinander liegenden Bookmarks zusammenzubringen. Ziel dieser Diskussionen war es, die Einzelvoten zu begrnden, d. h. es sollten Argumente fr Entscheidungen ausgetauscht und insbesondere auch Grnde fr
strker divergierende Voten beigebracht und verglichen werden.
Nach der Diskussion in Teilgruppen, in Runde 2, setzten die Jurorinnen und Juroren wieder individuell ihre Markierung im Item-Booklet. Dabei stand es ihnen frei, ihre Markierung aus der 1. Runde zu bernehmen oder diese
unter dem Eindruck der Diskussion neu zu setzen. Die Ergebnisse der 2. Runde wurden ebenfalls registriert, aufbereitet und prsentiert (vgl. Schaubild 2). In der Folge wurde auf eine weitere Diskussion in Teilgruppen verzichtet, weil die Ergebnisse der 2. Runde im Vergleich zur 1. nher beieinander lagen und weniger extreme Werte
aufwiesen.
Bestehensgrenzen
Der Cut-Score jeder Jurorin bzw. jedes Jurors wird durch den IRT-Schwierigkeitswert des Items angezeigt, auf dem
die Markierung platziert wurde. Der korrespondierende Test-Score, d. h. die eigentliche Bestehensgrenze, liegt
jeweils ein Item tiefer, weil die Jurorinnen und Juroren ja dasjenige Item markiert haben, das eine minimal kompetente B1-Person nur mehr mit einer kleineren Wahrscheinlichkeit als 0.67 korrekt lsen kann. Demgegenber
wurde die Bestehensgrenze oben positiv im Sinne eines Leistungsstandards definiert, und zwar so, dass dieser
Standard durch das letzte von der minimal kompetenten B1-Person gerade noch lsbare Item reprsentiert ist.
Auf der Basis dieser berlegungen lsst sich der Test-Score der gesamten Jurorengruppe (total 16 Jurorinnen und
Juroren) durch die statistischen Mae der zentralen Tendenz fr die 16 einzelnen Test-Scores charakterisieren.

Lesen

Fr das Modul Lesen wurde die Markierung in Runde 2 des Standard Settings auf Seite 19 (arithmetisches Mittel), 18 (Median) bzw. 17 (Modus) des Item-Booklets gesetzt. Die korrespondierenden Test-Scores sind demnach
18 (arithmetisches Mittel), 17 (Median) bzw. 16 (Modus). Da in diesem Fall die zentrale Tendenz der gesamten
Jurorengruppe am besten durch das arithmetische Mittel der Test-Scores ausgedrckt wird, wird die
Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 8

Bestehensgrenze bei 18 angesetzt. Dies entspricht einem Schwierigkeitswert von 53.272 und der Anforderung,
60 % von total 30 Items richtig zu lsen.

Hren

Fr das Modul Hren wurde die Markierung in Runde 2 des Standard Settings auf Seite 18 (arithmetisches Mittel), 17 (Median) bzw. 19 (Modus) des Item-Booklets gesetzt. Die korrespondierenden Test-Scores sind demnach
17 (arithmetisches Mittel), 16 (Median) bzw. 18 (Modus). Da in diesem Fall die zentrale Tendenz der gesamten
Jurorengruppe am besten durch den Modus der Test-Scores ausgedrckt wird, wird die Bestehensgrenze bei 18
angesetzt. Dies entspricht einem Schwierigkeitswert von 57.701 und der Anforderung, 60 % von total 30 Items
richtig zu lsen.

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 9

Schaubild 1 zeigt die Ergebnisse fr Lesen und Hren der 1. Runde.


Schaubild 1
Lesen Runde 1
5

Anzahl der Rater

0
0 1 2 3

4 5 6 7 8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Seite im Item -Booklet

Hren Runde 1
5

Anzahl der Rater

0
0 1 2 3

4 5 6 7 8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Seite im Item -Booklet

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 10

Schaubild 2 zeigt die Ergebnisse fr Lesen und Hren der 2. Runde.


Schaubild 2
Lesen Runde 2
5

Anzahl der Rater

0
0 1 2 3

4 5 6 7 8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Seite im Item -Booklet

Hren Runde 2
6

Anzahl der Rater

0
0 1 2 3

4 5 6 7 8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Seite im Item -Booklet

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 11

2.2 Schreiben
Leitung: Michaela Perlmann-Balme
Assistenz:
Christof Arndt
Teilnehmende:

Anne-Katrin Behnert, Landesverband der VHS Sachsen-Anhalt


Johanna Bleiker, Pdagogische Hochschule St. Gallen
Eva Fontana, Sprachenzentrum Universitt Freiburg/Schweiz
Linda Fromme, Goethe-Institut e. V., Zentrale, Bereich 41
Gabriele Gippner, Institut zur Qualittsentwicklung im Bildungswesen Berlin
Thomas Holzmann, sterreich-Institut Warschau
Jane Kettner, Volkshochschulverband Baden-Wrttemberg e. V.
Annette Kuppler, Ernst-Klett-Verlag
Peter Lenz, Universitt Freiburg/Schweiz
Nora Peer, sterreich Institut Budapest
Jrg Roche, Ludwig-Maximilians-Universitt Mnchen
Annalisa Scarpa, Langenscheidt-Verlag
Katerina Touraki, Goethe-Institut Athen
Heike Widmer-Behr, Zrcher Hochschule fr Angewandte Wissenschaften
Eva Wolf-Manfre, Goethe-Institut Mnchen

Hauptziel dieser Arbeitsgruppe war es nachzuweisen, dass die Prfungsanforderungen, die auf der Basis der
Aufgaben erhobenen Teilnehmerleistungen im Modul Schreiben mit der Definition des angestrebten Niveaus im
Referenzrahmen kompatibel sind. Ein weiteres Ziel bestand darin, eine Reihe von Referenzleistungen zu erhalten,
die von Expertinnen und Experten auf dem Niveau B1 verorten wurden.
Zunchst wurden die Teilnehmenden mit Hilfe der Deskriptoren des Referenzrahmens aus Kapitel 4 Korrespondenz, Schriftliche Interaktion Allgemein, Notizen, Mitteilungen, Formulare, und aus Kapitel 5 Kohrenz und Kohsion, Wortschatzspektrum, Wortschatzbeherrschung, Grammatische Korrektheit und Beherrschung der Orthographie mit den fr die Fertigkeit Schreiben relevanten Deskriptoren auf dem Niveau B1 sowie den Nachbarniveaus
vertraut gemacht. Ein solches Vertrautmachen war in so fern notwendig, als sich die Einstufung allein auf diese
Deskriptoren sttzt und nicht etwa auf Bewertungskriterien zur Prfung.
Anschlieend wurden zwei Vergleichsarbeiten auf dem Niveau B1 aus dem Material des Europarates (Council of
Europe, 2005) herangezogen, um das Leistungsniveau zu verdeutlichen und die Einstufung zu trainieren.
Danach wurden insgesamt 60 Teilnehmerleistungen begutachtet und eingestuft. Zu jedem der drei Teile des Prfungsmoduls Schreiben wurden je zehn Leistungsbeispiele fr Erwachsene und zehn fr Jugendliche bearbeitet.
Die sechs Schreibanlsse waren:

Aufgabe 1: Geburtstag (Erwachsene) und Sporttag (Jugendliche)


Aufgabe 2: Persnliche Kontakte und Internet (Erwachsene) und Hausaufgaben aus dem Internet (Jugendliche)
Aufgabe 3: Terminabsage (Erwachsene) und Kinobesuch absagen (Jugendliche)

Die Jurorinnen und Juroren entschieden, welche Leistungsbeispiele zum Schreiben auf der Niveaustufe B1 zu
verorten sind bzw. ob das Niveau B1 erreicht wurde.
Die Arbeit vollzog sich in zwei Runden. Die Jurorinnen und Juroren gaben ihre Urteile anonym ab, d. h. jede Jurorin
bzw. jeder Juror hatte eine Nummer. In Runde 1 wurden zu den Aufgaben 1, 2 und 3 jeweils zehn Leistungsbeispiele eingestuft. Die Leistungsbeispiele wurden zuerst in Einzelarbeit beurteilt. Grundlage der Beurteilung waren
die Deskriptoren des Referenzrahmens. Es wurde als notwendig empfunden, eine Orientierung zu geben, wie viele
Deskriptoren als erfllt gelten mssten, um das Niveau zu erreichen und vorgeschlagen, diese Vorgabe bei 80 %
anzulegen.

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 12

Die Ergebnisse dieser 1. Runde wurden aufgezeichnet, die Auswertung dieser Ergebnisse in der Gruppe prsentiert (vgl. Schaubild 3). In zwei separaten Teilgruppen von jeweils sieben bzw. acht Jurorinnen und Juroren wurden
die Einstufungen diskutiert. Ziel dieser Diskussion war es, die Einzelvoten zu begrnden und die Jurorinnen und
Juroren, deren Werte strker vom Rest der Teilgruppe abwichen, zu einer Reflexion zu bringen. Ein Gruppenkonsens war nicht erforderlich. Nach Abschluss der Diskussion wurde fr die Leistungsbeispiele der ersten Runde von
jeder Jurorin bzw. jedem Juror einzeln ein zweites Votum abgegeben.
In Runde 2 wurden je zehn weitere Leistungsbeispiele bewertet, wiederum fr die Aufgaben 1, 2 und 3, diesmal
allerdings aus Prfungsstzen fr Jugendliche. Auch erfolgte die Einstufung zunchst in Einzelarbeit, nach Darlegung der Ergebnisse erfolgte eine Diskussion in zwei Teilgruppen der Gesamtarbeitsgruppe Schreiben. Die
Schaubilder zeigen jeweils, wie viele Personen ein Beispiel als auf B1 liegend bewertet haben. Ein Gruppenkonsens war nicht erforderlich. Nach Abschluss der Diskussion wurden fr die Leistungsbeispiele der zweiten Runde
von jedem Juror einzeln ein zweites Votum abgegeben.
Die Schaubilder 3 bis 9 zeigen die Globaleinstufung der Leistungen auf Basis der im Gemeinsamen europischen
Referenzrahmen fr Sprachen festgelegten Deskriptoren wie folgt:
0 = unterhalb Niveau B1
1 = Niveau B1 und darber

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 13

Schaubild 3
Geburtstag
Beispiel
rater
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ergebnis Aufgabe %

1
2
0
1
0
1
0
1
0
1
1
1
0
1
1
1
0
1
0
1
0
1
1
1
0
1
0
1
0
1
0
1
20% 100%

3
1
0
1
0
1
0
1
0
0
1
1
0
1
1
0
69%

4
5
1
1
0
1
0
1
0
1
1
1
0
1
0
1
1
1
1
1
0
1
0
1
0
1
1
1
0
1
0
1
33% 100%

6
7
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0% 100%

8
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
93%

9
1
0
0
0
0
0
0
0
1
0
1
0
1
0
1
33%

10 Ergebnis Rater %
1
80%
0
40%
1
60%
0
40%
1
80%
0
40%
0
60%
0
50%
1
70%
0
40%
0
70%
1
50%
1
80%
1
60%
0
50%
47%

Schaubild 3 zeigt die Ergebnisse fr Aufgabe 1 Geburtstag (1. Runde) vor der Diskussion.
Auf der horizontalen Achse befinden sich oben die Beispiele 1 bis 10, unten die erzielten Ergebnisse pro Beispiel.
Auf der vertikalen Achse sind links die 15 Jurorinnen und Juroren aufgelistet, rechts die von den Jurorinnen und
Juroren insgesamt auf B1 eingestuften Beispiele. Die Beispiele 2, 5, 7 und 8 wurden von fast allen Jurorinnen und
Juroren bereinstimmend als klar auf Niveau B1, eingestuft, die Beispiele 1 und 6 wurden von fast allen klar unter
Niveau B1 bewertet. Bei den Beispielen 3, 4, 9 und 10 gab es vor der Diskussion kein eindeutiges Votum.

Schaubild 4
Geburtstag
rater
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ergebnis Aufgabe %

1
0
0
0
0
1
0
1
0
0
0
1
0
0
0
0

2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

3
1
0
1
0
1
1
1
0
0
1
1
0
1
1
0

20% 100%

60%

4
0
0
0
0
1
0
1
0
1
1
0
0
1
0
0

Beispiel
5
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

33% 100%

6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

7
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

8
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1

9
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1

0%

100%

93%

13%

10 Ergebnis Rater %
0
50%
0
40%
0
50%
0
40%
0
70%
0
50%
0
70%
0
40%
0
50%
0
50%
0
60%
0
40%
0
70%
1
60%
0
50%
7%

Schaubild 4 zeigt das Ergebnis fr Aufgabe 1 Geburtstag (Runde 1) nach der Diskussion. Die Diskussion in Teilgruppen fhrte bei den Beispielen 9 und 10 zu einer strkeren Einheitlichkeit des Votums. In acht der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.
Es wurde darauf verzichtet, die verbleibenden Abweichungen weiter zu diskutieren.

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 14

Schaubild 5
Persnliche Kontakte und Internet
Beispiel
rater
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ergebnis Aufgabe %

1
1
0
1
1
1
0
1
1
1
0
1
1
1
1
0

2
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1

73%

93%

3
1
0
0
0
0
0
0
0
1
0
0
0
0
1
0

4
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

6
1
1
1
1
1
1
1
1
1
1
1
0
1
0
1

7
1
1
0
0
0
1
0
1
0
0
0
1
0
1
0

8
1
1
1
0
0
0
1
0
0
0
0
0
0
0
0

9
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1

20% 100%

0%

87%

40%

27%

93%

10 Ergebnis Rater %
0
70%
0
60%
1
70%
1
60%
1
60%
1
60%
1
70%
1
70%
1
60%
1
50%
1
60%
1
60%
0
50%
1
70%
0
40%
73%

Schaubild 5 zeigt die Ergebnisse fr Aufgabe 2 Persnliche Kontakte und Internet (1. Runde) nach der Diskussion. In acht der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.
Schaubild 6
Terminabsage
Beispiel
rater
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ergebnis Aufgabe %

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

3
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1

4
0
0
1
0
0
0
0
1
1
0
0
0
0
0
0

5
1
1
0
1
1
1
1
0
1
1
1
1
1
0
0

6
0
0
1
1
1
1
1
0
1
1
1
0
0
1
0

7
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0

8
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0

9
1
1
1
1
1
1
1
0
1
1
1
0
0
1
1

100%

0%

93%

20%

73%

60%

7%

87%

80%

10 Ergebnis Rater %
1
60%
1
60%
1
70%
1
70%
1
70%
1
60%
1
70%
1
50%
1
80%
1
70%
1
70%
1
60%
1
50%
1
50%
1
40%
100%

Schaubild 6 zeigt die Ergebnisse fr Aufgabe 3 Terminabsage (1. Runde) nach der Diskussion. Die Beispiele 1, 3,
5 und 10 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1 bewertet, Beispiele
4 und 7 klar unter Niveau B1. Die Diskussion in Teilgruppen fhrte zu einer strkeren Einheitlichkeit des Votums.
In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.
Schaubild 7

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 15

Sporttag
rater

1
2
1
1
1
2
1
1
3
1
1
4
1
1
5
1
1
6
1
1
7
1
1
8
1
1
9
1
1
10
1
1
11
1
1
12
1
1
13
1
1
14
1
1
15
1
1
Ergebnis Aufgabe
%
100% 100%

3
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1

4
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0

93%

Beispiel
5
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

7% 100%

6
0
0
0
0
1
0
1
0
1
1
0
0
1
0
0

7
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

8
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0

33%

0%

7%

9
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0

10 Ergebnis Rater %
1
50%
1
50%
1
50%
1
40%
1
60%
1
50%
1
80%
1
50%
1
80%
1
60%
1
50%
1
50%
1
60%
1
50%
1
50%

13% 100%

Schaubild 7 zeigt die Ergebnisse fr Aufgabe 1 Sporttag (2. Runde) nach der Diskussion. Die Beispiele 1, 2, 5 und
10 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1 bewertet, Beispiele 4, 7,
8 und 9 klar unter Niveau B1. In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.
Schaubild 8

Hausaufgaben aus dem Internet


rater

1
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
1
10
1
11
1
12
1
13
1
14
1
15
1
Ergebnis Aufgabe
%
100%

2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

3
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

0% 100%

4
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0

Beispiel
5
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

7% 100%

6
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0

7
1
0
1
0
1
0
1
0
1
1
0
0
1
0
0

8
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0

9
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1

13%

47%

13%

93%

10 Ergebnis Rater %
0
60%
0
40%
0
50%
0
50%
0
50%
0
40%
0
50%
0
40%
1
80%
0
50%
0
40%
0
40%
0
50%
0
40%
0
40%
7%

Schaubild 8 zeigt die Ergebnisse fr Aufgabe 2 Hausaufgaben aus dem Internet (2. Runde) nach der Diskussion.
Die Beispiele 1, 5 und 9 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1
bewertet, Beispiel 2 klar unter Niveau B1. In neun der zehn Beispiele wurde eine weitreichende bereinstimmung
erzielt.
Schaubild 9

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 16

Kinobesuch absagen
rater
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ergebnis Aufgabe
%

1
0
0
0
0
0
0
0
0
0
0
0
0
0
0

2
1
1
1
0
1
1
1
1
1
1
1
1
1
1

3
0
0
0
0
0
0
0
0
0
0
0
0
0
0

4
1
0
1
1
1
1
1
0
1
0
1
0
0
1

0%

93%

0%

64%

Beispiel
5
1
1
1
1
1
1
0
1
1
1
1
1
1
1

6
1
1
1
1
1
1
1
1
1
1
1
1
1
1

93% 100%

7
1
1
1
1
1
1
1
1
0
1
1
1
1
1

8
1
1
1
1
1
1
1
1
1
1
1
1
1
1

93% 100%

9
0
0
1
0
0
0
0
0
1
0
0
0
0
0

10 Ergebnis Rater %
1
70%
1
60%
1
80%
1
60%
1
70%
1
70%
1
60%
1
60%
1
70%
1
60%
1
70%
1
60%
1
60%
1
70%

14% 100%

Schaubild 9 zeigt die Ergebnisse fr Aufgabe 3 Kinobesuch absagen (2. Runde) nach der Diskussion. Die Gruppendiskussion fhrte bei fnf Beispielen nach einer kurzen Diskussion bereits zu totaler bereinstimmung, bei
weiteren drei Beispielen zu nur einem abweichenden Votum. In acht der zehn Beispiele wurde somit eine weitreichende bereinstimmung erzielt.

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 17

Schaubild 10
Beispiel
1/1 Evgenyi
1/2 Polina
1/6 Jorge
1/8 Boris
1/3 j Anja
2/2 Dalila
2/3 Diana
2/4 Jean
2/5 Tessa
2/5 j Anton
3/2 Hiromi
3/3 j Jaroslawa
3/7 Tzvetan
3/9 Mirte

Ergebnis des
Standard Settings
Niveau B1
nein
20% der Gruppe
ja
100% der Gruppe
nein
0% der Gruppe
ja
93% der Gruppe
ja
93% der Gruppe
ja
93% der Gruppe
nein
20% der Gruppe
ja
100% der Gruppe
nein
0% der Gruppe
ja
100% der Gruppe
nein
0% der Gruppe
nein
0% der Gruppe
nein
7% der Gruppe
ja
80% der Gruppe

Ergebnis des
Entwicklerteams
Niveau B1
ja
ja
nein
ja
ja
ja
nein
ja
nein
ja
nein
nein
nein
ja

Schaubild 10 zeigt die Ergebnisse zu 11 ausgewhlten Leistungsbeispielen zu den Schreibanlssen aus dem
Modellsatz fr Erwachsene und 3 Leistungsbeispielen (mit dem Zusatz j) zu den Schreibanlssen aus dem Modellsatz fr Jugendliche.
Das Schaubild geht auf die Verbindung zwischen der Niveaueinstufung des Benchmarking und dem Bewertungsraster ein. Es zeigt die Ergebnisse im Vergleich zu einer Anwendung der Bewertungskriterien durch eine
trinationale Gruppe von Bewertenden des Goethe-Instituts, des SD und der Universitt Freiburg/Schweiz. Die
linke Spalte enthlt die Spezifizierung der Beispiele. Die mittlere Spalte enthlt sowohl die Prozentwerte des
Benchmarkings aus den Schaubildern 3 bis 9 als auch als ja- oder nein-Entscheidung. In der rechten Spalte
finden sich die Ergebnisse, die durch den Einsatz der prfungsspezifischen Bewertungskriterien seitens des
trinationalen Entwicklungsteams erzielt wurden als ja- oder nein-Entscheidung. Bei 14 Beispielen gab es nur
eine Abweichung: Das Beispiel 1/1 Evgenyi wurde durch die Gruppe der Seminarteilnehmenden deutlich strenger
bewertet als durch die Testentwicklerinnen und -entwickler.

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 18

2.3 Sprechen
Leitung: Manuela Glaboniat
Assistenz:
Helga Lorenz
Teilnehmende:

Kirsten Brcker, Landesverband der VHS Sachsen-Anhalt


Andr Feller, Prfungszentrum Neuchatel / Lyce Jean Piaget
Christina Gregor, Goethe-Institut e. V., Zentrale, Bereich 41
Nicola Kraml, Volkshochschule Wien, DaF
Michael Krger, Deutschkurse bei der Universitt Mnchen e. V.
Sonja Kuri, Universitt Udine (I)
Anton Nf, Prfungszentrum Neuchatel / Lyce Jean Piaget
Anne Pritchard-Smith, sterreich-Institut
Helen Schmitz, Langenscheidt-Verlag
Susanna Slivensky, Europisches Fremdsprachenzentrum des Europarats
Irmingard Staudigel, Bayerischer Volkshochschulverband e. V.
Claudia Wallner, Hueber-Verlag sterreich
Lukas Wertenschlag, Universitt Freiburg (Schweiz)
Brigitte Widmann, Freie Universitt Bozen (I)
Bettina Wohlgemuth-Fekonja, sterreichisches Sprachdiplom
Heiner Zietz, Verband der Volkshochschulen im Saarland

Hauptziel dieser Arbeitsgruppe war es nachzuweisen, dass die Prfungsanforderungen, die auf der Basis der
Aufgaben erhobenen Teilnehmerleistungen im Modul Sprechen mit der Definition des angestrebten Niveaus im
Gemeinsamen europischen Referenzrahmen fr Sprachen kompatibel sind. Ein weiteres Ziel bestand darin, eine
Reihe von Referenzleistungen zu erhalten, die von Expertinnen und Experten auf dem Niveau B1 verorten wurden.
Methodische Grundlage hierfr war das im Manual for relating Language Examinations to the Common European
Framework of Reference (CEFR) beschriebene dreistufige Vorgehen:

Vertrautmachen mit den Deskriptoren Mndliche Interaktion allgemein sowie mit der Tabelle 3 Qualitative
Aspekte des mndlichen Sprachgebrauchs gem dem Gemeinsamen europischen Referenzrahmen.
Vorgabe von je einem kalibrierten Beispiel zur Produktion und zur Interaktion, die im Auftrag des Europarats
von Jurorinnen und Juroren eingestuft worden waren (Bolton et al., 2008).
Einstufung der Kandidatenleistungen nach Vertrautmachen mit der Aufgabenstellung.

Bewertet wurden insgesamt 22 Kandidatenleistungen, davon jeweils 11 fr die Produktion und 11 fr die Interaktion. Die gezeigten mndlichen Kandidatenleistungen im Zertifikat B1 waren in der Zentrale des Goethe-Instituts
und an der Alpen-Adria-Universitt Klagenfurt aufgenommen worden. Es handelte sich um Teilnehmende aus
Deutschkursen am Goethe-Institut Mnchen und der Universitt Klagenfurt sowie um Schlerinnen und Schler
der Mittelschule an der Fhrichstrae Mnchen.
Eingangs wurde wie in der Gruppe Schreiben klargestellt, dass es beim Benchmarking nicht um eine detaillierte Bewertung der Beispiele, sondern vorrangig um die Identifikation des Niveaus bzw. die Ermittlung der
Bestehensgrenze geht.
Die Sprechanlsse fr die 22 Leistungsbeispiele in der Interaktion (Aufgabe 1) und Produktion (Aufgabe 2) waren:

Aufgabe 1: Krankenhausbesuch planen


Aufgabe 2: Brauchen Kinder Mobiltelefone? und Sehen Kinder zu viel fern?

Die Jurorinnen und Juroren entschieden, welche der Leistungsbeispiele zum Sprechen auf der Niveaustufe B1 zu
verorten sind bzw. in welchen das Niveau B1 nicht erreicht wurde (unter B1). Zustzlich wurde im Bereich B1
zwischen den Kategorien gerade noch B1 und B1 und ber B1 unterschieden. Diese feinere Differenzierung
dient lediglich der Orientierung bei der Erstellung der Trainingsmaterialien; fr den eigentlichen BenchmarkingProzess ist diese Unterteilung nicht relevant und wird daher in den folgenden Schaubildern auch nicht eigens
dargestellt.
Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 19

Die Urteile der Jurorinnen und Juroren erfolgten in Stationen und wurden anonym abgegeben, d. h. jede Jurorin
bzw. jeder Juror hatte eine Nummer.
1) Die Jurorinnen und Juroren nahmen zunchst jede/r fr sich eine globale und anschlieend eine analytische Einstufung auf Basis der Tabelle 3 (GER) vor.
2) Das Ergebnis der globalen Einstufung wurde bekannt gemacht.
3) Es erfolgte eine Diskussion ber die Abweichungen.
4) Nach der Diskussion erfolgte eine erneute Einstufung.
Aufgrund der groen bereinstimmung bei den Leistungsbeispielen beschrnkte sich die Diskussion auf die Beispiele 2, 3, 4, 5 und 10 in der Interaktion und 3, 6 und 8 bei der Produktion.
Bestehensgrenze
Bei beiden Aufgaben wird die Bestehensgrenze durch Anwendung der Deskriptoren auf diese Beispiele ermittelt.
Schaubild 11 und 12 zeigen die Ergebnisse der mndlichen Leistungsbeispiele nach der ersten Runde sowohl in
der Interaktion als auch in der Produktion. Die Globaleinstufung der Leistungen auf Basis der im Gemeinsamen
europischen Referenzrahmen fr Sprachen festgelegten Deskriptoren stellt sich wie folgt dar:
0 = unterhalb Niveau B1
1 = Niveau B1

Schaubild 11

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 20

Schaubild 11 zeigt die Ergebnisse zur Interaktion nach dem ersten Einstufungsdurchgang. Die Beispiele 1, 2, 7, 9
und 11 wurden von allen Jurorinnen und Juroren bereinstimmend als klar auf Niveau B1 bewertet. Beispiel 8
wurde mit 6%, die fr B1 waren, sehr klar (also zu 94%) unter Niveau B1 (8) bewertet. Bei den Beispielen 3, 4 und
6 gab es jeweils eine/n bzw. zwei von 16 Jurorinnen und Juroren, die diese Leistungen unter dem Niveau B1 bewerteten. Das Beispiel 5 ist mit 31% eher unter B1 anzusiedeln. Viel Diskussionsbedarf gab es bei Beispiel 10,
bei dem genau 50% fr Niveau B1 und 50% fr unter Niveau B1 stimmten.
Schaubild 12

Schaubild 12 zeigt die Ergebnisse zur Produktion nach dem ersten Einstufungsdurchgang. Die Beispiele 1, 4, 5,
7, 9 und 10 wurden von allen Jurorinnen und Juroren bereinstimmend als klar auf Niveau B1 bzw. klar unter
Niveau B1 (6 und 8) bewertet. Bei den Beispielen 2, 3 und 11 gab es jeweils zwei bzw. drei von 16 Jurorinnen und
Juroren, die diese Leistungen unter dem Niveau B1 bewerteten.
Die Schaubilder 13 und 14 zeigen die Ergebnisse der mndlichen Leistungsbeispiele nach der zweiten Runde.
Schaubild 13

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 21

Schaubild 14

Die Schaubilder 13 und 14 zur Runde 2 zeigen, dass die Bewertungen kaum gendert wurden. Es kam lediglich
zu minimalen Verschiebungen, wie z. B. bei Beispiel 3 in der Interaktion, bei dem in beiden Fllen zwei Teilnehmende fr unter Niveau B1 stimmten, allerdings waren es in Runde 1 andere Jurorinnen und Juroren als in Runde 2.
Schaubild 15
Beispiel

Maristela
Lorenzo
Pia
Siham
Marsela (j)
Aven (j)
Kristina
Filippos
Susannah
Alessia
Philipp

Zertifikat B1

INTERAKTION
Ergebnis des Standard Settings
Niveau B1?
Ja
100%
Ja
100%
Ja
88%
Ja
94%
Nein
31%
Ja
94%
Ja
100%
Nein
6%
Ja
100%
Ja
50%
Ja
100%

INTERAKTION
Ergebnis des Entwicklerteams
Niveau B1?
Ja
Ja
Ja
Ja
Ja
Ja
Ja
Nein
Ja
Ja
Ja

Ergebnisse Standard Setting

PRODUKTION
Ergebnis des Standard
Settings
Niveau B1?
Ja
100%
Ja
100%
Ja
88%
Ja
100%
Nein
31%
Ja
88%
Ja
100%
Nein
13%
Ja
100%
Ja
81%
Ja
100%

PRODUKTION
Ergebnis des
Entwicklerteams
Niveau B1?
Ja
Ja
Ja
Ja
Nein
Ja
Ja
Nein
Ja
Ja
Ja

Fassung: 31.10.2012 22

Schaubild 15 geht auf die Verbindung zwischen der Niveaueinstufung des Benchmarkings und dem Bewertungsraster ein. Es zeigt die Ergebnisse fr die Sprechanlsse fr Erwachsene im Vergleich zu einer Anwendung der
Bewertungskriterien durch eine trinationale Bewertergruppe des Goethe-Instituts, des SD und der Universitt
Freiburg/Schweiz.

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 23

Evaluation der Veranstaltung

Die Teilnehmenden erhielten am Ende der Veranstaltung einen Evaluationsbogen. Sie zogen ein positives Fazit von der Veranstaltung:

Ein sehr befruchtender Austausch auch ich nehme viele wertvolle Erkenntnisse in meine knftige Arbeit mit: Das Bild vom armen Lerner hat wieder einmal Konturen bekommen.
Wichtiger als die Ergebnisse ist die Methode der Item-Beurteilung, die an die Unterrichtenden weiter
vermittelt werden sollte.
Ich habe sehr vieles dazugelernt und freue mich, die neue B1-Prfung mit Kandidaten durchzufhren.
Ich habe viel gelernt und Anregungen fr meine Arbeit mitgenommen. Die Gruppenarbeit war konstruktiv
und die gute, internationale Atmosphre hat mir gefallen.
Herzlichen Dank fr die spannende Tagung, die mir wichtige neue Einsichten gebracht hat.
Nachfolgend die quantitativen Ergebnisse:

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 24

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 25

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 26

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 27

Bibliografie

Association of Language Testers in Europe (ALTE) (Hrsg.) (1994), The ALTE Code of practice. ALTE Document 3. Cambridge:
University of Cambridge Local Examinations Syndicate.
Association of Language Testers in Europe (ALTE) (Hrsg.) (2007), Minimum standards for establishing quality profiles in ALTE
examinations. [Online: http://www.alte.org/attachments/files/minimum_standards.pdf 11.04.2007].
Bachman, Lyle & Palmer, Diana (2010), Language Assessment in Practice. Oxford: Oxford University Press (= Applied Linguistics).
Breov, Jana; Breton, Gilles; Noijons, Jos & Szab, Gbor (2011), Relating language examinations to the Common European Framework of Reference for Languages: Learning, teaching, assessment (CEFR). Highlights from the Manual. Graz:
ECML. [Online: http://www.ecml.at/tabid/277/PublicationID/67/Default.aspx 01.03.2013].
Bolton, Sibylle; Glaboniat, Manuela; Lorenz, Helga; Perlmann-Balme, Michaela & Steiner, Stefanie (2008), Mndlich: Mnd-

liche Produktion und Interaktion Deutsch. Illustration der Niveaustufen des Gemeinsamen europischen Referenzrahmens.
Berlin: Langenscheidt.

Breton, Gilles, Grego Bolli, Giuliana & Perlmann-Balme, Michaela (2010), All different all equal? Towards cross-language
benchmarking using samples of oral production in French, German and Italian. Forum Sprache 4/2010, 5-19.
Cizek, Gregory J. & Bunch, Michael B. (2007), Standard Setting. A guide to establishing and evaluating performance standards on tests. Thousand Oaks, CA: Sage.
Council of Europe (Hrsg.) (2003), Relating Language Examinations to the Common European Framework of References for
languages: Learning, Teaching, Assessment. DGIV/EDU/LANG 5. Strasbourg: Council of Europe.
Council of Europe (Hrsg.) (2005), Relating Language Examinations to the Common European Framework of References for

languages: Learning, Teaching, Assessment. Reading and Listening Items and Tasks: Pilot Samples illustrating the common
reference levels in English, French, German, Italian and Spanish. CD-ROM. Strasbourg: Council of Europe. [Online:
http://www.coe.int/t/dg4/education/elp/elp-reg/Source/Key_reference/exampleswriting_EN.pdf 01.03.2013].
Council of Europe (Hrsg.) (2009), Relating Language Examinations to the Common European Framework of References for
languages: Learning, Teaching, Assessment. A manual. Strasbourg, Language Policy Division: Council of Europe.
Council of Europe & ALTE (Hrsg.) (2011), Manual for Language Test Development and Examining For use with the CEFR.
Strasbourg: Council of Europe.
EALTA (2006), Guidelines for Good Practice in Language Testing and Assessment (Adopted 20th May 2006). [Online:
http://www.ealta.eu.org/guidelines.htm 01.03.2013].
Europarat (Hrsg.) (2001), Gemeinsamer europischer Referenzrahmen fr Sprachen: lernen, lehren, beurteilen. Berlin:
Langenscheidt.
Figueras, Neus & Noijons, Jos (Hrsg.) (2009), Linking to the CEFR levels: Research perspectives . Arnheim: Cito, EALTA.
Glaboniat, Manuela; Mller, Martin; Rusch, Paul; Schmitz, Helen & Wertenschlag, Lukas (2005), Profile deutsch. A1 C2
(Version 2.0). Berlin: Langenscheidt.
Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2013, in Druck,), Zertifikat Deutsch. Deutschprfung fr
Jugendliche und Erwachsene. Prfungsziele, Testbeschreibung. Ismaning: Hueber.
Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendliche und Erwachsene. Prfungsziele, Testbeschreibung. Mnchen, Wien: Goethe Institut & SD.
Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendliche und Erwachsene. Trainingsmaterial fr Prfende. Modul Schreiben. Mnchen, Wien: Goethe Institut & SD.

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 28

Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendliche und Erwachsene. Trainingsmaterial fr Prfende. Modul Sprechen. Mnchen, Wien: Goethe Institut & SD.
Kaftandjieva, Felianka (2010), Methods for Setting Cut Scores in Criterionreferenced Achievement Tests. A comparative
analysis of six recent methods with an application to tests of reading in EFL. Arnheim: EALTA Cito.
Kantarcolu, Elif & Papageorgiou, Spiros (2011), Benchmarking and standards in language tests. In: O'Sullivan, Barry
(Hrsg.) (2011), Language testing. Theories and practices. New York: Palgrave, 94-110.
Karantonis, Ana & Sireci, Stephen G. (2006), The Bookmark Standard Setting Method: A Literature Review. In: Educational
Measurement: Issues and Practice 25, 412.
Kecker, Gabriele (2010), Validierung von Sprachprfungen. Die Zuordnung des TestDaF zum Gemeinsamen europischen
Referenzrahmen fr Sprachen. Frankfurt: Peter Lang.
Kenyon, Dorry (2013), Standard Setting on Language Tests. In: Chapelle, Carol A. (Hrsg.) (2013): The Encyclopedia of Applied Linguistics. Blackwell, 1-5. [Online: http://onlinelibrary.wiley.com/doi/10.1002/9781405198431.wbeal1113/pdf
23.03.2013].
Krath, Stefany & Meyer-Engling, Bettina (2011/12), Standard Setting: Deutsches Sprachdiplom auf dem Prfstand. In:
Zentralstelle fr das Auslandsschulwesen (Hrsg.) Jahrbuch 2011/2012, Deutsche Auslandsarbeit: Rohstoff Bildung, 115118. [Online:
http://www.auslandsschulwesen.de/cln_350/nn_2141658/sid_34083B24FB89097D213604577C51A0E9/Auslandss
chulwesen/DieZfA/Publikationen/Jahrbuecher/Ausgaben/Jahrbuch2011__2012,templateId=raw,property=publicationFil
e.pdf/Jahrbuch2011_2012.pdf 01.03.2013].
Porsch, Raphaela; Tesch, Bernd & Kller, Olaf (Hrsg.) (2010), Standardbasierte Testentwicklung und Leistungsmessung.
Franzsisch in der Sekundarstufe I. Mnster: Waxmann.
Tannenbaum, Richard J. & Wylie, Caroline E. (2004), Mapping Test Scores onto the Common European Framework: Setting

Standards of Language Proficiency on the Test of English as a Foreign Language (TOEFL), the Test of Spoken English (TSE),
the Test of Written English (TWE), and the Test of English for International Communication (TOEIC). Princeton, NJ: Educational
Testing Service.
Van Hofwegen, Laura (2011), Relating Examinations to the CEFR checks and balances. Vortrag ALTE-Konferenz Krakau.
Weir, Cyril J. (2005), Language Testing and Validation: An Evidence-Based Approach. Basingstoke: Palgrave/ Macmillan.
Weitere Informationen oder Materialien (z.B. Modellstze) zum B1 Zertifikat finden sich auf der Homepage der beiden Herausgeber Goethe Institut und SD unter http://www.goethe.de/lrn/prj/pba/bes/gzd/deindex.htm sowie
http://www.osd.at/default.aspx?SIid=32&LAid=1&ARid=351.

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 29

Anlagen

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 30

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 31

Zertifikat B1

Ergebnisse Standard Setting

Fassung: 31.10.2012 32