Sie sind auf Seite 1von 17

Inhaltsverzeichnis

Inhaltsverzeichnis...................................................................................................1
Einleitung Teil 1 - Leistungsbewertung...................................................................3
Was verstehen wir unter Leistung?.....................................................................3
Leistungsstreben..............................................................................................3
Leistungsanforderung......................................................................................4
Leistungsorientierung......................................................................................4
Leistungsprinzip...............................................................................................5
Wozu überhaupt Leistungsbewertung?...............................................................5
Gesellschaftliche Funktionen............................................................................5
Pädagogische Funktionen................................................................................6
Kriterien der Leistungsbewertung..........................................................................6
Benotungsskalen.................................................................................................6
Gütekriterien....................................................................................................... 8
Objektivität...................................................................................................... 8
Reliabilität........................................................................................................8
Validität............................................................................................................9
Verletzung der Gütekriterien.............................................................................10
Tendenzen.....................................................................................................10
Interferenzen..................................................................................................10
Bezugsnormen..................................................................................................11
Benotungsmodelle............................................................................................12
Messfehler.........................................................................................................13
Gestaltung von Prüfungen....................................................................................14
Grundsätze........................................................................................................14
Der Grundsatz der proportionalen Abbildung.................................................14
Der Grundsatz der Variabilität........................................................................14
Prüfungsinhalte.................................................................................................14
Prüfungsformen.................................................................................................14
Aufgabenformen................................................................................................14
Anforderungsniveau..........................................................................................15
Aufgaben- und Prüfungsumfang........................................................................15
Formulierung der Aufgaben...............................................................................15
Reihenfolge der Aufgaben.................................................................................15
Ausarbeiten einer Musterlösung........................................................................15
Punkte- und Fehlerzuweisung...........................................................................15
Abschließende Betrachtungen und Kritik..............................................................16
Literaturverzeichnis..............................................................................................16
Einleitung Teil 1 - Leistungsbewertung
Dieser Text soll in keinster Weise einen Anspruch auf Vollständigkeit erheben –
nach eingehender Sichtung der verfügbaren Literatur kam ich zu dem Schluss,
dass das Thema der Leistungsbewertung von mir höchstens in Form eines kurzen
Überblicks gestaltet werden kann.

Jedes Unterthema verdient dabei schon eine eingehende Betrachtung, welche


meiner Meinung nach gleichermaßen wichtig sind. So ist schon das Erstellen von
Tests etwas, was in der Psychologie in ausführlichstem Maße auch mit
statistischen Theorien und Formeln untermauert wird. Und doch ist das Testen
nur dann möglich, wenn man sich vorher darüber verständigt, was überhaupt
gemessen werden soll und auf welche Weise, unter Betrachtung der Vor- und
Nachteile der diversen verfügbaren Methoden.

Insofern will ich versuchen, dem Leser einen Überblick über die wichtigsten
Aspekte und gleichzeitig hier und da einen detaillierteren Einblick in interessante
Facetten zu verschaffen.

Doch als erstes gilt es erst einmal zu klären, warum wir uns überhaupt diese
Mühe machen müssen.

Was verstehen wir unter Leistung?


Um ein Verständnis für den Begriff „Leistung“ zu schaffen bieten sich mehrere
Deutungsmöglichkeiten an: Zum einen die Klärung der sprachlichen Wurzeln des
Wortes selbst, eine Betrachtung der Verwendung des Begriffs in der
Naturwissenschaft und natürlich auch des spontan entstehenden Verständnisses
durch das vorhandene Allgemeinwissen.

Die Wurzel des Worts „Leistung“ lässt sich zum einen auf das indogermanische
„leis-“ = „Fußspur, Furche“ und zum anderen auf das gotische „laistjan“ = „einer
Spur nachfolgen“ zurückführen. Die Intention ist klar, Leistung bedeutet hier,
dass man sich an einer bestimmten Norm zu orientieren hat, um Leistung
erbracht zu haben.

Die Physik hingegen definiert Leistung als in einer bestimmten Zeit erbrachte
Arbeit. Letzteres ist ebenfalls wieder physikalisch eindeutig definiert, während
hingegen Gütemaßstäbe für menschliche Tätigkeiten stark variieren können, sich
teilweise überschneiden oder sogar gegensätzlich wirken mögen – in der Regel
stehen zum Beispiel die Qualität einer ausgeführten Arbeit und die dafür
aufgewendete Zeit in reziprokem Verhältnis. Andere Gütemaßstäbe könnten die
aufgewendeten Ressourcen, die Umweltverträglichkeit oder die Innovativität
darstellen.

Leistungsstreben
Relevant wird diese Definition durch das jedem Menschen innewohnende
Verlangen nach der Anerkennung durch andere Menschen. Ein wichtiger Weg,
diese Anerkennung zu erhalten, besteht darin, eine der Art der Anerkennung
angemessene Leistung zu erbringen.

Eine Bestätigung dieser Relation findet sich in der Schule wieder, wo einer der
einfachsten Wege, das Selbstvertrauen eines Schülers nachhaltig zu
beschädigen, darin besteht, ihm wiederholt zu vermitteln, dass er „nutzlos“ ist
oder seine erbrachten Leistungen keinen Wert besitzen, sei dies durch wiederholt
negative Bewertungen in Klausuren und Test, oder durch achtlos dahingeworfene
Bemerkungen des Lehrers.

Leistungsanforderung
Die Maßstäbe, auf welche Leistungen bezogen sind, können von außen
herangetragen oder von den Leistenden selbst formuliert werden, und die
Anforderungen, denen sie unterliegen, können Fremd- und Selbstanforderungen
sein. (Sacher, 2004, S. 14)

Die Unterscheidung zwischen Fremd- und Selbstanforderungen wird allerdings


dadurch nicht gerade einfacher gemacht, dass intrinsische Motivation (sozusagen
der Archetypus der Selbstanforderung) nur schwer von identifizierter oder
integrierter extrinsischer Motivation unterschieden werden kann, welche nun
wiederum auf Fremdanforderungen basieren. Dementsprechend kann es auch
keine harte Abgrenzung zwischen Selbst- und Fremdanforderungen geben,
sondern höchstens eine Einstufung auf einem Kontinuum.

Die größte Anforderung an das Schulleben besteht nun darin, dass dem Schüler
innewohnende Leistungsstreben auszunutzen und nur in äußerst begrenztem
Maße zu lenken – immer unter Beachtung des Prinzips unter dem sich
selbstbestimmte Freiheit einzig entfalten kann:

Soviel Kontrolle wie nötig und so wenig Kontrolle, wie möglich.

Da sich schon aufgrund der neurobiologischen Prozesse des Heranwachsens eine


zuverlässige Prognose der künftigen Entwicklung des Schülers nur schwer treffen
lässt, ist ein starres Einengen der Schülermöglichkeiten kritisch zu betrachten, zu
mindestens wenn man das Ziel verfolgt, an der Entwicklung von
selbstbestimmten und selbstbewussten Menschen mitzuwirken.

Leistungsorientierung
Das Identifizieren mit externen Leistungsanforderung oder die Integration von
Fremdanforderungen in die eigene Persona ist prinzipiell nicht negativ zu sehen,
kann jedoch dazu führen, dass das Streben nach Leistung zu einem
bestimmenden Faktor im eigenen Wertesystem wird. Dies kann sowohl für das
Individuum als auch für die gesamte Gesellschaft gelten.

Problematisch wird es jedoch dann, wenn andere Faktoren abwesend sind,


welche diese Anforderungen abmildern. Selbst wenn äußerer Druck und Zwang
fehlen, würde die so entstehende Leistungsorientierung bei Kranken, Alten und
Kindern zu extremer Unzufriedenheit führen.

Somit ist also eine kompensatorische Gegenkraft vonnöten, die dem Zwang zur
Leistung die Spitze raubt. Sei dies nun durch das Versprechen zukünftiger
Leistung bei Kindern, einem Anrechnen vergangener Leistungen bei Alten oder
auch gänzlich bedingungsfrei.

Leistungsprinzip
Im Zuge der Ablösung der Ständegesellschaft des Mittelalters und der
zunehmenden Industrialisierung und Demokratisierung bedurfte es eines neuen,
funktionalen und rationalen Verteilungsprinzips – was sich in der Entwicklung des
Leistungsprinzips wiederspiegelte.

Unvoreingenommen betrachtet ist das Leistungsprinzip in der Tat kein


schlechtes, allein die Umsetzung in die Realität macht aufgrund der
menschlichen Natur Probleme.

Unter dem Leistungsprinzip erlangt jeder den seiner Leistung entsprechenden


Platz, unabhängig von Herkunft, Besitz oder Beziehung. Das Problem besteht hier
nun darin, wie die Leistung gemessen und welche Metrik angewandt wird. Zum
einen konnte so die Stellung des Bildungsbürgertums fixiert werden, indem zum
Beispiel praktische Elemente in der höheren Bildung vernachlässigt wurden. Zum
anderen wurden nur tatsächlich überprüfbare Fertigkeiten und Fähigkeiten
geprüft.

Die knappe Skizze der neuzeitlichen Geschichte des Leistungsprinzips offenbart


seine enorme Ideologieanfälligkeit: Als Leistung gilt immer, was mächtige
gesellschaftliche Gruppen als solche definieren. Schon das lässt fragwürdig
erscheinen, ob die Verteilung von Bildungs- und Berufschance nach dem
Leistungsprinzip ohne weiteres als gerecht gelten darf. (Sacher, 2004, S. 17)

Wozu überhaupt Leistungsbewertung?


Gesellschaftliche Funktionen
Grundsätzlich dient die Leistungsbewertung vorrangig der Selektion, also der
Zuweisung der Lebenschancen zu den jeweiligen Schülern gemäß ihrer
individuellen Leistung.

Das Schulwesen gehorcht hier wiederum einem äußeren Zwang durch die
Gesellschaft, welche in höchstem Maße einen „gerechten“ Maßstab einfordert,
um die gewünschten Einordnungen, Zuweisungen und Einschränkungen
vornehmen zu können.

Hierbei ist innerhalb des deutschen Schulsystems wiederholt nachgewiesen


worden, dass sich trotz des Anspruchs der objektiven Gerechtigkeit an derartige
Leistungsbewertungen dennoch immer wieder eine Selektion nach sozialen
Kriterien herauskristallisiert, insofern als dass durch wiederholte
Leistungsbewertung sozial benachteiligten Schülern Ressourcen zur Förderung
verwehrt werden – und damit ihre Leistungsschwäche geradezu zementiert und
beinahe unauslöschlich festgeschrieben wird. Meiner Meinung nach ist dies ein
perfektes Beispiel für einen Vicious Circle.

Nach den Regeln des Leistungsprinzips hat nur derjenige einen Anspruch auf
weiterführende Bildungsgänge, der auch die nötige Leistung dafür erbringt. Dies
steht in absolutem Widerspruch zum Bemühen um Chancengleichheit, der
Entwicklung der Individualität des Schülers. Das Leistungsprinzip erfordert das
Anpassen an tradierte Definitionen und gesellschaftlich anerkannten Schablonen.

Pädagogische Funktionen
In der Schule dient die Leistungsbewertung vielerlei Zwecken. So dient sie,
analog zur gesellschaftlichen Funktion, zur Selektion, also der Einstufung in
bestimmte Schulformen.

Allerdings hat sie auch Legitimationsfunktion, wobei hier alle Ergebnisse im Sinne
der Schule interpretiert werden können: Bei schlechten Ergebnissen wurde
offensichtlich Leistung verlangt, bei guten Ergebnissen wurde offensichtlich auch
etwas beigebracht.

Die Kontrollfunktion offenbart ebenfalls eine gewisse Schizophrenie: Einerseits


gelten gute Noten als Indiz dafür, dass der Lehrer seinen Schülern etwas
beigebracht hat. Zu viele gute Noten hingegen erzeugen wiederum Misstrauen,
ebenso wie zu viele schlechte Noten. Am einfachsten ist es also, wenn man keine
auffälligen Noten vergibt.

Die nächste Funktion ist die der Prognose, als dass man eine Voraussage über die
weitere Leistungsentwicklung des Schülers trifft. Hierbei spielt es übrigens keine
Rolle, ob dies vom Lehrer gewollt ist oder nicht – die Noten werden einfach
dahingehend von anderen interpretiert.

Rückwärtsgewandt ist die Funktion der Information bzw. Rückmeldung, wobei die
Schüler über ihren vergangenen Arbeitseinsatz informiert wurden und wie dieser
in Relation zu anderen Schülern steht.

Damit in Zusammenhang steht die Funktion der Disziplinierung, welche den


Schülern verdeutlichen soll, dass ihr Fehlverhalten Folgen hat. Problematisch wird
dies dann, wenn eine Leistungsmessung ausschließlich zum Zwecke der
Disziplinierung erfolgt.

Und zu guter Letzt dienen Leistungsbewertungen auch als Diagnoseinstrument


für die Lehrer, um erkennen zu können, ob die bisherigen Maßnahmen effektiv
sind, ob Änderungen vorgenommen oder Förderangebote erstellt werden
müssen.

Kriterien der Leistungsbewertung


Benotungsskalen
Zuallererst gilt es den Messvorgang selbst zu betrachten. In deutschen Schulen
wird im überwiegenden Maße eine Notenskala verwendet, welche von der
Ziffernnote 1 als bestes Ergebnis zur Note 6 als schlechtestes Ergebnis reicht,
wobei in der gymnasialen Oberstufe diese Skala noch einmal etwas ausgeweitet
wird, auf eine Punkteskala von 0 bis 15. Doch welche Aussage kann man für eine
bestimmte Note auf diesen Skalen treffen?

Skalen lassen sich prinzipiell in drei Kategorien einteilen:


a) Das Ordinalskalenniveau, welches nur die Rangfolge zum Ausdruck bringt.
Wenn bei einem Wettlauf von den Teilnehmenden als „Erster“, „Zweiter“,
„Dritter“ usw. gesprochen wird, dann wird dadurch die Reihenfolge in
welcher die Läufer durch das Ziel gelaufen sind als Maßstab für ihre
Leistung genommen.

b) Das Intervallskalenniveau wird verwendet, um zusammen mit einer


Rangfolge auch eine Aussage über die Abstände der Leistungen
untereinander einzuführen. Ein gutes Beispiel ist hierbei der IQ, nach
dessen Skala das Leistungsverhältnis zwischen einem IQ von 130 und 120
genauso groß ist, wie das zwischen einem IQ von 120 und 110.

c) Ein Verhältnisskalenniveau kommt dann zum Ausdruck, wenn sich sowohl


Aussagen über die Rangfolge als auch das Verhältnis treffen lassen und
zusätzlich noch ein klar definierter Nullpunkt vorhanden ist. Als Beispiel
könnte hierbei eine Aufgabe dienen, bei der innerhalb einer bestimmten
Zeit so viele Buchstaben „e“ wie möglich in einem Text gefunden werden
müssen.

Hierbei lässt sich sowohl eine Rangfolge festlegen („Wer hat die meisten
Buchstaben gefunden?“), als auch ein Verhältnis („Kandidat A hat doppelt
so viele Buchstaben gefunden wie Kandidat B.“) und ein Nullpunkt
(„Kandidat C hat innerhalb der vorgegebenen Zeit keine Buchstaben
gefunden.“).

Anhand dieses Kriterienkatalogs lässt sich feststellen, dass Schulnoten maximal


auf dem Niveau der Ordinalskalen agieren. Es gibt dort weder einen Nullpunkt,
denn selbst ein Schüler mit der Note 6 wird irgendeine Leistung erbracht haben.
Noch lässt sich eine Aussage über die Abstände treffen, denn die Note 2 könnte
sowohl eine „knappe“ 2 mit gerade dem Mindestmaß an Punkten für diese Note
sein, als auch eine „gute“ Zwei, die gerade eben den Kriterien für die Note 1
nicht genügt hat.

Somit lässt sich nur die grobe Aussage treffen, dass eine 1 eben besser ist als
eine 2. Und auch das nicht zuverlässig, wie zahlreiche Untersuchungen gezeigt
haben.

In der Praxis wird bei der tatsächlichen Benutzung von Ziffernnoten dann
stillschweigend zwischen den Skalenniveaus wild hin- und hergewechselt, schon
allein aufgrund der Tatsache, dass beim Benoten sowohl versucht wird, eine
Aussage über das zukünftig erwartete Leistungsniveau als auch über vergangene
und gegenwärtige Leistung. Und das vermittels einer einzigen Zahl!

Dass Schulnoten lediglich Messwerte auf Ordinalskalenniveau sind, hat eine


wichtige Konsequenz: Es ist mathematisch unzulässig, aus Ordinaldaten
arithmetische Mittelwerte (sog. Durchschnitte) zu berechnen, wo wie überhaupt
jeder rechnerische Umgang mit Ordinaldaten unstatthaft ist. (Fischer, 1991, S.
243)

Der Median ist hierbei aufgrund seiner Unempfindlichkeit gegenüber der Größe
von unter und über ihm liegender Werte ungeeignet. Die Notenfolge 2, 2, 3, 6, 6,
als auch die Notenfolge 1, 2, 3, 4, 4 ergäben hierbei den gleichen Median von 3,
obwohl der zweite Schüler offensichtlich insgesamt betrachtet besser benotet
worden ist.

Auch der Durchschnitt entzieht sich einem klaren Nutzen und muss grundsätzlich
nur äußerst vorsichtig angewandt werden, zum einen aufgrund der Tatsache,
dass die Leistungsabstände zwischen den Noten undefiniert und damit zufällig
variierend sind und zum anderen, da der Durchschnitt dem Prognoseanspruch
der Noten zuwider läuft.

Ein Beispiel: Die Notenfolgen 1, 2, 3, 4, 5 und 5, 4, 3, 2, 1 ergeben den gleichen


Durchschnitt und doch lässt die zweite Reihe eine gänzlich andere
Leistungsentwicklung als die Erste erkennen.

Gütekriterien
Um sinnvolle Aussagen über die Ergebnisse von Leistungsbewertungen bzw.
Messungen im Allgemeinen treffen zu können, müssen diese folgenden Kriterien
genügen:

Objektivität
Die Objektivität kennzeichnet den Grad, in dem eine Messung unabhängig von
jeglichen äußeren Einflüssen ist. Bezogen auf schulische Leistungsbewertungen
bedeutet dies eine Ausklammerung der Beziehung zwischen Prüfer und Prüfling.

Folgende Subkriterien lassen sich erstellen:

a) Durchführungsobjektivität, also die Frage, ob andere Prüfer diese Prüfung


in der gleichen Art und Weise gestalten würden.

b) Die Auswertungsobjektivität ist maßgeblich für die Art und Weise, in


welcher der Bewertungskatalog für die Leistungsprüfung erstellt wird.
Wenn auch andere Prüfer zu demselben Bewertungskatalog gelangen,
dann ist dieses Subkriterium erfüllt.

c) Interpretationsobjektivität, hierbei stellt sich die Frage, ob andere Prüfer


anhand desselben Kriterienkatalogs zu den gleichen Ergebnissen
gelangen, also die Antworten der Prüflinge in der gleichen Art und Weise
interpretieren.

Reliabilität
Die Reliabilität ist, wie der Name schon andeutet, ein Maß für die Zuverlässigkeit
der Leistungsbewertungen in Bezug auf Messfehler. Selbst in den
Naturwissenschaften mit ihren „harten“ Kriterien für die Messqualität ist es nicht
möglich, eine hundertprozentige Reliabilität zu gewährleisten. Die
Sozialwissenschaften mit ihren vergleichsweise „weichen“ Kriterien sind daher zu
einem stärkeren Grad von einer Beeinträchtigung der Reliabilität betroffen.

Die Testpsychologie bietet hierfür drei Testmethoden an:

• Bei der Wiederholungsmethode wird derselbe Test nach einiger Zeit


wiederholt.
• Die Halbierungsmethode zertrennt den Test in zwei strukturgleiche
Hälften, die dann separat ausgewertet werden.

• Die Paralleltestmethode erfordert die Entwicklung zweiter strukturgleicher


Varianten des Test, die dann entweder unmittelbar nacheinander oder mit
größerem zeitlichen Abstand durchgeführt werden.

Alle drei Testmethoden sind für den praktischen Schulalltag unbrauchbar, da sie
einen Zeitaufwand erfordern, der einem normalen Lehrer und dessen Klasse
einfach nicht zur Verfügung steht.

Validität
Die primäre Frage bezüglich der Validität einer Leistungsmessung lautet
folgendermaßen: „Messe ich auch tatsächlich das, was ich messen will?“

Deutlich wird die Problematik z.B. bei Klausuren im Fach Deutsch, wo sich eine
Messung der schriftsprachlichen Leistung nur schwerlich von der orthografischen
Leistung trennen lassen wird. Zudem gibt es hier auch Rückkopplungseffekte:
Wenn den Schülern bekannt ist, dass die Benotung ihres Aufsatzes auch von ihrer
Rechtschreibung und Grammatik abhängt, so werden sie dazu tendieren,
einfachere Sätze und Redewendungen zu benutzen, anstelle vielleicht
eleganterer und aussagekräftigerer Illustrationen, deren Rechtschreibung sie sich
allerdings nicht so sicher sind.

In der Regel lassen sich fünf Aspekte der Validität erkennen:

• Inhaltsvalidität: Kurz gefasst dreht es sich hier um die Frage, ob man


Kompetenzen misst, welche der Schüler auch tatsächlich im Unterricht
erwerben konnte.

• Prognosevalidität: In dem Maß, in dem die Inhaltsvalidität für den Blick


zurück relevant ist, ist die Prognosevalidität für Voraussage der Zukunft
verantwortlich: Ist die Kompetenz, die gemessen wird, auch von
Bedeutung für den weiteren Lernprozess?

• Übereinstimmungsgültigkeit: Diese ist dann gegeben, wenn die


Ergebnisse, die durch verschiedene Messinstrumente gewonnen wurden,
auch tatsächlich übereinstimmen, z.B. die Ergebnisse von schriftlichen
versus mündliche Prüfungen.

• Konstruktvalidität: Ist dann erfüllt, wenn die gemessenen Leistungen mit


einem theoretischen Modell übereinstimmen. Man muss sich also vorher
darüber einig werden, welche Eigenschaften theoretisch zum Beispiel zu
der Kompetenz „sprachliches Ausdrucksvermögen“ gehören, um dann zu
überprüfen, ob diese Eigenschaften auch tatsächlich alle getestet werden.

• Testfairness: Es darf sich keine Benachteiligung für bestimmte


Untergruppen während der Leistungsmessung ergeben. Prominentes
Beispiel ist hier die unterschiedliche Behandlung von Jungen und Mädchen.

Zusätzlich lassen sich noch drei zusätzliche Nebengütekriterien aufstellen:


• Ökonomie: Steht für die Angemessenheit von Materialverbrauch und
Zeitaufwand in Verhältnis zum erwarteten Ergebnis.

• Nützlichkeit und Zumutbarkeit: Hier gilt es darauf zu achten, dass eine


Prüfung sowohl für die Gesellschaft, als auch für die Schule und ihre
Schüler von tatsächlicher Relevanz sind.

• Akzeptanz: Der Prüfungsstoff sollte in Einklang mit verbreiteten


Wertmustern und Meinungen stehen.

Verletzung der Gütekriterien


Im Zusammenhang mit den Gütekriterien sollen hier natürlich auch Ursachen für
die Verletzung eben jener genannt werden. Diese dürfen jedoch nicht mit
Messfehlern verwechselt werden – Messfehler entstehen während der
Leistungsmessung selbst, während die nachgenannten Verstöße gegen die
Gütekriterien als Beeinträchtigungen während der Auswertung der
Messergebnisse zu sehen sind.

Tendenzen
Tendenzen sind die individuelle Neigung des Prüfers zu einer der folgenden vier
Varianten:

• Strengefehler: Der Prüfer neigt hier zu einer Überbewertung von kleineren


oder gar nichtigen Fehler und auch sonst im Allgemeinen sehr strenge und
stark negative Urteile abzugeben.

• Mildefehler stellen das genaue Gegenteil zu den Strengefehlern dar, der


Prüfer zeigt eine starke Tendenz zu guten Noten und milden Urteilen

• Tendenz zur Mitte: Hier handelt es sich um eine Vermeidung von extremen
Urteilen, der Prüfer vergibt kaum sehr gute oder sehr schlechte Urteile.

• Tendenz zu Extremurteilen ist wiederum das Gegenteil zur Tendenz zur


Mitte, wobei hier die durchschnittlichen Urteile im Übermaß ausgespart
werden.

Um einer eigenen vorhandenen Tendenz Abhilfe zu verschaffen, muss man sich


erst einmal darüber im Klaren werden, zu welcher der vier Varianten man selbst
neigt. Dies kann nur durch eine längere Beobachtung der eigenen Urteile
geschehen, die man dann auf Auffälligkeiten untersucht und auch in Relation zu
den Ergebnissen anderer Lehrer setzt. Hilfreich sind auch Gespräche mit anderen
Lehrern und eine Betrachtung der traditionellen Tendenzen des eigenen Fachs.
Weiterhin muss man auch alterstypische Erscheinungen berücksichtigen, also
überprüfen, ob das eigene Bild von der Leistungsfähigkeit der Schüler überhaupt
ein realistisches ist.

Interferenzen
Naturwissenschaftlich gesehen sind Interferenzen Überlagerungen durch andere
Signalquellen, bezogen auf die Pädagogik handelt es sich um die Beeinflussung
des Urteils durch andere vorangegangene Bewertungen. Aufzulisten sind hier
drei verschiedene Interferenzarten:
• Reihungsfehler: Hierbei wird die aktuelle Leistung in Relation zu einer
vorangegangenen Leistung gesetzt. Eine Abwärtstendenz wirkt sich
negativ, eine Aufwärtstendenz positiv aus. Weiterhin wird aber auch die
gesamte Sequenz betrachtet, so dass eine Reihung von Einsen nur mit
äußerstem Widerwillen als wahrscheinlich angenommen wird.

• Logische Fehler: Das Übertragen der Leistung in einem bestimmten


Bereich auf einen anderen, verwandten Bereich. Ein Beispiel wären hier
gute Leistungen in Mathematik, die auch eine Erwartungshaltung für gute
Leistungen in Physik erzeugen.

• Halo-Effekte: Das Überstrahlen bestimmter Merkmale auf alle anderen


Leistungsmessungen, so wird z.B. ein Schüler, dessen Kleidung
unordentlich und schmutzig wirkt, es schwerer haben, eine gute
Leistungsbewertung zu bekommen. Umgekehrt kann natürlich auch ein
positiver Allgemeineindruck zu einer besseren Bewertung führen.

Bezugsnormen
Grundsätzlich sind Bewertung nur mit einem Referenzpunkt möglich, es muss
also festgelegt sein, worauf man sich bezieht, um dann die gegebene Leistung
als höher- oder niederwertig einstufen zu können.

Man kann zwischen drei verschiedenen Normen unterscheiden:

• Die soziale Norm. Diese setzt die Leistungen des Individuums in Bezug zu
einer mehr oder weniger definierten Gruppe. Wenn die Leistung der Person
der durchschnittlichen Leistung der Gruppe entspricht oder sie übertrifft,
wird sie als gut bewertet.

Problematisch ist hierbei, dass es sich bei der Referenzleistung um ein


bewegendes Ziel handelt. In dem gleichen Maße, wie sich die Leistung des
Einzelnen entwickelt, so wird sich auch die Leistung der Gruppe
entwickeln, so dass sich, bei gleicher Leistungsentwicklung die Einstufung
des Individuums förmlich zementieren wird. Dies kann besonders bei
Minderleistern zu dem Gefühl führen, dass sie tun können was sie wollen,
es ändert nichts an ihrer Einstufung.

• Die kriteriale Norm. Hier werden die Leistungen des Individuums zu vorher
definierten fachlichen Anforderungen in Relation gesetzt. Eine gute
Leistung ergibt sich dann aus dem Erfüllen oder Übertreffen dieser
Anforderungen.

Positiv ist hier die Abwesenheit jeglicher direkter Gruppenzwänge. Negativ


ist hingegen zu sehen, dass die Individualität der Lernenden
unberücksichtigt bleibt, außerdem stellt sich die Frage, ob die
Anforderungen ihrerseits unbeeinflusst von äußeren Zwängen sind.

• Die individuelle Norm setzt die vergangenen Leistungen des Schülers in


Beziehung zu seinen derzeitigen Leistungen. Eine gute Leistung ergibt sich
hier aus einer Leistungsverbesserung oder gleich bleibenden Leistung auf
hohem Niveau, ein Rückschritt oder Stagnation auf niedrigem Niveau
hingegen würde schlecht bewertet.

Aus pädagogischer Sicht ist die individuelle Norm als am geeignetsten für
den Schüler zu sehen, sie erfordert jedoch auch den größten Aufwand von
Seiten der Schule und des Lehrers, da die Bewertung nach individuellen
Standards für jeden einzelnen Schüler naturgemäß mehr Zeit verbraucht
als das Abhaken eines gleichbleibenden Kriterienkataloges.

Zudem muss, damit eine derartige Bewertung überhaupt Sinn macht, ein
auf den Schüler zugeschnittenes Lern- und Förderangebot existieren.

Benotungsmodelle
Um eine differenziertere Aussage zur Leistung des Schülers tätigen zu können,
werden in den meisten Schulen Ziffernnoten vergeben, da die Bezugsnormen
selbst nur eine grobe Aussage geben können: Überdurchschnittlich,
durchschnittlich, unterdurchschnittlich.

Ein gutes Benotungsmodell muss dabei folgenden Regeln gehorchen:

• Logische Eindeutigkeit, das heißt, die gleiche Leistung muss auch immer
die gleiche Note ergeben. Es handelt sich hierbei jedoch nicht um eine
bijektive Abbildung, denn die gleiche Note muss nicht zwangsläufig für
gleiche Leistungen stehen. Beispielsweise sind eine „gute“ und eine
„schlechte“ Drei auf dem Zeugnis einfach nur eine Drei ohne weitere
Differenzierung.

• Normvalidität. Hierbei muss die Bewertung gemäß den Kriterien erfolgen,


welche die zugrundeliegende Norm aufstellt.

• Entscheidungsökonomie. Eine Bewertung sollte mit so wenigen


Entscheidungen wie möglich getroffen werden können, da jede
Entscheidung für sich von Subjektivität und Willkür beeinträchtigt werden
kann. Übertragen auf eine Notenskala hieße dies, dass man einen
Referenzpunkt festlegt (z.B. die nötigen Punkte für eine Fünf), und die
restlichen Noten auf dieser Skala gleichmäßig verteilt. Ein Verstoß gegen
die Entscheidungsökonomie wäre, wenn man die Punkte für jede Note
individuell festlegt.

• Flexibilität. Es muss möglich sein, unterschiedlich hohe


Leistungsanforderungen zu stellen und diese dann auch dementsprechend
zu bewerten.

• Fehlerkontrolle. Die Vergabe von Noten sollte im Bewusstsein der stets


vorhandenen Messfehler erfolgen und versuchen, diese zu minimieren.

Die Bewertung einer Leistung kann dann prinzipiell auf zwei unterschiedlichen
Wegen erfolgen: Durch Punktevergabe für richtig gelöste Aufgaben bzw. deren
Lösungsschritte oder durch Aufzählen der bei Erbringen der Leistung gemachten
Fehler bzw. nicht gelösten Aufgaben oder Teilaufgaben.
Eine tatsächliche Zuordnung der Punkte bzw. Fehler zu den jeweiligen Noten
kann unter Verwendung einer linearen oder nichtlinearen Skala erfolgen. Für den
Schulalltag empfiehlt sich die Anwendung einer Mischform, wie schon im Zuge
der Beschreibung der Entscheidungsökonomie angedeutet:

Man legt den Bezugspunkt für die Note Fünf fest und verteilt die verbliebenen
Skalenteile linear auf die restlichen Noten.

Messfehler
Messfehler ergeben sich aus vielerlei Quellen und rühren daher, dass jegliche
Messinstrumente von ihrer Natur her unvollkommen sind. Ich persönlich würde
Verletzungen der Gütekriterien allerdings nicht als Messfehler ansehen, da sie
meiner Meinung nach eher Auswertungsfehler denn tatsächliche Messfehler sind.
Unbestritten sind jedoch folgende Effekte:

• Das Schwellenproblem. Um eine Leistung tatsächlich messen zu können,


muss ein bestimmter Schwellenwert übertroffen werden. Da wir jedoch
nicht des Gedankenlesens mächtig sind, können wir nicht erkennen, wie
nahe ein Schüler vor dem Übertreten einer spezifischen Schwelle war,
denn die Annahme, dass ein Schüler nichts weiß, auch wenn er ein leeres
Blatt abgibt, ist sicherlich nicht gerechtfertigt. Wir können jedoch nur
bewerten, was wir auch tatsächlich wahrnehmen können und wenn der
Schüler seine Gedankengänge nicht darlegt, auch wenn sie zu keinem
Ergebnis führten, ergibt sich genau dieses Bewertungsproblem.

• Das Rundungsproblem. Dieses Problem entsteht immer dann, wenn man


es mit einem Kontinuum an Leistungen zu tun hat, welche dann in diskrete
Werte umgemünzt werden müssen. Jeder kennt das Problem einer
Antwort, die nicht ganz richtig, aber auch nicht ganz falsch ist. Eine
Halbierung der Punkte verschiebt das Problem hierbei nur, denn was
macht man, wenn man sich nicht sicher ist, ob der halbe Punkte verdient
ist oder nicht? Vierteln?

Zudem könnte eine Aufwärts- oder Abwärtstendenz beim Runden den


Schüler übermäßig bevor- oder benachteiligen

• Das Stichprobenproblem, welches sich dadurch ergibt, dass wir die


Leistungen des Schülers nicht in seiner Gänze ermitteln können, sondern
nur stichprobenartig abprüfen können. Somit kann es passieren, dass die
Schnittmenge der Stichprobe und des Wissens des Schülers zufällig kleiner
oder größer ist, als dies mit einer anderen Stichprobe der Fall wäre, dieser
Test also die tatsächliche Leistung des Schülers nicht zuverlässig
repräsentiert.
Gestaltung von Prüfungen
Grundsätze
Der Grundsatz der proportionalen Abbildung
Wie schon bei den Messfehlern erwähnt, können wir immer nur eine Stichprobe
des vorhandenen Wissens entnehmen. Wichtig ist dabei jedoch, dass der
vorangegangene Unterricht auch gemäß der auf die jeweiligen Teilabschnitte
verwendeten Zeit proportional repräsentiert wird.

Der Grundsatz der Variabilität


Leistungsmessungen dürfen nicht aus einer einzigen Art der
Leistungsüberprüfung bestehen, um nicht bestimmte Schüler zu bevorteilen und
andere zu benachteiligen.

Prüfungsinhalte
Auch hier spielt der Grundsatz der proportionalen Abbildung hinein: Was im
Unterricht ausführlich behandelt wurde, muss auch in der Prüfung ausführlich
behandelt werden. Ist zwischen zwei Themenkomplexen eine Auswahl zu treffen,
so sollte derjenige gewählt werden, der für die Zukunft eine größere Relevanz
besitzt.

Prüfungsformen
Die Auswahl der Prüfungsform erfordert das Abwägen zwischen zwei Prinzipien:
Zum einen das der Variabilität, um wiederum keine übermäßige Bevor- oder
Benachteiligung zu erzeugen. Zum anderen aber auch das der Proportionalität,
denn wenn der Unterricht größtenteils aus Gesprächen und Gruppenarbeiten
ohne schriftliche Tests bestand, wäre es nicht angemessen, eine
Leistungsüberprüfung ausschließlich in schriftlicher Form vorzunehmen.

Aufgabenformen
Es stehen drei verschiedene Aufgabenformen zur Verfügung: Offene, halboffene
und geschlossene Aufgabenformen.

Offene Aufgaben erfordern eine freie Antwort vom Schüler, der Umfang der
Antwort kann jedoch stark variieren, von einem einzelnen Satz bis zu einem
kompletten Aufsatz unter einer Fragestellung.

Halboffene Aufgaben sind solche, die kurz und präzise in einer vorher
festgelegten Art und Weise zu beantworten sind, entweder durch Beantworten
einer Frage („In welchem Jahr wurde Rom gegründet?“), Ergänzen eines
Lückentexts oder durch eine Substitutionsaufgabe.

Geschlossene Aufgaben werden meist durch Multiple Choice Aufgaben


repräsentiert, bei welchen z.B. die falsche oder richtige Antwort zu identifizieren
ist, oder Bilder Begriffen zugeordnet werden müssen.

Die eingesetzten Aufgaben sollten auch hier wieder variieren und den
vorangegangen Unterricht proportional repräsentieren.
Anforderungsniveau
Das den Schülern präsentierte Anforderungsniveau muss wiederum dem
Grundsatz der Proportionalität gehorchen. Wenn ein Unterrichtsthema kein
Verständnis vom Schüler abforderte, sondern sich nur auf dem Niveau der
Informationsvermittlung und –wiedergabe bewegte, wäre es unangemessen, eine
Verständnisfrage zu diesem Thema innerhalb des Test zu stellen.

Aufgaben- und Prüfungsumfang


Hier ist abzuwägen, was man überprüfen möchte. Verständnis und
anspruchsvollere Kompetenzen werden zuverlässiger durch umfangreichere
Einzelaufgaben geprüft. Die Schülerleistung insgesamt ergibt sich aber
zuverlässiger durch zahlreichere Aufgaben.

Da der veranschlagte Zeitaufwand es meist verbietet, zahlreiche umfangreiche


Einzelaufgaben in einen Test einzubringen, bleibt auch hier nur übrig, zwischen
den beiden Extremen zu wechseln oder zu versuchen, einen Mittelweg zu finden.

Weiterhin sollten kürzere Prüfungen auch leichter gestaltet werden, da diese mit
einem größeren Messfehler versehen sind.

Formulierung der Aufgaben


Beim Formulieren der Aufgaben sollte man sich einer für die Schüler
verständlichen und gebräuchlichen Sprache bedienen. Zudem sind Informationen
und Fragestellung strikt zu trennen und nicht zu vermengen.

Reihenfolge der Aufgaben


Da der Großteil der Schüler nicht von der Möglichkeit Gebrauch macht, die
vorgegebene Reihenfolge der Aufgaben abzuändern, sollte man eine
pädagogisch und psychologisch sinnvolle Reihenfolge erstellen. Es empfiehlt sich
hierbei nicht, komplexe Aufgaben am Anfang zu stellen, um Blockadehaltungen
zu vermeiden. Außerdem ist es günstig, den Schwierigkeitsgrad langsam
aufzubauen, beim Erreichen der Mitte die komplexesten Aufgaben zu stellen und
dann am Ende, aufgrund der nachlassenden Konzentration, wieder einfachere
Aufgaben einzubinden.

Ausarbeiten einer Musterlösung


Das Ausarbeiten einer Musterlösung empfiehlt sich schon allein aus dem Grund,
als dass man so leicht Ungereimtheiten und eigene Fehler noch einmal
aufdecken kann. Zudem wird so die Zuweisung der Punkte einfacher und man
kann den Zeitaufwand für die Schüler leichter einschätzen.

Punkte- und Fehlerzuweisung


Nach dem Zerlegen der Aufgaben in ihre Teilschritte, gilt ein einfacher
Grundsatz: Jede Teilleistung ist gleich zu gewichten.

Lehrer arbeiten gerne mit der sogenannten Apriori-Schwierigkeit, versuchen also


die Schwierigkeit einer Aufgabe im Vorhinein abzuschätzen – und täuschen sich
dabei oft. Die Testpsychologie hingegen verwendet die Aposteriori-Schwierigkeit:
Schwierig ist, was nur von wenigen gelöst wurde.
In der Psychologie wird zwar zwischen ranghöheren und rangniedrigeren
Prozessen unterschieden, doch ließe sich hier das Beispiel eines Schülers
anführen, der zwar Prozesse und Prinzipien leicht begreift, aber Schwierigkeiten
mit dem Lernen von Eigennamen hat, was ebenfalls gegen die generell höhere
Bewertung von ranghöheren Prozessen spräche.

Abschließende Betrachtungen und Kritik


Nach eingehender Betrachtung der Schulnoten und der Art und Weise, wie diese
verwendet werden, kann ich eigentlich nur zu einem vernichtenden Urteil
gelangen: Schulnoten zum jetzigen Zeitpunkt sind unzuverlässig bis hin zur
Unbrauchbarkeit.

Schon allein die Tatsache, dass versucht wird, zu viele Funktionen in eine einzige
Zahl zu pressen, sollte jedem vernunftbegabten Menschen klarmachen, dass dies
so nicht funktionieren kann. Schulnoten sollen eine Aussage über vergangene
Leistungen treffen, den jetzigen Leistungsstand wiederspiegeln, eine Prognose
abgeben und gleichzeitig noch als Disziplinierungsmaßnahme wirken.

Realistisch gesehen gibt es keine einfache Alternative zu einer Zifferbewertung,


da unser System, welches auf dem Leistungsprinzip basiert (oder zu mindestens
vorgibt, dies zu tun), z.B. für eine detaillierte schriftliche Bewertung der Leistung
nicht ausgelegt ist.

Dennoch wäre es möglich, Kompromisse zu treffen, indem man sich z.B. bei einer
Notenvergabe auf ein Kriterium (ich würde hier die Prognose) beschränkt und
weiterhin während der Schulzeit dem Schüler eben eine detaillierte schriftliche
und individuelle Rückmeldung über seinen Leistungsstand gibt, in Relation zu den
Vorgaben der normativen Kriterien.

Außerdem sollte von jeglicher mathematischer Behandlung der Ziffernnoten


abgesehen und Disziplinierungsmaßnahmen auf anderen Wegen ausgeübt
werden, vor allem vor dem Hintergrund, dass die Neurophysiologie aller
Menschen erst mit dem 21. Lebensjahr als voll ausgebildet betrachtet werden
kann.

Literaturverzeichnis
Beutel, S.-I., & Vollstädt, W. (2000). Leistung ermitteln und bewerten. Hamburg:
Bergmann + Helbig Verlag.

Fischer, W. L. (1991). Mathematische Kritik der Ziffernnoten und ihrer


Interpretation. Von Hohenzollern / Liedtke.

Ingenkamp, K. (1974). Die Fragwürdigkeit der Zensurengebung. Weinheim und


Basel: Beltz Verlag.

Krauth, J. (1995). Testkonstruktion und Testtheorie. Weinheim: Psychologie


Verlags Union.
Sacher, W. (2004). Leistungen entwickeln, überprüfen und beurteilen. Bad
Heilbrunn: Verlag Julius Klinkhardt.