Sie sind auf Seite 1von 143

PÄDAGOGISCH

PSYCHOLOGISCHE DIAGNOSTIK
Münchner Skript 2.0

Gaby Loicht
2016
0
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

Inhaltsverzeichnis

Inhaltsverzeichnis ............................................................................................................................................ 1
0. Überblick ................................................................................................................................................ 0
1. Einleitung ................................................................................................................................................ 1
1.1. Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern ................................ 1
1.2. Bedeutung der Leistungsbeurteilung ............................................................................ 1
1.3. Zielorientierung des Unterrichts ................................................................................... 1
1.4. Leistungs- und Persönlichkeitsbeurteilungen in der Schule ......................................... 2

2. Grundbegriffe ........................................................................................................................................ 2
2.1. Diagnostik ................................................................................................................... 2
2.2. Arten von Diagnostik................................................................................................... 6
2.2.1. Standardisierte und nicht-standardisierte Diagnostik .............................................................................6
2.2.2. Norm- und kriteriumsorientierte Diagnostik ...............................................................................................7
2.2.3. Individual- und Umweltdiagnostik ...............................................................................................................7
2.2.4. Schulleistungsdiagnostik .................................................................................................................................8

3. Gütekriterien ......................................................................................................................................... 8
3.1. Überblick ..................................................................................................................... 8
3.2. Objektivität .................................................................................................................. 9
3.2.1. Durchführungsobjektivität ........................................................................................................................... 10
3.2.2. Auswertungsobjektivität .............................................................................................................................. 11
3.2.3. Interpretationsobjektivität .......................................................................................................................... 11

3.3. Reliabilität ................................................................................................................. 13


3.3.1. Wiederholungsreliabilität (Test-Retest-Methode) ................................................................................. 15
3.3.2. Split-Half-Reliabilität (Testhalbierungsmethode) .................................................................................. 16
3.3.3. Paralleltestreliabilität.................................................................................................................................. 17
3.3.4. Konsistenzanalyse ........................................................................................................................................ 17
3.3.5. Zusammenfassung ......................................................................................................................................... 18
3.3.6. Herstellung von Reliabilität ........................................................................................................................ 18

3.4. Validität ..................................................................................................................... 19


3.4.1. Inhaltsvalidität ............................................................................................................................................... 20
3.4.2. Empirische Validität ..................................................................................................................................... 21
3.4.3. Konstruktvalidität.......................................................................................................................................... 22
3.4.4. Testfairness .................................................................................................................................................... 24
3.4.5. Herstellung von Validität ............................................................................................................................ 24

3.5. Nebengütekriterien .................................................................................................... 25


3.5.1. Normierung .................................................................................................................................................... 25
3.5.2. Nützlichkeit und Zumutbarkeit ................................................................................................................... 25
3.5.3. Ökonomie ....................................................................................................................................................... 26

1
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

3.5.4. Vergleichbarkeit ........................................................................................................................................... 26


3.5.5. Akzeptanz ...................................................................................................................................................... 26

4. Methoden der Pädagogischen Diagnostik ..................................................................................... 27


4.1. Testmethoden ............................................................................................................ 27
4.1.1. Klassifikation von Tests: ............................................................................................................................... 28
4.1.2. Klassische Testtheorie .................................................................................................................................. 28
4.1.3. Item-Response-Theorie ................................................................................................................................ 29

4.2. Beobachtungsverfahren ............................................................................................. 30


4.2.1. Abgrenzung Beobachtung .......................................................................................................................... 31
4.2.2. Arten der Beobachtung ............................................................................................................................... 31
4.2.3. Unterrichtsbeobachtung und Interaktionsdiagnostik ............................................................................. 34
4.2.4. Beobachtungssysteme/Interaktions-Analyse-Systeme .......................................................................... 35
4.2.5. Probleme bei der Beobachtung ................................................................................................................ 40
4.2.6. Gütekriterien bei Beobachtungsverfahren.............................................................................................. 41
4.2.7. Beobachtungsfehler ..................................................................................................................................... 41

4.3. Beurteilung ................................................................................................................ 41


4.3.1. Abgrenzung von Beobachtung & Beurteilung ........................................................................................ 41
4.3.2. Beurteilungsverfahren.................................................................................................................................. 42
4.3.3. Beurteilung im Unterricht/Urteilsfehler .................................................................................................... 42
4.3.4. Beurteilungsfehler ......................................................................................................................................... 43

4.4. Einsatzmöglichkeiten der Beobachtung/Beurteilung .................................................. 44


4.5. Gesprächsmethoden .................................................................................................. 45
4.5.1. Arten im Überblick ....................................................................................................................................... 46
4.5.2. Anamnese ....................................................................................................................................................... 46
4.5.3. Exploration .................................................................................................................................................... 47
4.5.4. Interview ......................................................................................................................................................... 48

4.6. Dokument- und Werkanalyse .................................................................................... 52


4.6.1. Arten von Dokumenten (Werken) .............................................................................................................. 52

4.7. Fragebogen ............................................................................................................... 53


4.7.1. Merkmale ....................................................................................................................................................... 53
4.7.2. Konstruktion eines Fragebogens ............................................................................................................... 54
4.7.3. Vorteile von Fragebögen ........................................................................................................................... 54

4.8. Soziometrie ................................................................................................................ 54


4.8.1. Dimensionen der klassischen Methode nach Friedrich (1973) ............................................................ 55
4.8.2. Soziographischer Test von Bullis – Seelmann: „Der soziometrische Test“ ......................................... 56
4.8.3. Verschiedene Darstellungsverfahren ....................................................................................................... 56
4.8.4. Probleme der soziometrischen Befragung .............................................................................................. 58

5. Testnormierung bzw. Bezugsnormen ............................................................................................. 59


5.1. Normierung ............................................................................................................... 59
5.2. Arten von Bezugsnormen .......................................................................................... 59
5.2.1. Soziale (interindividuelle) Bezugsnorm .................................................................................................... 60
5.2.2. (Intra-)Individuelle Bezugsnorm ................................................................................................................. 60
5.2.3. Sachliche Bezugsnorm ................................................................................................................................. 61

2
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

5.3. Interindividuelle Normskalen .................................................................................... 61


5.3.1. Prozentrangskala ......................................................................................................................................... 61
5.3.2. IQ-Skala (Abweichungs-IQ) ....................................................................................................................... 62
5.3.3. T-Wert-Skala ................................................................................................................................................ 62
5.3.4. Fähigkeitsorientierte Norm ......................................................................................................................... 62
5.3.5. Allgemeines zur Normierung ...................................................................................................................... 63

6. Schulleistungsdiagnostik .................................................................................................................... 63
6.1. Schulleistungsmodelle ............................................................................................... 64
6.1.1. Schulleistungsmodell von Bloom ................................................................................................................. 64
6.1.2. Schulleistungsmodell von Helmke .............................................................................................................. 64
6.1.3. Schulleistungsmodell nach Carroll ............................................................................................................. 65

7. Schulleistungstests .............................................................................................................................. 65
7.1. Begriffsklärung .......................................................................................................... 65
7.2. Arten von Schulleistungstests .................................................................................... 66
7.3. Überblick über die Möglichkeiten der Konstruktion von SLT ...................................... 67
7.4. Formelle Schulleistungstests ...................................................................................... 68
7.4.1. Bezugsgruppenorientierte (= sozialnormorientierte) Tests .................................................................. 68
7.4.2. Kriteriumsorientierte (= lehrzielorientierte) Tests .................................................................................. 73
7.4.3. Unterschied zwischen bezugsgruppen- und kriteriumsorientierten Tests .......................................... 75
7.4.4. Gütekriterien formeller Schulleistungstests.............................................................................................. 75
7.4.5. Beispiele für formelle Schulleistungstests................................................................................................. 77

7.5. Informelle Schulleistungstests.................................................................................... 79


7.5.1. Konstruktion informeller SLTs...................................................................................................................... 80
7.5.2. Gütekriterien informeller Tests .................................................................................................................. 81
7.5.3. Vor- und Nachteile informeller Schulleistungstests ................................................................................ 82
7.5.4. Beispiele informelle SLT‘s............................................................................................................................ 82

7.6. Zehn Prüfsteine zur Beurteilung von Schulleistungstests ........................................... 83

8. Mündliche und schriftliche Prüfungen ............................................................................................ 83


8.1. Mündliche Prüfungen ................................................................................................ 83
8.1.1. Arten mündlicher Prüfungen ....................................................................................................................... 84
8.1.2. Kritik an der mündlichen Prüfung .............................................................................................................. 85
8.1.3. Gütekriterien – Kritik an mündlichen Prüfungen .................................................................................... 86
8.1.4. Verbesserungsmöglichkeiten ...................................................................................................................... 88

8.2. Schriftliche Prüfungen ................................................................................................ 90


8.2.1. Vorteile ........................................................................................................................................................... 90
8.2.2. Formen schriftlicher Prüfungen ................................................................................................................... 90
8.2.3. Erfüllung der Gütekriterien bei schriftlichen Prüfungen ....................................................................... 91
8.2.4. Verbesserungsmöglichkeiten: ..................................................................................................................... 93

8.3. Vor- und Nachteile schriftlicher Prüfungen in Abgrenzung von Schulleistungstests.. 94


8.4. Mündliche vs. schriftliche Prüfungen ......................................................................... 95

9. Zensuren und Zeugnisse ................................................................................................................... 96

3
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

9.1. Funktionen ................................................................................................................. 96


9.1.1. Kontrolle ......................................................................................................................................................... 96
9.1.2. Bericht und Information ............................................................................................................................... 96
9.1.3. Berechtigung .................................................................................................................................................. 97
9.1.4. Auslese ............................................................................................................................................................ 97
9.1.5. Rückmeldung und Steuerung im Lernprozess .......................................................................................... 97
9.1.6. Motivation ...................................................................................................................................................... 98
9.1.7. Disziplinierung ............................................................................................................................................... 98

9.2. Ermittlung .................................................................................................................. 98


9.3. Gütekriterien und Kritik ............................................................................................. 98
9.3.1. Objektivität.................................................................................................................................................... 99
9.3.2. Reliabilität ..................................................................................................................................................... 99
9.3.3. Validität ...................................................................................................................................................... 100

10. Intelligenztests ............................................................................................................................. 102


10.1. Allgemeines............................................................................................................. 102
10.2. Geschichte der Intelligenzmessung ......................................................................... 102
10.3. Definition Intelligenz ............................................................................................... 103
10.4. Intelligenzmodelle Übersicht ................................................................................... 104
10.5. Psychometrische Intelligenzmodelle ........................................................................ 104
10.5.1. Zwei-Faktoren-Theorie ....................................................................................................................... 104
10.5.2. Zweifaktorenmodell ............................................................................................................................ 105
10.5.3. Theorie der Primärfaktoren............................................................................................................... 105
10.5.4. Zwei-Faktoren-Modell ........................................................................................................................ 106
10.5.5. Berliner Intelligenzstrukturmodell ..................................................................................................... 106

10.6. Kognitive Intelligenztheorien .................................................................................. 107


10.6.1. Triarchische Theorie der Intelligenz ................................................................................................. 107
10.6.2. Modell der sieben Intelligenzen ....................................................................................................... 108

10.7. Aufbau Intelligenztests ............................................................................................ 109


10.8. Messung von Intelligenz ......................................................................................... 109
10.8.1. Frühere Intelligenzmessung ................................................................................................................ 109
10.8.2. Moderne Intelligenzmessung ............................................................................................................. 109

10.9. Relevanz von Intelligenz für schulisches Lernen ..................................................... 110


10.10. Sprachgebundene Intelligenztests ....................................................................... 111
10.11. Sprachfreier Intelligenztest .................................................................................. 112
10.12. Anwendungsbereiche.......................................................................................... 114
10.12.1. Feststellung des sonderpädagogischen Förderbedarfs .............................................................. 114
10.12.2. Übergang zur Sekundarstufe I ......................................................................................................... 114
10.12.3. Teilleistungsstörungen.......................................................................................................................... 115

10.13. Förderung der Intelligenz .................................................................................... 115


10.14. Hochbegabte ....................................................................................................... 116
10.14.1. Underachiever ...................................................................................................................................... 116

4
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

10.14.2. Overachiever ........................................................................................................................................ 117

11. Evaluation ..................................................................................................................................... 117


11.1. Funktionen ............................................................................................................... 117
11.2. Standards und Grundprinzipien einer Evaluation: ................................................... 118
11.2.1. Nützlichkeit ............................................................................................................................................ 118
11.2.2. Durchführbarkeit .................................................................................................................................. 119
11.2.3. Fairness .................................................................................................................................................. 119
11.2.4. Genauigkeit .......................................................................................................................................... 119

11.3. Evaluationsformen .................................................................................................. 120


11.4. Möglichkeiten der Erfassung von Unterrichtsqualität............................................... 122
11.5. Ablauf einer Evaluation........................................................................................... 122
11.6. Methoden schulbezogener Evaluation ..................................................................... 124
11.7. Probleme bei der Evaluation ................................................................................... 126
11.8. Evaluation des Bildungssystems ............................................................................. 126
11.8.1. PISA ........................................................................................................................................................ 126

Literatur ...................................................................................................................................................... 136

5
0. Überblick
Schulleistungsmess Befragung, Schulfähigkeits
Psychologisch ung, diagnostik für Methoden der
Beurteilung,
e Grundlagen Gütekriterien Zensurengebung
Beobachtung und verschiedene schulbezogenen
und Evaluation
Lernerfolgskontrolle Tesstverfahren Schularten
Objektivität Schulleistungs- Testmethoden Intelligenztests Evalutation
tests
Reliabilität Mündliche Beobachtungs- Einschulungs-
Prüfungen verfahren diagnostik
Validität Schriftliche Gesprächs- Lernfähigkeit
Prüfungen methoden
Konzentration
Nebengüte- Zensuren und Dokument- und
kriterien Zeugnisse analyse Aufmerksamke
it
Beurteilungs-
verfahren
Fragebogen
Soziometrie
0
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

1. Einleitung

1.1. Zielsetzung des Schulsystems und Berufsaufgaben von


Lehrern
Fend:
Drei Aufgaben des Schulsystems: 3 Reproduktionsfunktionen

Qualifikationsfunktion: Vermittlung von Fertigkeiten und Kenntnissen


Selektionsfunktion: Reproduktion der Sozialstruktur einer Gesellschaft (Schulabschluss
gesellschaftliche Position)
Integrationsfunktion: Reproduktion von Normen und Werten etc.

Deutscher Bildungsrat: Aufgaben der Lehrer:

Lehren Vermittlung von Kenntnissen und Fertigkeiten


Beurteilen Lernerfolg – Lernmisserfolg
Beraten Laufbahn
Erziehen Weitergabe von Werten und Normen
Innovieren Eigenverantwortliches Er- und Verarbeiten von Neuerungen

1.2. Bedeutung der Leistungsbeurteilung


„Mit der sozialen Mobilität, der Möglichkeit des sozialen Aufstiegs, wurde die
Beurteilungsfunktion des Lehrers immer bedeutungsvoller.“ (Kleber)

Ausbau des Bildungssystems


Erhöhung der Konkurrenz

In einer demokratischen Gesellschaft muss Chancengleichheit Zielgröße sein!

Gegeben oder nicht?

Dreigliedriges Schulsystem?
Bei Gesamtschulvarianten?

1.3. Zielorientierung des Unterrichts


Schule soll: kognitive, affektive und soziale Lernziele erreichen
1
1.4 Leistungs- und Persönlichkeitsbeurteilungen in der Schule

kognitive: Wissen und Können


affektive und soziale: Moral: Haltungen und Einstellungen problematisch

1.4. Leistungs- und Persönlichkeitsbeurteilungen in der Schule

Leistungsbeurteilung in Form von Prüfungs- und Zeugnisnoten


Beratungspflicht geht mit Benotungspflicht einher (Lernberatung,
Schullaufbahnberatung)
Informationsrecht des Schülers über dessen Leistungsstand
Persönlichkeits- und Verhaltensbeurteilungen von Seiten des Lehrers (z.B.
Zeugniskommentare)

2. Grundbegriffe

2.1. Diagnostik

Diagnostik ist ein Teilbereich der Psychologie, der sich mit der Theorie, der Konstruktion und
der Analyse von Diagnoseverfahren befasst. Diagnose ist dabei die Feststellung des
Vorhandenseins oder der Ausprägung von psychologischen Merkmalen (Zimbardo, 1988).

Definition Diagnostik: „Diagnostik [ist] die Lehre von der sachgemäßen Durchführung der
Diagnose; auch die Ausübung der Diagnose.“
„Psychologische Diagnostik ist die Bezeichnung für alle Methoden und deren Anwendung,
welche zur Messung bzw. Beschreibung inter- und intraindividueller Unterschiede verwendet
werden.“ (Dorsch, 1982).

Verschiedenste Methoden
Unterschiede innerhalb einer Person
Unterschiede zwischen mehreren Personen

Definition Pädagogische Diagnostik nutzt Konzepte und Methoden der psychologischen


Diagnostik, um in systematischer und möglichst akkurater Weise Informationen über Personen
zu sammeln, aufzubereiten und zu bewerten. Diese Informationen dienen als Grundlage für
Entscheidungen in Bezug auf Einzelpersonen in pädagogischen Handlungsfeldern, in denen es
um das Lernen, Lehren und Erziehen geht (Seidl & Krapp, 2014).

2
2.1 Diagnostik

Bei jeder Diagnostik geht es um Erkenntnis, also um die Feststellung von:

Sachverhalten
Tatsachen
Eigenschaften oder Merkmalen
Bedingungen etc.

Im Gegensatz zu wissenschaftlicher Forschung ist die diagnostische Erkenntnisbemühung nicht


auf Entdeckung allgemeiner Zusammenhänge gerichtet, sondern auf die nähere
Kategorisierung oder Einordnung des Einzelfalls.

Diagnostik Erkenntnis Einzelfall (nicht allgemein!)

Es wird entweder nach dem Eintreffen Oder das Einzelergebnis ist gegeben
des Einzelergebnisses gefragt und soll erklärt werden

"Wie wird sich die Leistung des Schülers "Warum hat ein Schüler x in bestimmten
x entwickeln?" Leistungsbereichen versagt?"

Unter diagnostischer Tätigkeit wird dabei ein Vorgehen verstanden, in dem unter Beachtung
wissenschaftlicher Gütekriterien beobachtet und befragt wird, die Beobachtungs- und
Befragungsergebnisse interpretiert und mitgeteilt werden, um ein Verhalten zu beschreiben
und/oder die Gründe für dieses Verhalten zu erläutern und/oder künftiges Verhalten
vorherzusagen.

Prozessmodell pädagogisch-psychologischen Handelns (Krapp, 1979):

Das Modell beschreibt Komponenten und Ablaufschritte einer rational gesteuerten Handlung
und markiert darin jene Stellen, die direkt oder indirekt mit diagnostischen Prozessen
verbunden sind.

3
2.1 Diagnostik

In diesem Schema wird zunächst zwischen einer Vorbereitungsphase und einer praktischen
Phase (Realisierungsphase) unterschieden.

a) Vorbereitungsphase (Treatment-vorbereitende Diagnostik):

Es ist notwendig jene Informationen zu gewinnen, die auf dem Hintergrund einer
allgemeinen Problemstellung zu einer begründeten Entscheidung bezüglich der richtigen
pädagogischen Maßnahme (Treatment) beitragen können.

Treatmentvorbereitende Diagnostik:
dient der Ziel- oder Mittel-(Treatment)Entscheidung
z.B. Sonderschule? Ja/Nein

b) Realisierungsphase (Treatment-begleitende u. abschließende Diagnostik:

Es müssen Informationen gewonnen werden, die eine Einschätzung des Erfolges einer
Maßnahme erlauben.

Treatmentbegleitende Diagnostik:
dient der Steuerung des Handlungsablaufes, ggf. Modifikation, Beobachtung von
Nebenwirkungen.
z.B. Lehrerin beobachtet Lernfortschritt bei einem bestimmten Förderkind „formative
Evaluation“.

Schließlich werden Informationen erforderlich, die eine Bewertung des Handlungserfolges


am Ende der Treatmentrealisierung gewährleisten.

4
2.1 Diagnostik

Treatmentabschließende Diagnostik:
dient der Bestimmung des Erfolgs einer Intervention/eines Treatments. Rückmeldung
für Therapeut und Klient, Schülerin und Lehrerin. „summative Evaluation.“

Diagnostisches Handeln kann sich auf folgende Aspekte beziehen:


Aspekte diagnostischen Handelns nach Ingenkamp, 2005
Vergleich Beschreibung eines Verhaltens
Analyse Gründe für ein Verhalten finden (Warum tritt ein Verhalten auf?)
Prognose Vorhersagen eines zukünftigen Verhaltens
Interpretation Ordnen, Bewerten und Gewichten der diagnostischen Informationen
Mitteilung und an die Eltern/Schüler, um durch Rückmeldung zukünftiges Verhalten
Wirkungskontrolle zu beeinflussen (z.B. Zeugnis)

Psychologische Diagnostik wird oft als die Messung interindividueller Unterschiede


bezeichnet, weil die meisten Beurteilungen angeben, inwieweit sich eine Person in Bezug auf
bestimmte Dimensionen von anderen Personen unterscheidet oder ihnen gleicht.

Niveauebenen des Messens:

Nominalskala
• Bestimmung von Gleichheit und Verschiedenheit
• z.B. Einteilung in Klassenstufen, männlich-weiblich
Ordinal- oder Rangskala
• Bestimmung der Rangordnung (größer-kleiner) -> Reihenfolge
• Zeigt nur Reihenfolge und Richtung des Ausprägungsgrades
• z.B. Zensuren, Ranglisten beim Sportwettbewerb
Intervallskala
• Gleiche Skalenabstände (Gleichheit von Intervallen), aber keine Aussage über Proportionen
zwischen Skalenwerten, da der Nullpunkt willkürlich festgelegt ist
• z.B. Temperaturskala
Verhältnis- oder Proportionalskala
• Bestimmung der Gleichheit von Brüchen
• Aussage über Proportionen möglich, da natürlicher Nullpunkt (=Messwert = 0) -> Aussage über
Gleichheit von Verhältnissen
• z.B. Längenmaße, Gewichtsmaße

Merke:

5
2.2 Arten von Diagnostik

Modalwert Mittelwert Median

oder das arithmetische


gibt den häufigsten Mittel wird berechnet als ist der in der Mitte
Wert der der Quotient aus der liegende Wert der
Stichprobenergebnisse Summe der Ergebnisse Rangliste
wieder und Umfang der
Stichprobe

Bsp.: Notenverteilung bei einer Klassenarbeit:

Note 1 2 3 4 5 6
Anzahl 2 5 8 3 2 1

Modalwert: (häufigste Wert): m = 3


Mittelwert (Notendurchschnitt): 3,0
Median (Wert in der Mitte): 3
1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 1
Bei 21 Werten liegt der 11. Wert in der Mitte

2.2. Arten von Diagnostik


Es gibt viele verschiedene Arten von Diagnostik (auch im medizinischen Sinn), hier sind nur
einige unterschieden, die für folgende Kapitel bzw. für die Schule relevant sind.

2.2.1. Standardisierte und nicht-standardisierte Diagnostik

2.2.1.1. Standardisierte Diagnostik

Das Diagnoseverfahren wird auf alle Personen einer ausgewählten, genau beschriebenen
Stichprobe in der gleichen Weise und unter vergleichbaren Bedingungen angewendet.

Schule: Standardisierte Test werden meist von Testverlagen vertrieben, große Stichproben
von Schülern zur Bearbeitung vorgelegt und Gesamtpunktwert mit Normwert einer
Eichstichprobe – z.B. Gruppe gleichen Alters und Schulstufe – (vgl. normorientierte
Diagnostik) verglichen. ( Hohe Objektivität)

2.2.1.2. Nicht-standardisierte Diagnostik

6
2.2 Arten von Diagnostik

Genau das Gegenteil ist der Fall – die Personen werden subjektiv bewertet (bspw. in
mündlichen Prüfungen) und somit nicht in einer großen Gruppe in gleicher Weise und unter
gleichen Bedingungen geprüft bzw. bewertet.

2.2.2. Norm- und kriteriumsorientierte Diagnostik

2.2.2.1. Normorientierte Diagnostik

„Unter normorientierter Diagnostik versteht man einen Untersuchungsansatz mit dem Ziel, das
einzelne Untersuchungsergebnis im Hinblick auf statistische Bezugswerte, also relativ zur
Verteilung der Testergebnisse in einer Bezugsgruppe (Eichstichprobe), auszudrücken und zu
interpretieren.“ (Pawlik, 1982).

Bsp.: Aussage: „Die Fichte ist ziemlich groß.“


Zur Bewertung Vergleichsmaßstab heranziehen (durchschnittliche Höhe von Fichten)

Schule: Schüler hat 60% des Einmaleins richtig Etwas besser als der Klassendurchschnitt

2.2.2.2. Kriteriumsorientierte Diagnostik

Psychologische Diagnostik erfolgt kriteriumsorientiert, „wenn der verwendete


Vergleichsmaßstab für das zu bewertende Charakteristikum eines Beurteilungssachverhaltes
unabhängig festgelegt wird von Informationen über die Verteilung der Ausprägungsgrade
dieses Charakteristikums bei einer Menge dieser Sachverhalte.“ (Petermann, 1995).

Bsp.: „Die Fichte ist ziemlich groß.“


Bewertung unabhängig von Verteilung der Höhe der Fichte, sondern z.B. nach Höhe
des Wohnzimmers, in das der Baum passen soll (externer Standard), kein Vergleich
mit anderen.

Schule: Schüler hat 60% richtig Das kleine Einmaleins sollte mit mind. 90%-iger Sicherheit
beherrscht werden, also schneidet Schüler eher schlechter ab.

2.2.3. Individual- und Umweltdiagnostik


Individualdiagnostik: Einzelne Personen; Selbst- oder Fremddiagnostik

7
3.1 Überblick

Umweltdiagnostik: Soziales Verhalten; Gruppe.


Die Umweltdiagnostik umfasst zudem Eltern- und Lehrerinterviews, Lehrerberichte,
Unterrichtsbeobachtungen, Arbeitsplatzanalysen und den Einbezug anderer
Bezugspersonen (z.B. Hausarzt, Verwandte oder Geschwister)

2.2.4. Schulleistungsdiagnostik

Schulleistungsdiagnostik ist „die systematische Beschreibung und anschließende Bewertung


eines aktuellen Wissens- oder Fähigkeitsstatus von Lernenden bzgl. eines umschriebenen
Inhaltsbereiches“ (Langfeldt & Imhof, 1999).

Funktionen von Schulleistungsdiagnostik nach Heller (1984):


Didaktische Funktion:
Überprüfung unterrichtlicher Maßnahmen, Bewertung des Unterrichtserfolges,
Erfassung von Lerngeschwindigkeiten, Überprüfung von Lernzielen Feedback für
Lehrer (evtl. Unterrichtsoptimierung)
Evaluative Funktion:
Orientierung für Schüler/Eltern über Schulleistung (Schwächen, Stärken,
Lernfortschritte), z.B. underachievement Feedback für Eltern/Schüler
Entscheidungsfunktion:
Schullaufbahnberatung (Selektion, Auslese) und beim Wechsel von Lerngruppen
äußere/innere Differenzierung im Schulsystem

3. Gütekriterien

3.1. Überblick
An die Genauigkeit und Verlässlichkeit von Messergebnissen in der Diagnostik werden
Anforderungen gestellt. Man hat Kriterien entwickelt, die es möglich machen, die Qualität
einer Messung zu beurteilen. Gütekriterien sind als Forderungen an die Methode bezüglich
der:

Testdurchführung: Transparenz, Zumutbarkeit, Störanfälligkeit, Verfälschbarkeit

Testauswertung: Auswertungsobjektivität, Reliabilität, Validität, Bandbreite,


Änderungssensitivität, Informationsausschöpfung

Testevaluation: Ökonomie, Fairness, Akzeptanz, Vergleichbarkeit, Bewährung

8
3.2 Objektivität

Durchführung,
Objektivität Auswertung,
Interpretation

Wiederholungsreliabilität,
Hauptgütekriterien Reliabilität Split-Half-Rel.,
Paralleltestsrel.,
Konsistenzanalyse

Inhaltsvalidität, empirische
Validität Validität, Konstruktval.,
Testfairness

Gütekriterien Normierung

Zützlichkeit &
Zumutbarkeit

Nebengütekriterien Ökonomie

Vergleichbarkeit

Akzeptanz

Die Güte eines Verfahrens ist am größten, wenn diese hohe Objektivität, Reliabilität
und Validität aufweist!

3.2. Objektivität
= Grad, in dem Ergebnisse unabhängig vom Untersucher sind

Ein Test wäre vollkommen objektiv, wenn verschiedene Untersucher bei denselben Probanden
zu gleichen Ergebnissen gelangen (Lienert, 1967) (Interpersonelle Übereinstimmung der
Untersucher.)

Beispiel für objektive Tests: Führerscheinprüfung oder Intelligenztests.

Objektivität ist (wie Reliabilität) ein formales Kriterium, es sagt nichts über den Inhalt
aus!

9
3.2 Objektivität

Durchführungsobjektivität

Arten von Objektivität Interpretationsobjektivität

Auswertungsobjektivität

3.2.1. Durchführungsobjektivität

Gleiche Bedingung für alle Prüflinge und die Untersuchung soll unabhängig von zufälligen
und systemischen Verhaltensvariationen des Untersuchers sein.

Ist das Maß dafür, inwieweit die Ergebnisse eines Tests von der Person des Versuchsleiters
unabhängig sind. Für alle Getesteten gelten die gleichen Anforderungen unter den gleichen
Bedingungen.

Man versucht zu sichern, dass alle Lernenden bzw. Probanden den gleichen Anforderungen
unter gleichen Bedingungen ausgesetzt sind.

Situative Faktoren: Tageszeit, Hilfsmittel, Instruktion, Lärm …


Personale Faktoren: Ermüdung, vorherige Beschäftigung …

Herstellen von Durchführungsobjektivität:

Vereinheitlichung der Aufgabenstellung, der Bearbeitungszeit, der Erläuterung der


Aufgabe, der zulässigen Hilfsmittel, usw.
Gleichheit der Instruktionen für alle Prüflinge (z.B. schriftlich oder mit Tonband)
Strikte Beachtung von Verfahrensregeln

Beispiel: Beim Diagnostischen Rechtschreibtest (DRT 3) werden genaue Anleitungen zur


Aussprache eines Wortes, zum Zeitraum der Testdurchführung und der Zeitdauer gegeben.
Außerdem wird festgelegt, wie der Test einzuführen ist, wie die Sätze zu diskutieren sind
und wie oft ein Wort vorgelesen werden darf.

Positive Wirkung:
Der Testleiter ist eine vertraute Person
Positive und angenehme Atmosphäre

10
3.2 Objektivität

Schwierigkeiten:

Personale Faktoren nur schwer beeinflussbar (z.B. Prüfungsangst), nur durch


Individualisierung ist Objektivität erreichbar
Verstehensprobleme bei formelhaftem Vortragen der Anweisung
Nicht alle Bedingungen der Testdurchführung lassen sich standardisieren, z.B.
gesundheitliche Tagesverfassung der Probanden
Bei mündlichen Prüfungen ist Durchführungsobjektivität automatisch niedriger, da
keine Gleichzeitigkeit gegeben ist.

3.2.2. Auswertungsobjektivität

Ergebnis unabhängig vom Untersucher.

Ist ein Maß dafür, inwieweit gleiches Verhalten einer Testperson stets auf die gleiche Weise
ausgewertet wird.

Verschieden Beurteiler sollten zu gleichen Ergebnissen gelangen.

Die meisten Untersuchungen über die Schwächen der traditionellen Leistungsbeurteilung


beziehen sich auf die mangelnde Auswertungsobjektivität (z.B., wenn verschiedene Lehrer
Klassenarbeiten unterschiedlich bewerten)

Herstellung von Auswertungsobjektivität:

Beurteilungsverfahren mit festgelegten Kriterien – für jede Aufgabe wird genau


festgelegt, was mit wie vielen Punkten bewertet wird nur Auszählung (z.B.
Diktatfehler, Ablesen der Größe einer Person am Maßband)
Beurteilungsverfahren mit geschlossenen Antwortformen (Erhebungsverfahren auf
Multiple-Choice-Basis Auswertung mit Schablonen oder maschinell)
Kriterienkatalog nur Auszählung (z.B. Diktatfehler)

Schwierigkeit:
Bei Aufsätzen o.ä. ist die Auswertungsobjektivität eher negativ beeinträchtigt. Sie erfordern
eine inhaltliche Klassifikation (auch mündliche Prüfungen).

3.2.3. Interpretationsobjektivität

Verschiedene Beurteiler interpretieren das gleiche Auswertungsergebnis gleich.

11
3.2 Objektivität

Ist ein Maß dafür, inwieweit die Ergebnisse eines Tests von den interpretativen Schlüssen
abhängen, die ein Diagnostiker vornimmt. Eine hohe Interpretationsobjektivität besteht, wenn
verschiedene Diagnostiker gewonnene Befunde in gleicher Weise interpretieren.

Aus gleichen Ergebnissen sollten auch die gleichen diagnostischen Schlüsse gezogen werden
(erst hier findet in der Schule Notengebung statt!) Interpretationsobjektivität ist schwieriger
zu erreichen als Auswertungsobjektivität.

Mangelnde Interpretationsobjektivität:

Schüler hat 12 Punkte erreicht Ein Lehrer gibt Note 2, der andere Note 4

Ein Testergebnis kann grundsätzlich nach vorliegenden Normtabellen in die


Leistungsverteilung oder in das erreichte Lernniveau eingeordnet werden, es kann aber auch
notwendig sein, Ergebnisse abzuwägen, zu gewichten und zu bewerten.

Bsp.: Schulleiter entscheidet, ob Kind eingeschult werden kann oder Zusatzförderung braucht
– nach ärztlichen Gutachten, Angaben der Eltern …

Herstellung von Interpretationsobjektivität:

Existenz von festen Regeln für diagnostische Schlussfolgerungen (z.B. normierte


Leistungstests, Fragebögen, Rohwerte aus Tabellen ablesen …)
Einige Daumenregeln zur Notengebung:
o Punktwerte so zusammenfassen, dass sich für die Noten eine
Normalverteilung ergibt
o Positive Bewertung ab der Hälfte der erreichten Punkte zu vier äquidistanten
Klassen zusammenfassen (mit 50% Note 4)
Möglichst umfassende Dokumentation von Datenerhebungen und –analysen

Schwierigkeit:

Je unterschiedlicher die zu verarbeitenden Informationen und je zahlreicher sie sind,


desto schwieriger ist es sie objektiv, d.h. unter Ausschaltung intersubjektiver Einflüsse,
zu interpretieren (z.B. bei Übertritt: Zusammenfassung außerleistungsmäßiger
Faktoren wie Lernbereitschaft, Unterstützung der Eltern …)
Wenn Intuition und Erfahrung des Testleiters einen Schluss begründen

Insgesamt:

12
3.3 Reliabilität

Objektivität ist die notwenige Voraussetzung für die Zuverlässigkeit und Gültigkeit
einer Messung bzw. eines Prüfsystems. Eine Messung, die nicht objektiv ist, kann auch
nicht zuverlässig und gültig sein.

3.3. Reliabilität
Beschreibt die Zuverlässigkeit oder Präzision der Messung.

Unter Reliabilität eines Tests versteht man den Grad der Genauigkeit, mit dem er ein
bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst (Lienert, 1967)

Reliabilität ist ein Maß für die Genauigkeit, mit dem ein Test ein zu messendes Merkmal
erfasst.

Testergebnisse sind normalerweise mit Fehlern behaftet. Ein im Test beobachteter Wert setzt
sich zusammen aus der Summe eines wahren Wertes (konstant, aber nicht messbar) und
eines Fehlerwertes (labil, kann an Gegenstand, Messinstrument oder Beurteiler liegen
Häufiges Messen nötig!)

Bei der Zuverlässigkeit einer Messung im sozialwissenschaftlichen Bereich muss bedacht


werden, dass die Messung nicht zuverlässiger sein kann als die Stabilität des Merkmals
(labiles Merkmal (z.B. Stimmung) ungenauer als stabiles (z.B. Rechtschreibkenntnisse)).

Weiterhin ist klarzustellen, dass die Reliabilität sich immer auf das Testverfahren bezieht
und nicht auf den Probanden!

Reliabilität ist (wie Objektivität) ein formales Kriterium, es sagt nichts über den Inhalt aus!

Der Grad der Zuverlässigkeit einer Messung wird durch den Zuverlässigkeits- oder
Reliabilitätskoeffizienten bestimmt.

Der Zuverlässigkeitskoeffizient r ist ein Korrelationskoeffizient der angibt, in welchem Maß


unter gleichen Bedingungen gewonnene Messwerte über ein und denselben Probanden
übereinstimmen, in welchem Maße das Testergebnis reproduzierbar ist (Lienert & Raatz,
1998).

Kurze Erklärung zum Korrelationskoeffizient:

13
3.3 Reliabilität

Statistische Hilfsmittel, um Zusammenhänge zwischen Werten zu messen bzw. zu überprüfen.


Die Daten werden paarweise zusammengesetzt und mit einem Durchschnitt verglichen.
Ergebnis ist ein Koeffizient zwischen -1 und +1

a) r = +.45
positive Korrelation: Je größer/kleiner Wert x, desto größer/kleiner ist Wert y.
(z.B. Körpergröße – Schuhgröße) .45: mittlerer Zusammenhang

b) r = 0
Kein Zusammenhang zwischen Wert x und y.

c) r = - .80
Negative Korrelation: Je größer/kleiner Wert x, desto kleiner/größer Wert y. (z.B.
Anzahl Regentage – Sonnentage, Leistung – Notenwert). .80: hoher Zusammenhang

Korrelationen machen jedoch keine Aussagen über kausale Zusammenhänge!

Um den Grad der Genauigkeit (also die Reliabilität) eines Verfahrens zu optimieren,
müssen Messfehler minimiert werden. Dazu unterscheidet man zunächst verschiedene Arten
der Reliabilität, die im Folgenden beschrieben werden. Reliabilität wird geschätzt und nicht
gemessen.

14
3.3 Reliabilität

Zeitliche Stabilität eines


Merkmals
Wiederholungsreliabilität
Koeffizient der zeitlichen
Stabilität

Gleichwertigkeit von 2
Testhälften
Split-half-Reliabilität
Koeffizient der inneren
Konsistenz

Gleichwertigkeit von 2
Paralleltests
Paralleltest-Reliabilität

Äquivalenz-koeffizient

Homogenität von
Testitems
Konsistenz-Analyse

Homogenitätskoeffizient

3.3.1. Wiederholungsreliabilität (Test-Retest-Methode)

Erneute Messung nach einiger Zeit.


= zeitliche Stabilität eines Merkmals.

Die Messung wird wiederholt und mit den Ergebnissen der ersten Messung verglichen - dazu
ist allerdings zeitliche Stabilität des Merkmals nötig.

Bsp.:
Mehrmaliges Abwiegen von 1 Liter Milch oder Messen der Größe einer Person
durch wiederholtes Messen.
Wenn man nicht weiß, ob eine Waage genau misst, besteht eine Möglichkeit darin,
die Messung zu wiederholen.

Bei der Wiederholungsreliabilität lässt man also die gleichen Aufgaben von den gleichen
Versuchspersonen zu verschiedenen Zeiten bearbeiten.

Messwert:

15
3.3 Reliabilität

Koeffizient der zeitlichen Stabilität gibt an, wie konstant die Messwerte über die Zeit
ausfallen

Schwierigkeit:

Wird bei der Leistungsmessung selten angewandt, da man bei Wiederholung mit
Übungseffekten rechnen muss Verfälscht die Messung
Gedächtniseffekte: z.B. Erinnerung
Handelt es sich überhaupt um ein zeitlich stabiles Merkmal? (Es sollte zeitlich stabil
sein, damit diese Methode genutzt werden soll) Bei Lernleistung handelt es sich nicht
um ein stabiles Merkmal
Zeit zwischen den beiden Tests

3.3.2. Split-Half-Reliabilität (Testhalbierungsmethode)

Teilung der Testergebnisse im Nachhinein. (Nur ein Testdurchgang)

Um nicht wie oben die zeitliche Stabilität fordern zu müssen, wird bei der Split-Half-
Methode die Aufgabenzusammenstellung halbiert und getrennt ausgewertet, es erfolgt also
nur ein Testdurchgang.

Bsp.: 1 Liter Milch durch Abwiegen von 2 Hälften bestimmen, bzw. Leistung bei Aufgaben
1-10 und 11-20 vergleichen.

Danach lässt sich der Zusammenhang beider Testhälften berechnen (Koeffizient der internen
Konsistenz gibt an, ob die jeweiligen Testhälften gleichwertig sind.)

Der Reliabilitätskoeffizient gibt an, ob die jeweiligen Testhälften gleichwertig sind.


Speed-Test: Hierbei kommt es nur auf die Geschwindigkeit an (z.B. bei
Konzentrationstests). Mit einfachen Items; diese können von allen bearbeitet werden;
Leistungsstärken lassen sich durch unterschiedliche Bearbeitungszeit erkennen.
Testergebnisse werden nach der Testzeit geteilt und dann miteinander korreliert
(erste Viertelstunde vs. zweite Viertelstunde).
Power-/Niveau-Test: Tests mit Aufgaben zu verschiedenem Schwierigkeitsgrad (z.B.
Intelligenztests). Ergebnisse bei gradzahligen und ungradzahligen Items getrennt
berechnen und miteinander korrelieren (Odd-even-Methode)

Messwert:
Koeffizient der internen Konsistenz: Im Grund wird hier überprüft, ob die beiden Testhälften
einander gleichwertig sind.

16
3.3 Reliabilität

Schwierigkeit:

Funktioniert nur bei konsistenten Tests (keine Staffelung nach Schwierigkeit)


Aufmerksamkeitsschwankungen über einen längeren Zeitraum führen dazu, dass die
Fehlerkomponenten beider Testhälften miteinander korrelieren (Widerspruch zu
klassischen Testtheorie)

3.3.3. Paralleltestreliabilität

Verwendung mehrerer gleichartiger Testformen

Hierzu werden zwei oder mehrere verschiedene, aber gleichwertige (parallele)


Aufgabensammlungen, die sich inhaltlich möglichst ähnlich sind verwendet. Sie werden
gleichzeitig, unmittelbar nacheinander oder mit einigem zeitlichen Abstand bearbeitet.

Bsp.: 1 Liter Milch durch Abwiegen mit 2 Waagen bestimmen oder gleichwertige Aufgaben
A und B in einer Schulaufgabe (z.B. Mathe: gleiche Rechenwege, verschiedene Zahlen)

Messwert:
Äquivalenzkoeffizient gibt an, wie gleichwertig die beiden Tests sind.

Schwierigkeit:

Gleichwertigkeit mehrerer verschiedener Tests ist kaum möglich (Behaltenseffekt)

3.3.4. Konsistenzanalyse

Zerlegung eines Tests in einzelne Items

Ein Test wird in seine einzelnen Items (Fragen, die die gleiche Fähigkeit messen) zerlegt und
aus dem Zusammenhang zwischen den Itembeantwortungen wird auf die Messgenauigkeit
rückgeschlossen.

Dies ist
sinnvoll, wenn ein diagnostisches Verfahren aus mehreren Items besteht, die alle
dieselben Fähigkeiten messen.
nicht sinnvoll: wenn ein diagnostisches Verfahren aus strukturunähnlichen,
heterogenen Items besteht.

17
3.3 Reliabilität

Bsp.: 1 Liter Milch durch Abwiegen von vielen kleinen Teilen bestimmen

Messwert:
Homogenitätskoeffizienten

Schwierigkeit:

Instrument muss homogen sein (keine unterschiedlichen Themen/Lernzielhierarchien)

3.3.5. Zusammenfassung
Aus diesen 4 Methoden können Koeffizienten berechnet werden, die zur Abschätzung des
Messfehlers herangezogen werden. Die Reliabilität bzw. der Standardmessfehler sind
wichtige Angaben für die Messgenauigkeit eines Verfahrens. (Es lässt sich ein
Vertrauensintervall um das konkrete Testergebnis berechnen, in dem der unverfälschte Wert
des Probanden liegt).

3.3.6. Herstellung von Reliabilität


Faktoren, die sich auf die Messgenauigkeit und somit auf die Reliabilität eines Tests negativ
auswirken können:

Ungenauigkeit des Messinstruments (z.B. Stichprobenfehler, die bei der Auswahl


der Testaufgaben entstehen können Vorteile/Nachteile bei bestimmten
Aufgabentypen)
Umgebungsfaktoren (z.B. unzureichend gelüftete Räume, Lärmpegel, Beleuchtung,
abgebrochene Bleistifte …) Diese Mängel sind vom Testleiter durch sorgfältige
Planung auszuschalten!
Temporäre Veränderungen des Probanden (z.B. Krankheit, Müdigkeit, Desinteresse,
Sorgen, Stimmungen …)
Ungenaue Durchführung und Auswertung durch den Versuchsleiter (z.B. ungenaue,
nicht eindeutige Arbeitsanweisungen, unklar formulierte Aufgaben)

Diese Faktoren gilt es zu optimieren, um möglichst gute Reliabilität zu erreichen.

Es ist unmittelbar einleuchtend, dass Zuverlässigkeitskoeffizienten z.T. je etwas Anderes


messen. Je größer der Zeitabstand zwischen den Messungen ist, desto stärker können sich
Einflüsse auswirken (Motivierung, zwischenzeitliche Lernergebnisse, …), die nicht mangelnder
Zuverlässigkeit des Messinstruments angelastet werden können.

18
3.4 Validität

Bei sonst gleicher Aufgabenzahl und –qualität können wir daher nach der Split-Half-
Methode die höchsten (r ≥ 0,90) und nach der Methode der zu verschiedenen Zeiten
durchgeführten Parallelformen die niedrigsten (r ≥ 0,80) Zuverlässigkeitskoeffizienten
erwarten.

Insgesamt: Die Reliabilität einer Messung sagt nur etwas darüber aus, wie genau
gemessen wird, aber nicht, was gemessen wird. Aber sie ist Voraussetzung für die
Gültigkeit des Verfahrens!

3.4. Validität

= Der Test misst das, was er messen soll

Die Validität eines Verfahrens sagt etwas darüber aus, ob tatsächlich das Gemessen wird,
was man messen will und nicht irgendetwas anderes (Ingenkamp, 2008).

Beispiel: Misst ein Intelligenztest wirklich die Intelligenz?

„Die Validität eines Tests gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige
Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll oder zu
messen vorgibt, auch tatsächlich misst. Ein Test ist demnach vollkommen valide, wenn seine
Ergebnisse einen unmittelbaren und fehlerfreien Rückschluss auf den Ausprägungsgrad des zu
erfassenden Persönlichkeits- oder Verhaltensmerkmals zulassen, wenn also der individuelle
Testpunktewert eines Probanden diesen auf der Merkmalskala eindeutig lokalisiert.“ (Lienert,
1967)

Validität ist keine generelle Eigenschaft, ein Test kann für einen bestimmten Zweck valide
sein und für einen anderen nicht.

Validität ist (im Gegensatz zu Objektivität und Reliabilität) ein inhaltliches Kriterium!

Validität darf nicht mit Reliabilität verwechselt werden, z.B. Versuch, Intelligenz mit
Meterstab zu messen Es ergibt sich mehrfach das gleiche Ergebnis (z.B. 90cm)
Reliabilität ist gegeben!
Aber natürlich kann Intelligenz so nicht gemessen werden!

Um festzustellen, ob man tatsächlich das gemessen hat, was man messen wollte, braucht man
allerdings ein Kriterium. Je nach Art des Kriteriums unterscheidet man im Allgemeinen drei
bzw. vier Arten von Validität in der Testmethodik:

19
3.4 Validität

Inhaltsvalidität
Empirische Validität
Konstruktvalidität
Testfairness

3.4.1. Inhaltsvalidität

Test (bzw. Items) repräsentiert das zu messende Merkmal optimal.

„Spricht man von inhaltlicher Validität, so nimmt man an, dass ein Test oder dessen Elemente
so beschaffen sind, dass sie das in Frage stehende Persönlichkeitsmerkmal und dergleichen in
optimaler Weise repräsentieren, dass also der Test selbst das optimale Kriterium für das
Persönlichkeitsmerkmal ist.“ (Lukesch, 1998)

Inhaltsvalidität ist zentral in der Schule:

Ein valider Test muss eine repräsentative Stichprobe derjenigen Unterrichtsinhalte umfassen,
deren Kenntnis es zu prüfen gilt. Der Lehrer muss vorher eine inhaltliche Analyse
durchführen:

Diagnostiziert der Test, inwieweit Unterrichtsziele erreicht worden sind?


Werden Ziele durch Testaufgaben angemessen repräsentiert?

Beispiele:

Test über Groß- und Kleinschreibung von Verben Es dürfen keine Schwierigkeiten
wie Schreibung von i, ie, ieh eingebaut sein.

Rechenaufgaben mit Text Es sollten keine zu hohen Anforderungen an


Leseverständnis gestellt werden, um mathematische Fähigkeiten zu prüfen.

Überprüfung der Mathematikkenntnisse der 10. Klasse mit Aufgaben der Algebra
Zur allgemeinen Überprüfung sollte Geometrie nicht fehlen!

Schwierigkeit:

Inhaltsvalidität ist schwer festzustellen.

20
3.4 Validität

3.4.2. Empirische Validität

Aus Ergebnissen kann Verhalten vorhergesagt werden.

Bei der Feststellung der empirischen Validität (auch Kriteriumsvalidität genannt) steht nicht
im Vordergrund, welche Eigenschaften oder Strukturen durch den Test gemessen werden
sollten, sondern ob aus dem Testverhalten ein bestimmtes Verhalten vorhergesagt werden
kann. Sie ist rein auf das Empirische ausgerichtet (Lukesch, 1998).

Nach Cronbach (1970) wir die empirische Validität in eine „predictive validity“
(Vorhersagevalidität) und eine „concurrent validity“ (Gleichzeitgkeitsvalidität) unterteilt, je
nachdem ob das Verhalten, auf das geschlossen wird, in der Zukunft liegt, oder gleichzeitig
(außerhalb der Testsituation nachweisbar) ist.

Man spricht von


innerer Validität, wenn das Kriterium selbst wieder ein Test ist und von
äußerer Validität, wenn das Kriterium kein Test, sondern ein anderer
Verhaltensaspekt ist.

Zusammengefasst:

Gleichzeitigkeitsvalidität: Das Verhalten, auf das geschlossen wird, liegt in der


Gegenwart
Vorhersagevalidität: Das Verhalten, auf das geschlossen wird, liegt in der Zukunft

Beispiele:
Gleichzeitigkeitsvalidität und innere Validität: Intelligenztest A sollte Ergebnisse von
Intelligenztest B vorhersagen können.

21
3.4 Validität

Gleichzeitigkeitsvalidität und äußere Validität: Gültigkeit von Schultests wird mit dem
Grad der Übereinstimmung ihrer Ergebnisse mit Schulnoten ermittelt. Vorgehen
problematisch, da Schultests ja gerade aus Unzulänglichkeit der Schulnote
verwendet werden sollen

Vorhersagevalidität: Test in der Grundschule (z.B. Empfehlung des Grundschullehrers,


Intelligenztests) soll den Oberschulerfolg (z.B. Erfolg / Intelligenz in der 10. Klasse)
vorhersagen.

Schwierigkeit:

Ein Test, der Verhalten zu 100% vorhersagen kann, ist kaum konstruierbar.
z.B.: Intelligenztestverfahren mit dem Ziel, eine Bewährungsprognose für die
Schullaufbahn zu diagnostizieren:
o am Ende der Grundschule: gute Validitätskoeffizienten, da hier eine
Stichprobe aus der gesamten Schülerpopulation gezogen wurde
o zu Beginn der Gymnasialzeit: keine guten Validitätskoeffizienten, aufgrund
der Homogenität der Stichprobe (aufgrund der Gymnasialzuweisung)

3.4.3. Konstruktvalidität

Es wird das Konstrukt gemessen, das man messen will.

Ein Konstrukt ist eine relativ stabile, theoretisch angenommene Eigenschaft, die nicht
beobachtbar ist (z.B. Prüfungsangst, Intelligenz). Die Erfassung von Konstrukten ist nur durch
die Erstellung von Theorien möglich, die festlegen, wodurch sich Konstrukte in der
beobachtbaren Ebene zeigen.

Beispiel: Intelligenz

Durch die Erhebung von messbaren Fähigkeiten (z.B. mentales Rotieren, Ängstlichkeit, …)
und die darauffolgende Einbettung der Ergebnisse in ein Netzwerk von
konstruktspezifischen Theorien („nomologisches Netzwerk“ lassen sich Konstrukte
nachweisen.)

22
3.4 Validität

Man kann nur beobachtbare Fähigkeiten messen und daraus auf die Ausprägung der
Intelligenz schließen.

Beispiel: Prüfungsangst – Wir können z.B. mit einem Fragebogen „Prüfungsangst“ messen.
Ob sie valide gemessen wurde, können wir nur abschätzen, wenn wir überprüfen, ob sich
theoretisch erwartete positive oder negative Beziehungen nachweisen lassen.

Fällt z.B. bei einem Probanden mit hoher Prüfungsangst unter Zeitdruck der
Leistungserfolg besonders stark ab, reagieren intelligente Prüfungsängstliche anders
als weniger intelligente, lassen sich körperliche Begleiterscheinungen (wie Schwitzen
oder Zittern) nachweisen?

Das Instrument ist dann konstruktvalide, wenn die tatsächlich gefundenen Beziehungen mit
dem theoretischen Merkmal hohe Übereinstimmung zeigen.

Schwierigkeit:

Da Konstrukte nicht direkt beobachtbar sind, kann nur schwer festgestellt werden,
welche beobachtbaren Kennzeichen für sie typisch sind.
Verfälschungstendenzen (individuelle Kontrolle der Probanden über die
Testantworten):
o Soziale Erwünschtheit: jeder Proband versucht, ein sozial erwünschtes Bild von
sich zu abzugeben (Intervention durch Lügenskalen, Itempaare, welche das
gleiche Konstrukt erfassen)
o Eigenschaften des Messinstrumentes: wenn eine andere Präsentation der
Inhalte zu anderen Antworten führt (z.B. unklare Formulierungen Tendenz,
eher „Ja“ zu sagen
o Simulationen: Bewusste Vortäuschung von Symptomen (z.B. mit Absicht
Rechtschreibfehler machen, um die Vorteile von LRS zu erhalten)

23
3.4 Validität

3.4.4. Testfairness

„Darunter ist die Forderung zu verstehen, dass die Testitems keinen Probanden oder keine
Probandengruppe benachteiligen dürfen (Lukesch, 1998).

Weiterhin sollte bei diagnostischen Verfahren auf Testfairness geachtet werden. Testitems
dürfen keine Probanden oder keine Probandengruppen benachteiligen.

Beispiele:
Benachteiligung von ausländischen Personen bei sprachgebundenen Intelligenztests
Kulturgebundenheit von Intelligenztests (cultur fair tests: möglichst unabhängig von
Kultur, Bildungsgrad und verbaler Kompetenz)

Schwierigkeit:

Kulturunabhängigkeit nur schwer möglich.

3.4.5. Herstellung von Validität


Um hohe Validität herzustellen, sollten folgende Punkte beachtet bzw. eingehalten werden:

Übereinstimmung von Testinhalt und Unterrichtsinhalt


Eindeutige Arbeitsanweisung und klar formulierte Aufgaben
Operationalisierung der Lernziele (genau Angaben über die notwendige
Lehrtätigkeit, die Inhaltsbeschreibung, das angestrebte Endverhalten mit den
Bedingungen, unter denen es gezeigt werden soll, und den Maßstab, an dem es
gemessen werden soll)
Lehrer sollte inhaltliche Analyse durchführen (Diagnostiziert der Test, inwieweit die
von ihm ausgewählten Unterrichtsziele erreicht worden sind? Werden diese Ziele
durch die Testaufgaben angemessen repräsentiert?)
Genaue Festlegung, welches Verhalten als Kriterium fungieren soll
Validitätsfrage des Tests auf Validitätsfrage des Kriteriums
nicht direkt auf Verhalten schließen, sondern auf eine Eigenschaft, die sich in
verschiedenen, aber funktionell ähnlicher Weise im Verhalten äußern kann

Insgesamt:

Die Validität ist das einzige inhaltliche Kriterium und macht eine Aussage darüber,
ob gemessen wird, was gemessen werden soll. Sie ist ein sehr wichtiges Kriterium für
die Güte einer diagnostischen Messung.

24
3.5 Nebengütekriterien

3.5. Nebengütekriterien
Neben den drei großen Hauptgütekriterien Objektivität, Reliabilität und Validität sollte ein
guter Test auch die weniger wichtigen Nebengütekriterien möglichst gut erfüllen:

Normierung
Nützlichkeit und Zumutbarkeit
Ökonomie
Vergleichbarkeit
Akzeptanz

Die Erfüllung der Nebengütekriterien ist nicht notwendig, aber wünschenswert.

3.5.1. Normierung

Einordnung der Ergebnisse in ein Bezugssystem

Diagnostische Ergebnisse sind nicht aus sich selbst heraus interpretierbar, d.h. Schlüsse
können nur durch Vergleich mit anderen Ergebnissen gezogen werden. Dazu stehen drei
Bezugsgruppen zur Verfügung:

Individuelle (intraindividuelle) Bezugsnorm: Vergleich mit früheren Leistungen


derselben Person. (z.B. Leistungsentwicklung)

Soziale (interindividuelle) Bezugsnorm: Vergleich mit Vergleichsgruppen (z.B.


normorientierte Schulleistungstests …)

Kriteriale (ideale, objektive, lehrzielorientierte) Bezugsnorm: Vergleich mit gesetztem


Kriterium (z.B. Vergleich mit den Anforderungen eines Lernziels)

Genaueres siehe Testnormierung bzw. Bezugsnormen

3.5.2. Nützlichkeit und Zumutbarkeit

Bestehendes Bedürfnis für das Verfahren

25
3.5 Nebengütekriterien

Ein Test ist nützlich, wenn er ein Persönlichkeitsmerkmal misst, für dessen Untersuchung ein
praktisches Bedürfnis besteht. Hohe Nützlichkeit = kein anderer Test misst dasselbe ebenso
gut (Lienert, 1967).

Die Zumutbarkeit ist ein subjektives Merkmal- sie ist das Ausmaß, in dem ein Test die
getestete Person in zeitlicher, psychischer sowie körperlicher Hinsicht beansprucht
(Testkuratorium, 1986).

3.5.3. Ökonomie

Einfach und schnelle Handhabung

Nach Lienert (1967) ist ein Test nur dann ökonomisch, wenn er:

a) eine kurze Durchführungszeit beansprucht


b) wenig Material braucht
c) einfach zu handhaben ist
d) als Gruppentest durchführbar ist
e) schnell und bequem auswertbar ist

3.5.4. Vergleichbarkeit

Übereinstimmung mit ähnlichen Verfahren lässt sich untersuchen

Ein Test ist vergleichbar, wenn

1) eine oder mehrere Paralleltestformen vorhanden sind oder


2) validitätsähnliche Tests verfügbar sind (überprüfen ähnlicher Merkmale)

Vergleichbarkeit dient der Reliabilität und Validität, ist jedoch nicht zwingend notwendig.

3.5.5. Akzeptanz

Verfahren von der Öffentlichkeit anerkannt.

Die Güte eines Tests wird auch von der Öffentlichkeit beeinflusst.

26
4.1 Testmethoden

Akzeptanz = Ausmaß, in dem subjektive Meinungen, Bewertungen oder


gesellschaftspolitische Überzeugungen gegen einen Test angeführt werden.

Bsp.: Absinken der Verkaufszahlen von formellen Schulleistungstests in den 90ern.

4. Methoden der Pädagogischen Diagnostik

4.1. Testmethoden
Allgemeine Definition:
Ein Test ist ein nach bestimmten Methoden entwickeltes und nach bestimmten Regeln
durchzuführendes Untersuchungsverfahren (Ingenkamp & Lissmann, 2008).

„Als Test lassen sich allgemein alle kontrollierten Situationen bezeichnen, in denen
1. Ein diagnostisch relevantes Verhalten durch standardisierte Reize ausgelöst wird und für
die
2. eine Interpretationsvorschrift besteht, die den beabsichtigten Rückschluss von beobachteten
Verhalten auf die Existenz und Ausprägung von Fähigkeiten, Eigenschaften usw. der
Persönlichkeit ermöglicht (Wieczerkowski & Schümann, 1982).

Genauer gefasste Definition für den Bezug zur Pädagogischen Diagnostik:


„Tests sind Verfahren der Pädagogischen Diagnostik, mit deren Hilfe eine
Verhaltensstichprobe, die Voraussetzungen für oder Ergebnisse von Lernprozessen
repräsentieren soll, möglichst vergleichbar, objektiv, zuverlässig und gültig gemessen und

27
4.1 Testmethoden

durch Lehrer oder Erzieher ausgewertet, interpretiert und für ihr pädagogisches Handeln
nutzbar gemacht werden kann (Ingenkamp & Lissmann, 2008).

4.1.1. Klassifikation von Tests:


Unterscheidung von Tests nach:
(1) Testmaterial: Papier- oder Bleistifttests, Manipulationstests,
Materialbearbeitungstests, Bildtests, apparative Tests
(2) Verwendung der Sprache: verbale und nichtverbale Tests
(3) Einzel- oder Gruppentests
(4) Ein- oder mehrdimensionales Verfahren (ein Test aus einem oder mehreren Subtests)
(5) Art des provozierten Verhaltens: Test, die zu typischen oder maximalen Verhalten
führen
(6) Strukturiertheitsgrad: Hoch- oder niedrigstrukturierte Tests
(7) Geschwindigkeits- und Niveautests
(8) Gebundene und frei Antworttypen
(9) Inhaltlichen Gesichtspunkten: Intelligenz- oder Persönlichkeitstests
(10) Testprinzip: projektive oder psychometrische Verfahren
(11) Aptitude Tests oder achievement Tests
(12) objektive und subjektive Tests
(13) prüfende oder entfaltende Verfahren
(14) Schulleistungstests
a. Zielsetzung: summative oder formative Evaluation
b. Art der Normierung: (sozial-)normbezogen oder kriteriumsbezogene
Schulleistungstests
c. Inhaltliche Unterscheidung:
i. Schulleistungstests
ii. Einschulungs- und Entwicklungstests
iii. Intelligenztests
iv. Kreativitätstests
v. Konzentrationstests
vi. Persönlichkeitstests
vii. Tests zur Erfassung der Sozialbeziehung in der Schule

Im pädagogischen Bereich werden vor alle Schulleistungs- und Intelligenztests, Entwicklungs-


und Einschulungstests, Eignungs-, Konzentrations- und Aufmerksamkeitstests, sowie Sozialtests
eingesetzt.

4.1.2. Klassische Testtheorie

28
4.1 Testmethoden

Zentrale Frage: Das Ausmaß von verfälschenden Anteilen bei Messungen. Daher wird sie
auch oft als Messfehlertheorie bezeichnet.

4.1.2.1. Zentrale Fragen der Testtheorie


(nach Langfeldt, 1984)

Fragen konzipiert anhand eines Beispiels eines Schülers, der im Rechtschreibtest 26 von 40
Punkten erreicht hat:

1. Frage nach Reliabilität: Kam der Testwert durch zufällige Einflüsse oder aufgrund
einer überdauernden Fähigkeit der Schüler zustande?

2. Frage nach Validität: Sagt der Testwert etwas über die Rechtschreib-Fähigkeit
des Schülers aus?

3. Frage nach der Objektivität: Kam der Testwert aufgrund vergleichbarer,


kontrollierter Umstände zustande?

4.1.2.2. Grundannahmen der klassischen Testtheorie


(nach Heller, 1984)

1) Existenzaxiom: Zu jedem beobachteten (gemessenen) Wert existiert ein „wahrer“


Wert im Sinne einer bestimmten individuellen Merkmalsausprägung (z.B. Höher der
Schulleistung). Diese wird als Konstante – wenigstens über einen gewissen Zeitraum
hinweg – angenommen.

2) Fehleraxiom: Der Messfehler einer Messung ist eine Zufallsvariable. Für diese gilt,
dass die Summe bzw. das arithmetische Mittel der Fehlerwerte den Wert Null ergibt

3) Verknüpfungsaxiom: Der beobachtbare Wert (Messwert) setzt sich additiv aus


wahrem Wert und Fehlerwert zusammen

Beschrieben werden die aus diesen Axiomen der klassischen Testtheorie abgeleiteten
Formeln, Regeln und Vorschriften unter Objektivität, Rentabilität und Validität.
Genauere Beschreibung siehe Gütekriterien

4.1.3. Item-Response-Theorie
Bezeichnung im deutschsprachigen Raum als probabilistische Testtheorie.

29
4.2 Beobachtungsverfahren

Bietet zahlreiche Neuerungen im Rahmen


o des populationsunabhängigen Messens
o des computerbasierten adaptiven Testens und
o der Veränderungsmessung

Dadurch, dass Testergebnisse trotz unterschiedlicher Aufgabenauswahl miteinander


verglichen werden können, ergeben sich für die Diagnostik sowie die Erforschung
Lernvoraussetzungen und -ergbnissen neue Möglichkeiten

In der Praxis konnte sich dieses Verfahren jedoch noch nicht durchsetzen

4.2. Beobachtungsverfahren

Beobachtung ist das grundlegende Verfahren der empirisch forschenden


Sozialwissenschaften und der Erziehungswissenschaften (Roth, 2001).

Bei allen Beobachtungsverfahren ist der Beobachter das „Messinstrument“ seine


Wahrnehmung ist stark durch Erfahrungen, Bedürfnisse oder Einstellungen beeinflusst. Es
wird zwischen naiver und wissenschaftlicher Beobachtung unterschieden.

Vorbemerkung:

Nicht jedes Verhalten lässt sich in einer Testsituation provozieren


Nicht jeder möchte sich testen lassen
Nicht jeden kann man testen (Kinder, Behinderte)
Testung zu aufwändig, Datenschutzgründe, Persönlichkeitsrechte
Für viele Verhaltensbereiche keine Tests entwickelt man muss auf weniger
überprüfte Verfahren umsteigen

Aus diesen Gründen ist ein Test nicht immer möglich und deshalb ist die Beobachtung
die wichtigste Methode der Pädagogischen Diagnostik

Mit ihrer Hilfe können Informationen erlangt werden, die sonst nicht oder nur schwer erfasst
werden können. Vor allem ist man in einer alltäglichen Situation von Zustimmung und
Kooperation der Beobachteten weitgehend abhängig.

„Beobachtung ist die absichtliche, aufmerksame Art des Wahrnehmens, die ganz bestimmte
Aspekte auf Kosten der Bestimmtheit von anderen betrachtet“ (Graumann, Heller, Nickel
1978).

30
4.2 Beobachtungsverfahren

Bei allen Beobachtungsverfahren ist der Beobachter das „Messinstrument“, seine


Wahrnehmung ist stark durch Erfahrungen, Bedürfnisse oder Einstellungen beeinflusst.

Unbestimmte Reize werden von verschiedenen Personen ganz unterschiedlich interpretiert.


So sagen solche „Beobachtungsergebnisse“ oft mehr über den Beobachter, als über das
Beobachtete aus.

4.2.1. Abgrenzung Beobachtung


Um die wissenschaftliche Methode des Beobachtens von der alltäglichen Beobachtung
unterscheiden zu können haben Greve & Wentura (1997) folgende Merkmale
wissenschaftlicher Beobachtung erarbeitet:

Unterscheidung alltägliche Kennzeichen wissenschaftlicher


Beobachatung von einfacher Beobachtung
Wahrnehmung
• Absicht, Annahmen zu überprüfen • beabsichtigte Auswertung
• systematische Selektion erhobener Daten
bestimmter Aspekte • Kriterien der Replizierbarkeit und
Objektivität

4.2.2. Arten der Beobachtung

naiv vs. systematisch

teilnehmend vs. nicht-


teilnehmend
Arten der Beobachtung

fremd vs. selbst

Feld vs. Labor

offen (wissentlich) vs.


verdeckt (unwissentlich)

kontinuierlich vs.
diskontinuierlich

technisch vermittelt vs.


technisch unvermittelt

31
4.2 Beobachtungsverfahren

4.2.2.1. Naive vs. systematische Beobachtung

Naiv Systematisch

frei, unsystematisch strukturiert

ungesichertes "Zuschauen", d.h. ohne klare Klärung des Ziels, des Zeitpunktes, der
Zielsetzung, Gelegenheitsbeobachtung Methode, des Instruments, etc.

Problem: subjektive Verzerrung erleichtert die Vergleichbarkeit und die


Qualifizierung der Informationen

Problem: erfasst nur Ausschnitt des


Gesamtverhaltens

4.2.2.2. Teilnehmende vs. nicht-teilnehmende Beobachtung

teilnehmend nicht-teilnehmend
Versuchsleiter ist involviert in Geschehen Wahrung einer kritischen Distanz zum
und interagiert mit den Versuchspersonen Geschehen
(Vpn)
Problem: u.U. mangelnde Distanz Problem: Vpn fühlen sich beobachtet und
zeigen u.U. nicht das gewünschte Verhalten

Aber: Verhalten der Vpn soll durch das Gefühl der Beobachtung nicht gestört werden.

Lösung: Beobachter gibt sich z.B. als Gruppenmitglied aus („Under cover“)
Problem: objektiver Status ist gefährdet, späte Protokollierung, vgl. verdeckte Beobachtung

4.2.2.3. Offene vs. verdeckte Beobachtung

offen verdeckt

• wissenschaftlich • unwissenschaftlich
• Vpn weiß, dass sie beobachtet • Vpn weiß nicht, dass sie
wird beobachtet wird
• Problem: u.U. wird • Problem: ethische Bedenken
gewünschtes Verhalten
unterdrückt

32
4.2 Beobachtungsverfahren

4.2.2.4. Technisch vermittelte vs. technisch unvermittelte Beobachtung

• Einsatz von Videokameras, Tonbändern etc.


• Vorteil: wiederholtes Betrachten des Materials
technisch möglich (Reliabilität), keine Überforderung des
vermittelt Beobachters, dokumentarischer Wert
• Nachteil: subjektive Kamera (Bildauswahl durch
Kameramann), evtl. schlechte Qualität

technisch vermittelt • ohne technische Hilfsmittel

4.2.2.5. Kontinuierliche vs. diskontinuierliche Beobachtung

Kontinuierlich Diskontinuierlich
Dauerbeobachtung Zeitstichprobenpläne
Problem: Überforderung des Beobachters, Problem: erfasst u.U. seltenes oder
in Schule kaum möglich unauffälliges Verhalten nicht

4.2.2.6. Feld- vs. Laborbeobachtung

Feldbeobachtung Laborbeobachtung

Alltagssituation künstliche Situation


Vorteil: Schaffung optimaler
Problem: u.U Störbedingungen Beobachtungsbedingungen
(Kontrolle der Störbedingungen)
Problem der externen Validität
(Übertragbarkeit auf
Alltagssituationen),
Verhaltensänderung wegen
Beobachtung/neue Umgebung

33
4.2 Beobachtungsverfahren

4.2.2.7. Fremd- vs. Selbstbeobachtung

Fremdbeobachtung
• Problem: kein direkter Zugang zum "Innenleben"

Selbstbeobachtung
• z.B. Befragung, Tagebücher
• Problem: Verzerrung

4.2.2.8. Fazit

Hinsichtlich der Gütekriterien erzielen folgende Beobachtungsverfahren die besten


Ergebnisse:
systematische
teilnehmende und
verdeckte Beobachtungen

Aber: Pädagogen werden in ihrer Praxis meist auf:


naive
teilnehmende und
diskontinuierliche Beobachtungen zurückgreifen müssen

4.2.3. Unterrichtsbeobachtung und Interaktionsdiagnostik

„Der Begriff Interaktion bezeichnet sowohl


- direkte (konkrete, face-to-face, vis-à-vis) Begegnungen als auch
- indirekte (abstrakte, anonyme, vermittelte) soziale Beziehungen von Individuen,
in denen diese Handlungen wechselseitig aufeinander abstimmen […]“ (Merkens & Seiler,
1978)

Nach Lukesch (1998) sind Interaktionsanalysen alltägliche und wissenschaftliche Versuche,


Informationen über zwischenmenschliche Beziehungen (Interaktionen) unter spezifischer
Fragestellung zu gewinnen und zu verarbeiten.

Beispiele für Beobachtungskategorien für den schulischen Unterricht:

34
4.2 Beobachtungsverfahren

Sprachzeiten Lehrer/Schüler: Nach Claus, 1954: 80% Lehrer Schüler: 20% aller
sprachlichen Interaktionen

Wartezeiten auf Schülerantworten

Impulse des Lehrers: Häufigkeit. offene Fragen, Suggestivfragen,


Provokationsfragen, Lehrerecho (41-88 Lehrerfragen/pro Stunde)

Einsatz von Verstärkern: Häufigkeit: positive/negative Verstärkung, Ignorieren …

Standort des Lehrers: Dauer: am Pult, an der Tafel, bei dem einzelnen Schüler …

Arbeitsformen bzgl. didaktischer Vorgaben: Dauer: Lehrervortrag, Gruppenarbeit

4.2.4. Beobachtungssysteme/Interaktions-Analyse-Systeme

Unter einem Beobachtungssystem oder Kodierschema versteht man eine Menge von Regeln,
die spezifizieren, welche Verhaltensaspekte jeweils beachtet und registriert werden müssen
(Krohne & Hock, 2007).

4.2.4.1. Entwicklung von Beobachtungssystemen

Entwicklungsschritte nach Medley & Mitzel, 1963:

a) Abgrenzung des Beobachtungszieles und des interessierenden Verhaltensbereiches


b) Entwurf eines vorläufigen Kategoriensystems, das durch Experten, … auf seine
inhaltliche Validität überprüft wird
c) Beobachtungsitems positiv formulieren, im Präsens und in der Einzahl. Festlegen, ob
die Intensität eines Verhaltens oder die Häufigkeit des Vorkommens beurteilt
werden soll
d) Plan über Ablauf der Beobachtung anfertigen
e) Beobachtungstraining
f) Pretest, Prüfung der intersubjektiven Übereinstimmung
g) Durchführung der Beobachtung, Bestimmung der Validität

Nach Mees (1977) kann man die Beobachtungssysteme unterscheiden in Verfahren der:
Isomorphen Deskription: möglichst vollständig und unveränderte Wiedergabe des
Beobachteten faktisch unmöglich, da Verhalten immer unterschiedlich

35
4.2 Beobachtungsverfahren

kategorisiert werden kann und

Reduktiven Deskription: Beschränkung auf interessierende Verhaltensklassen


o Weitere Differenzierung nach Cranach & Frenz (1969):
Zeichensysteme: Ein oder mehrere Ereignisse werden nach der
Häufigkeit ihres Auftretens festgehalten
Kategoriesysteme: Jede auftretende Verhaltensweise wird einer
Kategorie zugeordnet
Schätzskalen: Verhalten wird nach einem bestimmten Merkmal in
quantitativer Weise beurteilt

4.2.4.2. Kategoriesysteme

unterteilen den jeweils interessierenden Verhaltensbereich erschöpfend in einander


ausschließende Klassen
für jedes Auftretende Verhalten ist ein Kode vorgesehen
man erhält vollständiges Protokoll des Geschehens

4.2.4.2.1. FIAC
Interaktions-Analyse-System: Flanders Interaction Analysis Categories (FIAC) (Flanders,
1970)
Ist das bekannteste Kategoriesystem

abgeleitet aus dem allgemeinen IPA von Bales


eigens zur Beobachtung im schulischen Raum konzipiert
es wird sowohl Schüler, als auch Lehrerverhalten analysiert
Beschränkt sich auf verbale Verhaltensweisen im Unterricht (kein nonverbales
Verhalten!)
Alle 3 Sekunden soll eine Verhaltensweise kodiert werden

4.2.4.2.1.1. Aufbau

Unterscheidung zwischen Antworten (passive Handlungsweisen) und Initiativen (aktive


Handlungsweise):

Kategorien nach Flanders (1970):


Antwort (indirekter Einfluss) Initiative (direkter Einfluss)
Lehrer 1. Akzeptiert Gefühle: Akzeptiert und 5. Lehrervortrag: Gibt Fakten oder
klärt eine Haltung oder den Gefühlston Meinungen über Inhalt oder

36
4.2 Beobachtungsverfahren

eines Schülers in nicht-bedrohlicher Vorgehen; drückt seine eigenen


Weise. Gefühle können positiv oder Ideen aus, gibt seine eigene
negativ sein. Gefühle sind in dieser Erklärung, oder beruft sich auf eine
Kategorie enthalten andere Autorität als einen Schüler
2. Lobt und ermutigt: Lobt oder 6. Gibt Anweisungen:
ermutigt eine Schüler-Aktivität oder – Anweisungen oder Befehle, von
Verhalten. Witze, die Spannung denen erwartet wird, dass sich ein
abbauen, jedoch nicht auf Kosten eines Schüler an sie hält
anderen Individuums; Kopfnicken oder
Aussagen wie Hm? oder „Mach weiter“
sind in dieser Kategorie enthalten.
3. Akzeptiert oder verwendet Schüler- 7. Kritisiert oder rechtfertigt
Ideen: Klärung, Aufbau oder Autorität: Aussagen, deren Ziel es
Weiterentwicklung von Ideen, die von it, Schülerverhaltensmuster von nicht-
einem Schüler vorgeschlagen wurden. akzeptabel zu akzeptabel zu
Lehrerseitiges Ausbauen von Schüler- ändern; jemandem ernste Vorwürfe
Ideen ist in dieser Kategorie enthalten, machen; sagen, warum der Lehrer
aber wenn mehr eigene Lehrer-Ideen das tut, was er tut; extreme
eingebracht werden, wechsle zu Selbstreferenz
Kategorie 5
4. Stellt Fragen: Das Stellen einer Frage bzgl. Inhalt oder Vorgehen, basierend
auf Lehrer-Ideen, mit der Absicht, dass ein Schüler antwortet
Schüler 8. Schüler-Rede: Antwort: Schüler- 9. Schüler-Rede: Initiierung:
Rede in Antwort auf den Lehrer. Der Schüler-Rede, die von ihnen initiiert
Lehrer initiiert den Kontakt, erbittet eine wird. Ausdruck eigener Ideen;
Aussage vom Schüler oder strukturiert Anregung eines neuen Themas;
die Situation. Die Freiheit, eigene Ideen Freiheit, Meinungen und einen
auszudrücken, ist eingeschränkt Argumentationsausgang zu
entwickeln, z.B. durch das Stellen
durchdachter Fragen; über die
existierende Struktur hinausgehen
10. Stille und Verwirrung: Pausen, kurze Zeiträume der Stille und Zeiträume
der Verwirrung, in denen die Kommunikation vom Beobachter nicht verstanden
wird.

4.2.4.2.1.2. Auswertung

Alle drei Sekunden Kodierung einer Verhaltensweise, d.h. die Beobachtungseinheit ist
zeitlich definiert und nicht nach abgeschlossenen Verhaltenssequenzen.

Beispiel einer Kodierung über 60 Sekunden:

37
4.2 Beobachtungsverfahren

Der Lehrer stellt eine Frage (4) Schüleräußerung-Antwort (8) Lehrer akzeptiert oder
verwendet Gedanken der Schüler (3) Lehrervortrag (5) …

Diese Kodierungen werden, wie bei IPA in eine 10x10 Matrix eingetragen:
Durch die Matrix können dann Zeilen- und Spaltensummen sowie
Übergangswahrscheinlichkeiten bestimmt werden

Bei der Auswertung in einer 10x10 Matrix wird jede vorhergehende Kategorie mit einer
nachfolgenden in eine Matrix eingetragen
Erstes Glied: Zeile
Zweites Glied: Spalte LEHRER SCHÜLER
LEHRER
SCHÜLER

Fragen bei der Auswertung können sein:

? Spricht der Lehrer zu viel


? Wie reagiert Lehrer auf Einfälle der Schüler
? Ist der Lehrer in seinem Verhalten eher „direkt“ oder „indirekt“

4.2.4.2.1.3. Kritik

Ungleichgewicht zwischen Lehrer- und Schülerkategorien


Verhaltenskategorien sind z.T. recht global formuliert keine individuenspezifische
Auswertung

38
4.2 Beobachtungsverfahren

Gutes System um Rückmeldung über Unterricht zu erhalten, aber hierfür werden


geschulte Beobachter benötigt

4.2.4.3. Zeichensysteme

Annahme: bestimmte beobachtbare Verhaltensweisen sind für einen ganzen


Verhaltensbereich symptomatisch
Verhaltensäußerungen werden im Voraus beschrieben
Die Häufigkeit des Auftretens des Verhaltens wird von einem Beobachter
aufgezeichnet
Es kann eine große Anzahl spezifischer Verhaltensäußerungen (50 bis 70)
aufgeführt werden, die der Beobachter dann in einem bestimmten Zeitabschnitt
beobachtet und abstrichelt
Zeiteinheiten für eine Beobachtungsphase meist relativ kurz (3 – 5 Minuten)
Wichtig bei Indexsystemen:
o Kategorien können mehrmals auftreten
o Es müssen nicht alle Kategorien vorkommen

4.2.4.3.1. BASYS
(Beobachtungssystem zur Analyse aggressiven Verhaltens in schulischen Settings)
(nach Wettstein, 2008)

♦ Mappe mit Manual


♦ Kategorienheft
♦ 2 CDs zum Beobachtungstraining
♦ Auswertung
♦ Plakat „erwünschtes Zielverhalten“
♦ Beobachtung ist zweigeteilt:
o Version für Lehrkräfte
o Version für Fremdbeobachter

8 Kategorien werden unterschieden für den Lehrerbeobachtungsbogen:


1) Oppositionelles Verhalten gegen die Lehrkraft (z.B. dazwischenrufen)
2) Aktiv gegen Fremdperson, offen-direkt (z.B. beschimpfen)
3) Aktiv gegen Fremdperson, verdeckt-hinterhältig (z.B. falsche Anschuldigung)
4) Aggression gegen Gegenstände (z.B. Türknallen)
5) Partei ergreifen gegen Fremdperson; offen-direkt (z.B. höhnisch Lachen)
6) Partei ergreifen gegen Fremdperson; verdeckt-hinterhältig (z.B. verst. Grinsen)
7) Unkodierbar: Restkategorie (nicht zu 1-6 zuordenbares Verhalten)

39
4.2 Beobachtungsverfahren

8) Unkodierbar: Unsichtbar (nicht klar erkennbares Verhalten)

Kategorien für Fremdbeobachterbogen:

Es werden dieselben acht Kategorien verwendet wie beim


Lehrerbeobachtungsbogen
Zusätzlich:
o Unterrichtliches Setting (7 Möglichkeiten)
o Funktion für die Schüler (7 Möglichkeiten: z.B. Abwehr, Überforderung…)
o Reaktion der Lehrkraft (5 Möglichkeiten, z.B. neutral, strafandrohend, …)

Gütekriterien:

1) Objektivität: Prozentsatz der richtig kodierten Ereignisse:


a. Lehrkräfte: 82%
b. Fremdbeobachter: 92%

4.2.4.4. Schätzskalen/Ratingskalen

Eigentlich eher eine Form von Beurteilungsverfahren


Häufigkeit und Intensität(Grad) meist theoretisch beschriebener Verhaltensausschnitte
werden auf einer Skala eingeschätzt

4.2.4.4.1. Schätzskala für das Ausmaß von Wertschätzung/Geringschätzung im


Verhalten von Lehrern gegenüber Schülern
(nach Tausch & Tausch, 1971)

Dient der Beurteilung von Lehreräußerungen


Skala: von -3 (beleidigend) bis 3 (warmherzig) 7 Stufen
Nur Fremdbeobachtung
Einschätzung für z.B. eine ganze Unterrichtsstunde vornehmen (z.B. Skala 2 wählen)

4.2.5. Probleme bei der Beobachtung


Beobachtungsfehler die auftreten können sind nach Atteslander (1975) folgende:

Aufmerksamkeits- und Ermüdungsprobleme


Zu frühe Wertung
Identifizierung mit den Autoren

40
4.3 Beurteilung

Verfälschung durch kognitive Vorgänge


Missachten von Hinweisen
Nicht repräsentative Auswahl der Beobachtungsperiode, usw.

4.2.6. Gütekriterien bei Beobachtungsverfahren

Geringe Objektivität
Haloeffekt: überdurchschnittlich hohe Korrelation der Urteile eines Beobachters
zwischen verschiedenen Merkmalen einer Person
Keine Reliabilität, da meist keine Parallelverfahren existieren
Meist Validität gegeben, da sich Beobachtung nur auf ein konkrete Verhalten
bezieht

4.2.7. Beobachtungsfehler

1. Aufmerksamkeit/Ermüdung schlechtere Beobachtung


2. Zu frühe Wertung Kategorisierung
3. Beobachtungsbericht als Bericht vermittelt ein unzutreffendes Bild
Fehlerquelle von beobachteter Person, z.B. durch
Verkürzungen und Kontrastierungen
4. Identifizierung mit den Akteuren Aspekte werden anders beobachtet
5. Missachtung von Hinweisen Bei der Bearbeitung bspw. Des
Beobachtungsbogens
6. Nicht repräsentative Auswahl der Zu kurze Beobachtungsdauer, Beobachtung
Beobachtungsperiode in einer außergewöhnlichen
Unterrichtssituation, …

4.3. Beurteilung

4.3.1. Abgrenzung von Beobachtung & Beurteilung

Def. Beurteilung: Beurteilung ist die abstrahierende Beschreibung des Verhaltens mit
anschließender Deutung des Verhaltens, wobei ein Vergleich der Beobachtungseinflüsse mit
Milieueinflüssen und Lebenslaufdaten stattfindet.

Als Inferenz bezeichnet man die Wertungs- und Interpretationsprozesse, die sich an eine
Wahrnehmung anschließen (können) (Ingenkamp, 2005).

41
4.3 Beurteilung

Beobachtung Beurteilung
niedriger Inferenzgrad hoher Inferenzgrad
Bsp.: Registrieren der Meldung eines Bsp.: Ist das Verhalten des Schülers als
Schülers in einer Unterrichtsstunde Meldung zu interpretieren oder hat er sich
nur gestreckt? Meldet sich dieser Schüler
viel oder wenig?

Beobachten und Beurteilen stehen in einem engen Zusammenhang zueinander, da


Beurteilen Beobachten voraussetzt; dennoch ist beides klar zu trennen!

Beispiel Unterscheidung Beobachtung vs. Beurteilung:

BEOBACHTUNG BEURTEILUNG
„Der Klient hat während des 20-minütigen
„Der Klient zeigt eine extreme Blickaversion
Gesprächs den Therapeuten zweimal für
gegenüber dem Therapeuten“
jeweils eine halbe Sekunde angeschaut“

Nach den Vorstellungen des deutschen Bildungsrates (1970) umfassen die Aufgaben von
Lehrern das Lehren (Vermittlung von Kenntnissen), das Beurteilen (Feststellen von Lernerfolg
und –misserfolg), das Beraten (Bildungs-, Berufsberatung …), das Erziehen (Weitergabe
von Wert- und Normvorstellungen) und das Innovieren (eigenverantwortliches Erarbeiten
und Verarbeiten fördern und fordern).

Schülerbeurteilung ist ein zentrales Problem, aber ein wichtiger Bestandteil des
Schulsystems.

„Nicht was Schüler lernen, bestimmt ihren Schulerfolg, ihre Lebenschancen, sondern wie sie
zensiert werden.“ (Ingenkamp, 1962)

4.3.2. Beurteilungsverfahren

Jede Beurteilung setzt eine Beobachtung voraus, deshalb sind diese beiden Bereich eng
miteinander verknüpft.

Es gibt mehrere Möglichkeiten und Arten der Beurteilung (z.B. Selbst- oder
Fremdbeurteilung)

4.3.3. Beurteilung im Unterricht/Urteilsfehler

42
4.3 Beurteilung

Beurteilungsfehler, Beobachtungsfehler und Fehler bei mündlichen (und schriftlichen)


Prüfungen überschneiden sich in allen Bereichen.

4.3.4. Beurteilungsfehler

Probanden, die der Beurteiler kennt,


1. Güte- und Mildefehler
werden besser beurteilt
Allgemeine Tendenz, in vielen Fällen eine
2. Großzügigkeitsfehler
zugute Beurteilung abzugeben
Vermeidung extremer Positionen bei der
3. Fehler der zentralen Tendenz Bewertung Bevorzugung mittlerer
Positionen
Merkmal einer Person „strahlt“ auf die
Bewertung anderer Merkmale aus, obwohl
4. Halo-Effekt diese nichts damit zu tun haben (z.B. Brille
klug; gute Leistungen in Mathe gute
Leistungen in Physik
Tendenz des Beurteilers Merkmale, der er
für logisch zusammenhängend ansieht
5. Logischer Fehler
ähnlich zu bewerten (z.B. Wer lügt, der
stiehlt auch)
Zu beurteilende Person wird gegenteilig
zur eigenen Person beurteilt (z.B.
6. Kontrastfehler
Ordnungsfanatiker beurteilt andere leichter
als unordentlich)
7. Reihungs- und rhythmische Periodisches Absinken und Ansteigen der
Schwankungseffekte Bewertungen
Beurteiler geht von zusammengehörigen
8. Soziale Stereotypen sozialen Sachverhalten aus (z.B. Jungen
sind aggressiver als Mädchen)

Weitere Urteilsfehler im Unterricht:

1. Fachfremde Beurteilungskriterien Nur die Leistungen sollten bewertet


werden, die für das Fach relevant sind,
nicht z.B. das Textverständnis, das in Mathe
beim Sachrechnen indirekt mitbewertet
wird
2. Schulartspezifische Benotung Tendenz zu strengerer Benotung, je höher
die weiterführende Schule ist

43
4.4 Einsatzmöglichkeiten der Beobachtung/Beurteilung

3. Fächerspezifische Benotung Aufgrund der gesellschaftlichen


Wertschätzung gelten die einzelnen Fächer
nicht gleich viel, z.B. Mathe vs. Musik
4. Klassengröße Die zufällige Platzierung in einer kleinen
oder großen Klasse kann für das spätere
Leben von großer Bedeutung sein
5. Schulstufenbezogene Die Notengebung verschärft sich nach
Zensurierungstendenzen Hopp und Lienert in den ersten vier
Schuljahren wegen des anstehenden
Übertritts wesentlich
6. Länderspezifische Differenzierung Siehe Abiturnoten in den verschiedenen
Bundesländern
7. Klasseninterne Bezugsysteme Versetzungsentscheide, Abschlusszeugnisse
usw. beziehen sich zumeist nicht auf
vergleichbare Merkmale des Individuums,
sondern geben zumeist die Rangposition
des Schülers wieder, in welche der Schüler
zufällig hineingeraten ist

4.4. Einsatzmöglichkeiten der Beobachtung/Beurteilung

WAS kann erfasst werden?

Situation

Verlauf
Untersucht
werden kann
Vergleich

Sequenz

Situationserfassung: Feststellung der Situation in einer Klasse zu einem Zeitpunkt (z.B.


Wie hoch ist der Redeanteil von Lehrer x in Klasse Y an diesem Tag?)

Sequenzanalyse: Erfassung von Verhaltensabfolgen (z.B. Wie reagieren die Schüler


auf den hohen Redeanteil von Lehrer X?)

44
4.5 Gesprächsmethoden

Vergleichsuntersuchung: Vergleiche zwischen verschiedenen Klassen, Lehrern und


Zeitpunkten (z.B. Wie viel redet Lehrer X im Vergleich zu Lehrer Y?)

Verlaufsanalyse: Vgl. zwischen unterschiedlichen Zeitpunkten innerhalb einer Klasse


(z.B. Wie hoch ist der Redeanteil von Lehrer X in Klasse Y nach 3 Wochen?)

WER kann erfasst werden?

Lehrer Schüler

Selbstbeurteilung Fremdbeurteilung Selbstbeurteilung Fremdbeurteilung

Selbstbeurteilung der Lehrkraft: z.B. Berufseignungstest für das Lehramtsstudium,


Rauin et al., 1994

Fremdbeurteilung von Lehrkräften: z.B. durch Experten: Einschätzung von


Lehreräußerungen, Tausch & Tausch (1970); z.B. durch Schüler:
Lehrerverhaltensinventar, Lukesch (1982)

Selbstbeurteilung von Schülern: z.B. Skalen zur Selbstbeurteilung von schulischen


Verhaltensauffälligkeiten und psychosomatischen Störungen, Helmke (1978)

Fremdbeurteilung von Schülern: durch Experten, Eltern, Lehrkräfte; z.B. Beurteilung


durch Experten: Instrument zur Erfassung von Verhaltensstörungen, Thalmann (1976)

WOZU dient die Beobachtung/Beurteilung?

Selbstkontrolle für Lehrkraft


fördert Bewusstwerdungsprozesse über Methodik usw. der Lehrkraft
ermöglicht die Einübung von neuen Methoden
Klärung von Lehrer-Schüler-Konflikten
Klärung von Verhaltensproblemen bei Schülern
Effizienzkontrolle nach Verhaltensänderungen

4.5. Gesprächsmethoden

45
4.5 Gesprächsmethoden

Gespräch: Vorgehensweise der Informationssuche, bei der der Proband durch gezielte
Fragen zu Angaben über sich und sein Umfeld angeregt werden soll (Fisseni, 2004).

Wichtig, wenn es in einem Bereich keine angemessenen Erfassungsinstrumente gibt oder


wenn der Proband keinen Fragebogen ausfüllen will oder nicht ausfüllen kann. (z.B.
aufgrund mangelnder Lesefähigkeit).

4.5.1. Arten im Überblick

Anamnese

Interview Exploration

Die Anamnese, die Exploration und das Interview haben unterschiedliche Schwerpunkte, die
man aber nicht trennscharf voneinander abgrenzen kann.

4.5.2. Anamnese
(Griechisch: in Erinnerung rufen, „Vorgeschichte eines Tatbestandes“)

„Anamnese ist das Insgesamt der Mitteilungen eines Probanden oder einer wesentlichen
Bezugsperson über seine Persönlichkeit, Lebensgeschichte, soziale Bezüge, Erlebnisse
Handlungen, Einstellungen und Wünsche im Allgemeinen(!) oder in speziellen Bereichen.“
(Schraml, 1964)

Wichtige anamnetische Fragen in schulischen Beratungsfällen:

Alter des Kindes


Klasse des Kindes
Geschwister, Eltern (alleinerziehend? Beruf?)
Wohnverhältnisse
Freunde, Hobbies
Schulleistungen

46
4.5 Gesprächsmethoden

Einstellung zur Schule


Probleme in der Schule

ABER: Nur notwendige Fragen stellen

4.5.2.1. Formen von Anamnese:


(nach Schraml, 1964)

a) Biographische Anamnese: relevante Aspekte der Lebensgeschichte werden eruiert


(objektive + subjektive Daten)
=> Angaben sind das Produkt subjektiver Erinnerung und Verarbeitung von
Ereignissen (nicht unbearbeitete Wirklichkeit)

Strukturierung: Chronologie des Lebenslaufs oder inhaltliche Aspekte (Sexualität,


Partnerschaft)

b) Selbst- oder Fremdanamnese: Selbst- oder Fremdanamnese über Zielpersonen

c) Partielle Anamnese: nur Teilbereiche des Lebenslaufs

d) Lebenslaufanalyse: anamnetische Daten + Indikative Angaben (Dokumente,


Tagebücher, Akten)

Alles nur beschränkt aussagekräftig Kombination mit anderen Verfahren

4.5.3. Exploration
(lat.: ausforschen, ermitteln, „einer Sache auf den Grund gehen“)

Eine Exploration ist eine fachkundig vorgenommene psychologische Befragung (Undeutsch,


1983).

Dabei gilt:
individuelle Orientierung durch Interviews möglich; nicht standardisiert
Fragen können persönlichkeitsspezifisch erfasst werden; einzelner Gesprächsführer
keine Inhalte werden aufoktroyiert
Individuum ist durch keine Methodik eingeengt

relativ frei, aber Gesprächsleitfaden ist wichtig

47
4.5 Gesprächsmethoden

z.B. Schüler theoriegestütztes Modell der Verursachung von Lerngeschwindigkeiten


vorlegen und anhand dieser Vorlage die Selbstinterpretation des Schülers erfassen

Anamnese
• Bewusstseinsnahe Aspekte der Lebensgeschichte

Exploration
• ganzheitlicher tiefergehender Anspruch

4.5.4. Interview

Unter Interview als Forschungsinstrument versteht man ein planmäßiges Vorgehen mit
wissenschaftlicher Zielsetzung, bei dem die Versuchsperson durch eine Reihe gezielter Fragen
oder mitgeteilter Stimuli zu verbalen Informationen veranlasst werden soll (Scheuch, 1962).

Die Befragung ist in der Form des Interviews eine der ältesten und auch heute noch am
häufigsten benutzen diagnostischen Methoden.

Man kann dabei die Beobachteten oft direkt nach ihren Interessen und Einstellungen
befragen. Der Befragung können objektive (z.B. Fakten, Angaben zur Person) und subjektive
(z.B. Meinungen, Einstellungen) Daten erhoben werden.

Als diagnostisches Instrument sind Gespräch und Befragung vor allem in der Soziologie und
der Psychologie entwickelt worden.

4.5.4.1. Formen des Interviews

a) standardisiertes alle Fragen sind vor dem Gespräch


Interview festgelegt, müssen in gleichem Wortlaut und
in gleicher Reihenfolge vorgelegt werden,
Geordnet nach Grad der

Antworten können vorkonstruiert sein


Vorstrukturierung

Fragebogen in Gesprächsform

Vorteile:
Aufmerksamkeit der Probanden kann
kontrolliert werden
Keine Lesefähigkeit notwendig, im
Vergleich zum Fragebogen

48
4.5 Gesprächsmethoden

Eventuelle Missverständnisse können


geklärt werden
Hohe Reliabilität und einfache
Auswertung
b) halbstandardisiertes Gesprächsthemen vorgegeben, Fragen nicht
Gespräch im Detail formuliert; Antworten sind offen
c) problemzentriertes Möglichkeit der offenen Befragung oder
Interview ausgewählter Themen

Ziel: Interesse der Probanden einzuberechnen


d) freies/nicht Gesprächsthema entwickelt sich im Laufe der
standardisiertes Interview Begegnung. Anwendung: Klinische
Psychologie, Tiefeninterview

Problem:
Ergebnisprotokoll,
Tonbandaufzeichnung?
reduzierte Vergleichbarkeit
hoher Anspruch an verbalen
Fähigkeiten des Probanden
hohe Flexibilität gefordert und
aufwändige Auswertung
a) duale Form 1 Interviewer, 1 Proband
Geordnet nach Anzahl der Interviewer und

b) joint interview technique 1 Interviewer, 1 Proband mit Angehörigen


Sozialverhalten beobachtbar
Interviewten

Problem:
Selbstdarstellungstechniken
c) reziproke Sozialsituation 1 Proband, mehrere Interviewer z.B. bei
Eignungstests (Extremfall: Stressinterview)

Vorteil:
Erhöhung der Objektivität und Reliabilität, um
Wahrnehmungsfehler auszugleichen;
trotzdem: soziale Einflüsse auf Urteilbildung

4.5.4.2. Selbstdarstellungstechniken und Lüge – die Macht des Interviewten

49
4.5 Gesprächsmethoden

Proband kann Interviewer beeinflussen!


Es wurden verschieden Dimensionen von Selbstdarstellungstechniken entwickelt, die im
Folgenden dargestellt werden sollen.

4.5.4.2.1. Dimensionen der Selbstdarstellungstechniken nach Tedeschi


Unterteilung nach Tedeschi et at., 1985

1. Strategisch: vs. Taktisch


Anstreben situationsübergreifender Kurzfristige, situationsspezifische
Ziele Wirkungen
2. Assertiv vs. Defensiv
Aktives Gestalten, Verteidigungs- und Schutztechniken
Durchsetzungsfähigkeit in sozialen bei Bedrohung über eigene
Situationen Identität

4.5.4.2.2. Selbstdarstellungstechniken nach Jones & Pittman (1982)

Intrigation (Einschmeicheln): eigene Kompetenz übertreiben


Einschüchterung: Androhung negativer Konsequenzen
Selbstbeförderung: Einschätzung der eigenen Person soll beim anderen besser sein
Exemplifikation: sich als moralisch besonders integer darstellen
Demut: eigne Schwäche und Abhängigkeit betonen

4.5.4.2.3. Weitere Aspekte der Selbstdarstellung


Übertreibung
Angeberei
Nachgeben
Kompromisse
Gezieltes Weglassen
Selbstbetrug
Wunschdenken
Bewusste Vereinfachung
Höflichkeitsgesten und Kontrolle von emotionalem Ausdruck

Frage nach Glaubwürdigkeit: Mittelweg zwischen krankhaftem Misstrauen und


naiver Vertrauensseligkeit muss gefunden werden.

4.5.4.2.4. Bewusste Lüge

50
4.5 Gesprächsmethoden

„Lüge ist zugleich Inbegriff des Unmoralischen und Instrument der Menschlichkeit und
Rücksichtnahme. Sie dient der Durchsetzung und Machtausübung und erfolgt sehr oft aus
Schwäche.“ (Fiedler, 1989)

„Die Lüge ist eine Aussage mit dem Willen, Falsches zu sagen.“ (Augustinus, 1953)

4.5.4.3. Maßnahmen zur Optimierung von Befragungsergebnissen

4.5.4.3.1. Allgemeine Voraussetzungen

(a) guter Kontakt zwischen den Interviewpartnern: Sympathie + Antipathie. Untersucher


soll affektive Reaktion auf Pbn mitprotokollieren
(b) Angaben mit Objektivität begegnen
(c) Gespräch innerhalb einer Rollenbeziehung soziale Erwartungen an den
Interaktionspartner nehmen Einfluss auf die Antworten Interviewer zur
Verschwiegenheit verpflichtet (Beratungslehrer)
(d) Weitere Bedingungen für Gesprächsbereitschaft: Geschlecht, Alter, Stimme,
Bildungshintergrund

4.5.4.3.2. Gestaltung der Gesprächssituation

a) Vorbereitung: Themenbereiche überlegen, Auswertung bereits vorliegender


Materialien (von früheren Interviews)
b) Räumliche Umstände: Ausgestaltung des Raumes (nüchtern oder familiär; Sitzposition:
„über Eck“ am Tisch günstig; von äußeren Störungen abgeschirmt)
c) Zeitliche Umstände: viel Zeit bemessen, Fraktionierung eines Gesprächs,
Gesprächsdauer festlegen (bei Kindern und Jugendlichen 20 bis 30 Minuten)
d) Gesprächseinstieg: sachliche Info über Untersuchungszweck; Beratungssituation:
Grund des Kommens
e) Gesprächsführung:
a. Interrogative G.: Frage-Antwort-Schematismus
b. Asymmetrische G.: Proband spricht (fast) allein, bestimmte Richtung
c. Konservative G.: Rede- und Gegenrede
d. Taraktische G.: Erschütterung des Probanden durch Ablehnung seiner Meinung
=> Reaktionen werden provoziert (Stressinterview: Pbn verunsichern)
f) Funktionsfragen:
a. materiell nicht interessant, aber erfüllen psychologische Funktion
b. Kontakt- oder Einleitungsfragen
c. Überzeugungs- oder Vorbereitungsfragen (bei Themenwechsel)
d. Ablenkungs- oder Pufferfragen
51
4.6 Dokument- und Werkanalyse

e. Filterfragen (ist Fragenteil für Interviewten zutreffen?)


f. Rangier- oder Konzentrationsfragen (wg. Abschweifungen)
g. Motivationsfragen (Abbau von Hemmungen, Stärkung des
Selbstbewusstseins)
h. Ergänzungs- und Sondierfragen zur Klärung unvollständiger Antworten
g) Verbale, nonverbale und paraverbale Sprachaspekte:
a. gleicher Sprachcode (Dialekt, Fachsprache)
b. non- und paraverbale Kommunikationskanäle
c. Frageformulierung (Gefahr: Suggestivfragen)
d. direkte oder indirekte Fragen überlegen (Reduzierung des
Tabuisierungsgrades)
e. projektive Fragen für Zusatzinformationen
h) Anwendung von Verstärkertechniken: Gesprächspartner mitteilen, dass seine
Äußerungen wichtig sind
a. Blickkontakt; wenn angemessen lächeln, nicken
b. Gemeinsamkeiten betonen
c. ruhige Stimmlage
d. Körper zuwenden; keine unruhigen Körperbewegungen; keine Störungen von
außen
e. keine anklagenden Fragen
f. nicht unterbrechen
g. keine Ironie und Sarkasmus; keine Überlegenheit demonstrieren
i) Protokollierung: Tonbandaufzeichnung nur mit Zustimmung erlaubt, 60% der Info
gehen verloren, wenn nicht mitprotokolliert wird)
j) Gesprächsbeendigung: Proband soll Gelegenheit für abschließende Fragen haben

4.6. Dokument- und Werkanalyse

Dokumente sind alle Zeugnisse menschlichen Handelns, Denkens und Erlebens, die in
natürlichen Situationen entstanden sind und erst nachträglich zur Beantwortung einer
Forschungsfrage herangezogen werden. (Ballstaedt, 1987)

4.6.1. Arten von Dokumenten (Werken)

52
4.7 Fragebogen

Institutionelle (amtliche) Dokumente


• Urkunden (z.B. Zeugnisse)
• institutionell veranlasste Dokumentationen (z.B. Mitgliederverzeichnisse)
• institutionell veranlasste Werke (z.B. Schulaufsatz)
Private Dokumente
• Verbaldokumente (z.B. Aufsätze)
• Bilddokumente (z.B. Bilder)
• Sachdokumente (z.B. Bauten)
Verhaltensspuren
• z.B. Abfall

4.7. Fragebogen

Wissenschaftliche gesehen ist ein Fragebogen „[…] die schriftlich fixierte Strategie einer
strukturierten Befragung“ (Atteslander, 2000).

Die schriftliche Befragung oder der Fragebogen ist für Erzieher das am wenigsten
aufwendige Verfahren, Auskünfte über objektive Daten und subjektive Einstellungen zu
erlangen.

Der Fragebogen als wissenschaftliches Instrument ist das Ergebnis sorgfältiger und
aufwendiger Expertenkonstruktion. Er soll eingesetzt werden, wenn er für diagnostische
Ziele hilfreich erscheint.

4.7.1. Merkmale
Kategorisierung von Fragebögen nachfolgenden Merkmalen:

nach mündlicher oder schriftlicher Erhebungstechnik


nach dem Grad der Standardisierung
nach direkter oder indirekter Fragestellung
nach offener oder geschlossener Antworttechnik
nach Individual- oder Gruppenerhebung
nach einmaliger oder mehrfacher Anwendung

Ein Fragebogen oder schriftliche Befragung ist eine spezielle Art von Fragenkatalog, als
Instrument der Datenerhebung für eine/mehrere Statistik(en). Meist wird derselbe
Fragebogen mehreren Personen vorgelegt und dann statistisch ausgewertet. Man
unterscheidet zwischen Papier- und elektronischen Fragebogen.

53
4.8 Soziometrie

Der Fragebogen als wissenschaftliches Instrument ist das Ergebnis sorgfältiger und
aufwändiger Expertenkonstruktion. Der Erzieher sollte sich über diese publizierten
Fragebögen informieren und sie einsetzen, wenn sie für seine diagnostischen Ziele hilfreich
erscheinen.

4.7.2. Konstruktion eines Fragebogens


(nach Fessini, 2004)

1) Zielanalyse: Was soll erfragt werden? Welche Indikatoren?


2) Aufgabenstellung: Welche Frageformen? Wie zu antworten?
3) Vorerprobung: Revision der Fragen und Erstellung von Antwortkriterien
4) Studie zur Bestimmung der Reliabilität und Validität
5) Normierung: zur Einordnung einer Merkmalsausprägung

Zehn Regeln der Fragebogenerstellung:


Einfache, unzweideutige Begriffe verwenden
Lange und komplexe Fragen vermeiden
Hypothetische Fragen vermeiden
Gleichzeitige Vorgaben von zwei Aspekten in einer Frage und Verneinungen
vermeiden
Unterstellungen und suggestive Fragen vermeiden
Informationsniveau der Befragten nicht überschreiten
Fragen mit eindeutigem zeitlichen Bezug verwenden
Antwortkriterien verwenden die eindeutig und disjunkt sind
Kontext der Frage sollte sich nicht auf deren Beantwortung auswirken
Unklare Begriffe definieren

4.7.3. Vorteile von Fragebögen


Für Erzieher das am wenigsten aufwändige Verfahren, Auskünfte über objektive
Daten und subjektive Einstellungen zu erlangen
Im Gegensatz zur mündlichen Befragung ist er ein objektives und reliables
Beobachtungsinstrument, das auch noch ökonomisch ist.

4.8. Soziometrie
(Lat.: socius = Teilnehmer; griech.: metria = Messung)

Die Soziometrie ist eine von Jakob Levy Moreno in den 1930er Jahren begründete
Methode der empirischen Sozialforschung, welche dazu dient, Beziehungen zwischen
Mitgliedern einer Gruppe zu erfassen, darzustellen und zu analysieren.

54
4.8 Soziometrie

„Soziometrie ist die quantitative Untersuchung zwischenmenschlicher Beziehungen unter dem


Aspekt der Bevorzugung, Gleichgültigkeit und Ablehnung in einer Wahlsituation.“ (Bjernstedt,
1956)

Es gibt zahlreiche teilweise verschiedene Definitionen, doch alle haben eine Gemeinsamkeit:
Soziometrie ist die quantitative Analyse zwischenmenschlicher Beziehungen.

Datenerhebung:

Man kann zwischenmenschliche Beziehungen entweder durch eine soziometrische


Beobachtung oder durch eine soziometrische Befragung analysieren.

Mit einer soziometrischen Beobachtung kann man die Stellung des Individuums innerhalb der
Gruppe beurteilen. Da aber nur eine oberflächliche Beobachtung möglich, ist der
soziometrischen Beobachtung die soziometrische Befragung vorzuziehen, die im Folgenden
ausführlich behandelt wird.

4.8.1. Dimensionen der klassischen Methode nach Friedrich


(1973)
Die Probanden werden zu verschiedenen sozialen Einstellungen und Wahrnehmungen
befragt. Es sind verschiedene Designs möglich:

nur positive – nur negative – beides


Anzahl der Wahlen (offen – festgelegt)
Rangfolge der Wahlen (Gewichtung)
Anzahl der Kriterien

Sympathie / Antipathie: Wahrnehmung:


Mit wem würden sie am liebsten …? (vor allem für Selbstbilduntersuchungen von
Mit wem möchten sie nicht gern? Bedeutung)

Wer wird sie ihrer Meinung nach


wählen/ablehnen?
Kriterium: Einstellung/Verhalten:
Arbeit, Urlaub, Wohnen, Diskussion, etc. Mit wem möchten sie
zusammenarbeiten?
Mit wem haben sie
zusammengearbeitet?

55
4.8 Soziometrie

4.8.2. Soziographischer Test von Bullis – Seelmann: „Der


soziometrische Test“
1. Welchen Mitschüler wählst du bei der nächsten Wahl zum Klassensprecher?
2. Welchen wählst du als Stellvertreter?
3. Wenn ihr in eurer Klasse eine Schulklasse hättet, welchen von deinen Mitschülern
würdest du zum Kassierer und Verwalter der Klassenkasse aussuchen?
4. Wenn dir deine Mutter erlauben würde, eine oder mehrere Mitschüler zu deiner
Geburtstagsfeier einzuladen: wen würdest du da einladen? (Du kannst einen oder
bis zu vier Mitschüler aufschreiben)
5. Denk einmal nach: welchen von deinen Klassenkameraden würdest du fragen, wenn
du mit deiner Hausaufgabe nicht allein zurechtkommen würdest? Nimm einmal an, du
müsstest eine schwere, vielleicht sogar gefährliche Arbeit machen und bräuchtest
dazu eine Hilfe. Wüsstest du jemanden in der Klasse, den du um Hilfe bitten
könntest?
6. Wer in der Klasse ist besonders begabt? Wer kann und weiß in irgendeiner Sache
besonders viel? Denke auch an Sport, an Zeichnen und Malen, an Musizieren oder
an irgendein anderes Fach. Wenn du den Namen aufschreibst, so schreibe bitte
dazu, auf welchem Gebiet der aufgeschriebene Schüler viel weiß oder kann.
7. Schreibe den Namen des Schülers aus deiner Klasse auf, der dir als der
kameradschaftlichste erscheint
8. Welchen von deinen Mitschülern hältst du für den freigiebigsten?
9. Wer in der Klasse ist dein bester Freund?

4.8.3. Verschiedene Darstellungsverfahren


(1) Soziomatrix
(2) Tabellarische Darstellung
(3) Soziogramm

4.8.3.1. Soziomatrix

Gruppenmitglieder am vertikalen und horizontalen Rand abgetragen


Wähler längs der vertikalen Seite
Gewählt werden längs der horizontalen Seite (Oder umgekehrt)
Alle Daten enthalten, deshalb auch als „Urliste“ nutzbar

56
4.8 Soziometrie

4.8.3.2. Tabellarische Darstellung

4.8.3.3. Soziogramm

Ein Soziogramm ist die graphische Darstellung der Beziehungen in einer Gruppe, etwa in
einer Schulklasse oder in einem UN. Ausgehend von Daten einer Erhebung werden in der
Darstellung Beziehungen beispielsweise durch Pfeile symbolisiert.

57
4.8 Soziometrie

Auswertung des Soziogramms:

Es lassen sich bestimmte soziometrische Muster ableiten:

Paare: zwei sich gegenseitig wählende Gruppenmitglieder


Dreiecke: drei sich gegenseitig wählende Mitglieder
Ketten: graphische Anordnungen von Gruppen, in denen nicht alle Mitglieder durch
reziproke Wahlen miteinander verbunden sind
Sterne: ein Gruppenmitglied wird von mehreren sich untereinander wenig
Wählenden bevorzugt
Cliquen: Bildung von Untergruppierungen, innerhalb derer sich die Personen häufig
wählen; ein Austausch mit anderen Untergruppen findet nur in geringem Ausmaß
statt
Stars: Personen, die im Mittelpunkt des Sterns stehen, bevorzugt gewählt werden.
Man unterteilt Stars in drei Formen: den Beliebten, den Experten und den
Kommunikationsstar
Isolierte: Gruppenmitglieder, die weder aktiv noch passiv an der Wahl teilnehmen,
also nicht wählen und auch von niemandem gewählt werden
Graue Eminenzen: isolierte Personen, die nur in reziproken Wahlen zum Star einer
Gruppe stehen
Abgelehnte: nur ablehnende Wahlen erhalten
Vergessene: Personen, die wählen, jedoch selbst keine Wahlen erhalten
Pyramide oder Baumstruktur: wie z.B. in Organisationsformen wie Industriebetrieben

4.8.4. Probleme der soziometrischen Befragung


Äußere Voraussetzungen:
o Gewisser Bekanntheitsgrad zwischen Gruppenmitgliedern nötig
o Art der Wahl hängt wesentlich von Gruppengröße ab
o Wahl muss „Ernstcharakter“ besitzen
o Urteilsvermögen differenziert erst etwa ab dem 10. Lebensjahr ausreichend

Anzahl der Stimmen:


o Einfache Wahlmöglichkeiten problematisch, da Status in der Gruppe
Ergebnis verzerrt (5 Stimmen als sinnvoll)
o Zu differenzierte Wahlen können das Ergebnis jedoch ebenso verfälschen
o Begrenzung der Nennungen kann zu erzwungenen Antworten und verzerrten
Ergebnissen führen

58
5.1 Normierung

Konsequenzen:
o Sympathie/Antipathie evtl. vom Kriterium abhängig
o Frage nach Antipathie kann diese stärker ins Bewusstsein rufen
o Negative Wahlen können verletzend wirken anonyme Erhebung
o Gefahr von Fehlinterpretation der Ergebnisse

Fehlende Konstanz der Ergebnisse

Soziogramme können Probleme hervorrufen, da Schüler sich erst bestimmter Abneigungen


bewusstwerden.

5. Testnormierung bzw. Bezugsnormen

5.1. Normierung
Um das Verhalten der Lernenden besser vergleichen zu können und damit auch objektiver
beurteilen zu können, werden die Verfahren, die das Verhalten erfassen sollen, normiert.

Bei der Standardisierung (=Eichung) wird das Diagnoseverfahren auf alle Personen einer
ausgewählten, genau beschriebenen Stichprobe in der gleichen Weise und unter
vergleichbaren Bedingungen angewendet. Diese Erhebung an einer repräsentativen
Stichprobe unter konstant gehaltenen Bedingungen ermöglicht die Aufstellung von Normen.
Das sind statistische Vergleichsdaten, die es ermöglichen, den spezifischen individuellen Wert
einer Person mit Resultaten anderer Personen einer definierten Gruppe zu vergleichen.

Ein konkretes Testergebnis ist nicht aus sich heraus interpretierbar, sondern jedes
Testergebnis muss in ein Bezugssystem eingeordnet werden. Dafür stehen drei Möglichkeiten
zur Verfügung (sozial, individuell und sachlich/kriterial).

5.2. Arten von Bezugsnormen


Um die gesammelten Lernergebnisse des Lernenden zu beurteilen, brauchen wir
Vergleichsmöglichkeiten (Bezugsnormen).

Bezugsnormen sollen folgende Aufgaben erfüllen:

1) individuelle Leistungen durch Ziffern angemessen und möglichst anschaulich


kennzeichnen

59
5.2 Arten von Bezugsnormen

2) mit dieser Kennzeichnung den Vergleich zu Leistungen anderer Individuen


ermöglichen, wenn ein solcher Vergleich erwünscht und angemessen erscheint
3) Den Vergleich mit Leistungen desselben Individuums zu anderen Zeiten erleichtern.

Nach Rheinberg kann man Leistungsbeurteilung und Motivation folgendermaßen unterteilen:

5.2.1. Soziale (interindividuelle) Bezugsnorm


(Bei standardisierten Tests oder Verfahren)

Synonyme: normorientiert

Vergleich der individuellen Leitung mit dem Leistungsdurchschnitt der Klasse oder Vergleich
in einer bestimmten Bezugsgruppe Normalverteilung mit Mittel-/Durchschnittswert (meist
auf Note 3)

Betonung der Leistungs- und Fähigkeitsunterschiede zwischen Schülern


legen stabile, internale Attributionen (bei Schüler und Lehrer) nahe: Begabung
Ego- Orientierung (im Vergleich zu anderen gut dastehen) statt
Aufgabenorientierung
Betonung der Selektionsfunktion von Schulnoten

Normierte Leistungsbewertung

Beachte: Bei Intelligenztests hingegen ist aber das Ergebnis des Einzelnen im Vergleich zum
Durchschnitt interessant!

5.2.2. (Intra-)Individuelle Bezugsnorm


(Pädagogische Norm)
Vergleich der aktuellen Leistung eines Schülers mit seinen früheren Leistungen, z.B.
„pädagogische Zensuren“ oder individuelle Lernfortschritte

Der individuelle Leistungsfortschritt wird bewertet, nicht die absolute Leistungshöhe

Legen variable, internale Attribution nahe: Anstrengung


Aufgabenorientierung wahrscheinlicher
Betonung einer förderdiagnostischen Funktion von Noten

ipsative Leistungsbewertung

60
5.3 Interindividuelle Normskalen

Diese Norm wird besonders in der Förderpädagogik verwendet oder auch bei LRS-Kindern
in der Realschule. Sollte auch in der Schule miteinbezogen werden!

5.2.3. Sachliche Bezugsnorm


Synonyme: Kriterial, Kriteriumsbezogene, Lehrzielbezogen, Lernzielorientiert, objektive
Norm

Vergleich der aktuellen Leistung des einzelnen Schülers mit einem vorher genau definierten
und den Schülern mitgeteilten Anforderungskatalog (z.B. vom Lehrer).

Rückmeldungsfunktion
Qualifikationsfunktion von Noten

kriteriumsorientierte Leistungsbewertung

Beachte: Diese Norm ist vom Schulgesetzgeber vorgeschrieben!

5.3. Interindividuelle Normskalen

5.3.1. Prozentrangskala
Der Prozentrang definiert die Stellung eines Schülers innerhalb einer Gruppe bzgl. eines
Merkmals. Er wird durch den Prozentsatz charakterisiert, der innerhalb dieser Gruppe von
dem Schüler im Hinblick auf das Merkmal übertroffen wird.

Hat ein Schüler bspw. einen Prozentrangplatz von 75, dann sind seine Leistungen gleich
oder besser als die von 75% aller Schüler dieser Gruppe.

Beispiel:
Von 300 Schülern liegen die Ergebnisse eines Wortschatztests mit 80 Aufgaben vor
(f) ist wie oft (0-300) ein Rohpunkt (0-80) erreicht wurde
Vom untersten aufgetretenen Rohpunktwert aus werden die je Rohpunktwert
aufgetretenen Häufigkeiten (cum f) fortlaufend (kumulativ) addiert
Die pro Rohpunktwert aufgetretenen kumulative Häufigkeit drückt man als
Prozentanteil PR aller N=300 Beobachtungen aus nach der Formel: cum f % =
100 cum f/N

61
5.3 Interindividuelle Normskalen

5.3.2. IQ-Skala (Abweichungs-IQ)


Man errechnet den Intelligenzquotienten indem man die Abweichung der einzelnen
Versuchsergebnisse vom Mittelwert der (normalverteilten) Daten berechnet. Bei der IQ-
Skale ist der Skalenmittelwert 100 und die Standardabweichung beträgt 15.

5.3.3. T-Wert-Skala
Es gibt verschiedene Standardnormen. Bei diesen Normen geht man davon aus, dass die
empirischen Werte sich normal verteilen und dass man sie linear, den aus der Normalkurve
bekannten Zahlenwerten zuordnen kann.

Da theoretische Normalverteilung vollkommen symmetrisch ist, liegt oberhalb und unterhalb


ihres Mittelwertes genau 50% der Verteilung. Das häufigste Maß, um die Abweichung vom
Mittelwert anzugeben, ist die Standardabweichung s.

Für Tests hat sich die T-Wert-Skala als sehr praktische Normskala weitgehend durchgesetzt
(Lienert, 1969). Bei ihr wurden der Mittelwert mit 50 und die Standardabweichung mit 10
festgelegt.

Bsp.: Ein Proband mit T-Wert 48 hat Prozentrang 42, seine Leistungen sind also besser als
oder gleich wie die von 42% aller Teilnehmer

5.3.4. Fähigkeitsorientierte Norm


Da eine Person eine bestimmte Leistung mit größerer Wahrscheinlichkeit dann erbringen
kann, wenn sie sie anhand konkreter Aufgaben auch bringt, kann eine Normierung auch
dadurch vorgenommen werden, dass man Aufgaben aus didaktischer Sicht bestimmten
Schwierigkeitsgrad zuweist.

Dazu bildet man zunächst Kompetenzbereiche (etwa I: rudimentäres schulisches Wissen bis
V: Problemlösen bei inner- und außermathematischem Kontext) und ordnet diesen Aufgaben
mit einem bestimmten Schwierigkeitsgrad zu. Löst ein Schüler eine Aufgabe mit
Schwierigkeitsgrad 287, fällt er bspw. in Kompetenz I

62
5.3 Interindividuelle Normskalen

Großer Vorteil: spiegeln tatsächliches Können der Schüler wieder, nicht nur Vergleich mit
anderen

Anwendung: z.B. bei der TIMSS-Studie

5.3.5. Allgemeines zur Normierung


Bei jedem normierten Test ist die Stichprobe zu beachten, an der diese Normierung
vorgenommen wurde. Folgende Grundlinien sollten eingehalten werden:

Stichprobe sollte ein verkleinertes Bild der Gesamtheit sein, also nach Geschlecht,
Bundesland, etc. der Population entsprechend, für die Gültigkeit beansprucht wird
Stichprobe muss randomisiert auswählt werden
Normierung sollte aktuell sein

6. Schulleistungsdiagnostik

Schulleistungs-
diagnostik

Schulleistungs Mündliche Schriftliche Zensuren und


-tests Prüfungen Prüfungen Zeugnisse

Schulleistungsdiagnostik ist „die systematische Beschreibung und anschließende Bewertung


eines aktuellen Wissens- oder Fähigkeitsstatus von Lernenden bzgl. eines umschriebenen
Inhaltsbereiches“ (Langfeldt & Imhof, 1999).

Die Bereiche werden gesondert behandelt.

Unter Schulleistung versteht man zusammengefasst die von der Schule initiierten
Lernprozesse und Lernergebnisse der Schüler. Diese Lernleistungen können im Hinblick auf
verschiedene Verhaltensdimensionen beschrieben und unter Bezug auf verschiedene Normen
eingeordnet werden (Ingenkamp & Lissmann, 2008).

63
6.1 Schulleistungsmodelle

6.1. Schulleistungsmodelle

6.1.1. Schulleistungsmodell von Bloom


(nach Bloom, 1976)

Anteilsverteilung Schulleistungsdeterminanten nach Bloom


(1976)

Qualität des
kognitive Unterrichts
Merkmale der 25%
Schüler
50%

Affektiv-
motivationale
Merkmale der
Schüler
25%

6.1.2. Schulleistungsmodell von Helmke


(nach Helmke & Schrader, 2010)

64
7.1 Begriffsklärung

6.1.3. Schulleistungsmodell nach Carroll


(nach Carroll, 1963)

7. Schulleistungstests

7.1. Begriffsklärung

Schulleistungstests sind Verfahren der Pädagogischen Diagnostik, mit deren Hilfe Ergebnisse
geplanter und an Curricula orientierten Lernvorgänge möglichst objektiv, zuverlässig und

65
7.2 Arten von Schulleistungstests

gültig gemessen und durch Lehrende oder Beratende ausgewertet, interpretiert und für
pädagogisches Handeln nutzbar gemacht werden können (Ingenkamp & Lissmann, 2008).

Unterscheidung zwischen Resultat und Leistung:

Ein und dasselbe Resultat kann aufgrund der Verwendung unterschiedlicher Bezugsnormen
als unterschiedliche Leistung bewertet werden.

Schulleistungstest dienen der Untersuchung darüber, ob – und eventuelle wie gut – ein
Lernziel erreicht ist. Die hierbei verwendeten Testaufgaben sind nicht identisch mit dem
Lernziel, sondern repräsentieren es nur und dienen dazu, den individuellen Fähigkeitsgrad
zu vergleichen.

SLTs sind objektive Verfahren, mündliche und schriftliche Prüfungen hingegen subjektive.

7.2. Arten von Schulleistungstests


Verfahren zur Messung kognitiver Schulleistungen kann man danach klassifizieren
welchen Normbezug sie aufweisen (soziale oder ideal (sachliche) Norm)
nach dem Grad der Standardisierung (formell oder informell)

Grad
der
Standa Formell Informell
rdisier
ung

Bezugsgruppen- Kriteriumsorientiert
orientiert (soziale
Norm- (sachliche BZN)
BZN)
bezug

Bezugsgruppen Kriteriums-
Informelle SLT‘s
-orientierte orientierte SLT‘s
SLT‘s

66
7.3 Überblick über die Möglichkeiten der Konstruktion von SLT

Nach Grad der Standardisierung:

Formelle Tests Informelle Tests

• standardisiert und normiert • von Lehrern nach festen


• mit den Untergruppen Aufbaukriterien konzipiert
bezugsgruppenorientierte Tests und • Ziel: spezifische Lehrziele prüfen
kriteriumsorientierte Tests
• Ziel: allgemeine Lehrziele prüfen

Nach Normbezug:
Sozialnormorientiert Kriteriumsorientiert
Synonyme: normorientiert Synonyme: kriterial, Kriteriumsbezogen,
Lehrzielbezogen, Lernzielorientiert,
objektive Norm
Vergleich mit den Leistungen anderer Vergleich individueller Testergebnisse mit
vorher gesetzten Kriterien

Man unterscheidet meist nicht zwischen bezugsgruppen- und kriteriumsorientierten


informellen Tests, sie können aber auch sowohl an gruppenbezogenen Normen als auch an
Lernzielen orientieren.

Gemeinsamkeiten der vier Testvarianten:

inhaltliche Validität muss immer aufgrund einer Lehrzielanalyse bestimmt werden


lehrzielorientierte Tests können bei anderer Standardisierung auch als
normorientierte Tests verwendet werden
normorientierte Tests enthalten zumeist Aufgaben auf mittlerem Lehrzielniveau
informelle Tests unterscheiden sich von anderen nur durch den Grad der Normierung
(d.h. durch den Bezug auf eine oder wenige Schulklassen)

7.3. Überblick über die Möglichkeiten der Konstruktion von SLT

67
7.4 Formelle Schulleistungstests

7.4. Formelle Schulleistungstests

7.4.1. Bezugsgruppenorientierte (= sozialnormorientierte) Tests


In Analogie zu der Definition von Tests nach Lienert können normorientierte Schulleistungstest
wie folgt umschrieben werden.

Bezugsgruppenorientierte Schulleistungstests sind Tests […], bei denen das individuelle


Ergebnis mit den an einer relevanten Stichprobe ermittelten Ergebnissen verglichen werden
kann (Ingenkamp & Lissmann, 2008).

Ein (sozial-)normorientierter Schulleistungstest ist ein wissenschaftliches Routineverfahren


zur Feststellung des Kenntnisstandes in einem (oder mehreren) inhaltlich spezifizierten
kognitiven Lehrzielbereich(en); dabei werden Aussagen über die Leistungshöhe aufgrund des
Vergleichs mit den Leistungen einer für die jeweilige Altersstufe, Schulstufe oder Schulart
repräsentativen Stichprobe getroffen (Lukesch, 1998).

Bei den bezugsgruppenorientierten Tests werden die individuellen Testergebnisse mit denen
einer Bezugsgruppe verglichen (meist Klassenstufe). Daher muss die Bezugsgruppe für den
jeweiligen Zweck des Tests repräsentativ sein.

Ist an Richt- oder Groblernzielen orientiert.

68
7.4 Formelle Schulleistungstests

7.4.1.1. Konstruktion normorientierter Schulleistungstests

Analyse der Generierung von Vorerprobung Testdurchführung


Lehrpläne Testitems • an wenigen Fällen • kleine Stichprobe
• inhaltliche Validität • Aufgabenkonstruktion

Testeichung Aufgaben- und


• an repräsentativer Testanalyse
Testvalidierung Stichprobe • an vorheriger
Stichprobe

1. Analyse der Lehrpläne (inhaltliche Validität):


a. Sicherung der inhaltlichen Validität: Lehrpläne nach Lehrzielen analysieren
b. Erfassung der Lehrziele durch Expertenratings der Lehrpläne (curriculare
Validität)
c. Erfassung der Lerngelegenheit durch Lehrer- & Schülerurteile
Klassenunterlagen
d. Erstellen einer Lehrzielmatrix: stellt Suchschema dar und erleichtert das
Auffinden geeigneter Aufgaben (Auf welcher Höhe der Anforderungen
sollen welche Inhalte eines Lehrziels erfasst werden?)

Dimensionen der Matrix: Inhalt (= Lehrziele) & Verhalten ( Taxonomie von


Bloom, 1976; Wissen, Verstehen, Anwenden, Analyse, Synthese,
Beurteilung)

2. Entwurf von Testitems (Aufgabenkonstruktion):


a. Es müssen Aufgaben erdacht werden, welche für die einzelnen Zellen der
Lehrzielmatrix repräsentativ sind
b. allgemeine Regeln nach Ebel, 1951: keine doppelten Verneinungen, nicht zu
viele Lücken im Lückentext, einfache Satzkonstruktion, eindeutige und
möglichst klare Formulierungen, keine verdeckten Hinweise auf richtige
Antwort usw.
c. formale Gestaltung (Aufgabentyp festlegen):
i. gebundene Antworten:
1. Auswahlantworten: richtig/falsch; multiple choice
2. Ordnungsaufgaben: Zuordnungs-; Umordnungsaufgaben

69
7.4 Formelle Schulleistungstests

ii. freie Antworten:


1. Ergänzungsaufgaben (Lückentext)
2. Kurzantwortaufgaben
3. Kurzaufsatzaufgaben
d. Festlegung der zugelassenen Hilfsmittel
e. Konstruktion von 50 bis 100% mehr Aufgaben als für die Endform nötig
f. Beurteilung der Aufgaben durch erfahrene Lehrer Expertenrating
Aufgabenpool soll die Lehrzielbeschreibung abdecken

3. Vorerprobung an wenigen Fällen:


Überprüfung der Verständlichkeit der Aufgabenformulierung

4. Testdurchführung an einer kleinen Stichprobe (200 – 400 Schüler):


Prüfung der Tauglichkeit, Überprüfung der Aufgaben- und Testlänge und Einholen
von Schüler & Lehrerkommentaren

5. Aufgaben- und Testanalyse mit den Daten der ersten Stichprobe:


a. Ermittlung der Aufgabenschwierigkeit (eigentlich: Lösungswahrscheinlichkeit)
bei der Konstruktion eines Tests ist die absolute Schwierigkeit niemals
bestimmbar, sondern immer nur die relative Schwierigkeit in Bezug auf eine
bestimmte Stichprobe

𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝑟𝑖𝑐ℎ𝑡𝑖𝑔𝑒𝑛 𝐿ö𝑠𝑢𝑛𝑔𝑒𝑛


s= 𝑥 100
𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝐵𝑒𝑎𝑟𝑏𝑒𝑖𝑡𝑢𝑛𝑔𝑒𝑛

b. Distraktoranalyse bei gebundenem Antwortformat (multiple choice): Analyse


der Wahlhäufigkeit der Distraktoren (wie oft werden die Falschantworten
angekreuzt?) Distraktor sollte zwischen 10-15% liegen (0% =
ungeeignet, 10% geeignet, 50% richtige Lösung, 25% Hinweis auf typische
Denkfehler, 15% guter Distraktor
c. Trennschärfeberechnung: Wie gut trennt eine Aufgabe zwischen guten &
schlechten Schülern? Haben Schüler, die diese Aufgabe gelöst haben auch im
gesamten Test möglichst viele Aufgaben gelöst?
i. Korrelation zwischen Leistung einer Person bei einer Aufgabe
(Aufgabenwert) vs. Leistung im Test insgesamt (Gesamtwert) sollte
hoch sein
ii. bei mittlerer Aufgabenschwierigkeit am höchsten:
1. zu leichte Aufgabe gute & schlechte Schüler lösen sie richtig
2. zu schwere Aufgabe zu wenig Schüler lösen sie richtig; zu geringe Differenzierung
im unteren Bereich
d. Reliabilitätsschätzung (Homogenitätsschätzung)

70
7.4 Formelle Schulleistungstests

e. Berechnung der Verteilungskennwerte der Tests: Mittelwert, Streuung,


Normalverteilung, usw.

6. Testeichung an einer für den Anwendungsbereich repräsentativen Stichprobe:


a. Berechnung von Normwerten, die als Vergleichsgrundlage bei späterer
Anwendung des Tests dienen
b. Problem: u.U. nicht repräsentative Stichprobe, da eher besonders motivierte
und/oder gute Klassen und Lehrer teilnehmen
c. Es stehen mehrere Normierungsarten zur Verfügung:
i. Standardnorm: Wenn Rohwerte eines Tests normalverteilt sind.
Rohwerte werden in z-Skala transformiert
ii. Standardnorm-Äquivalente: entstehen durch z-Werte-Transformation.
Mittelwert auf 100 verschieben
iii. Prozentrangnormen: Man fasst die einzelnen Rohwerte so zusammen,
dass die einzelnen Rohwertklassen jeweils gleiche Prozentanteile der
Gesamtverteilung ausmachen

7. Testvalidierung:
a. Überprüfung der empirischen Validität an kleineren Stichproben (ca. 150
Pbn)
b. Überprüfung der Konstruktvalidität
c. Berechnung der Reliabilität

7.4.1.2. Einsatzmöglichkeiten

Anwendung in der Schulklasse:

o Vergleich des Leistungsstandes der ganzen Klasse mit den Eichstichproben


o Überprüfung der Effektivität des eigenen Unterrichts
o Durchschnittliche Leistungsfähigkeit der Klasse
o Lehrplangemäßheit des Unterrichts
o Überprüfung des eigenen Benotungssystems durch den Vergleich mit Testwertklassen
o Systematische Bevorzugung oder Benachteiligung einzelner Schüler
o Bestimmung der Position einzelner Gruppen (z.B. Gastarbeiterkinder)
o Objektivierungsmöglichkeit bei Schulart- oder Kurswechsel (Sonderschulzuweisung)
o Einsatz zur Lehr- und Lernsteuerung (Überprüfung Wissensstand neuer Klassen)
o Einsatz zur Unterrichtsdifferenzierung
o Wo hat ein individueller Schüler besondere Schwächen?
o äußere Differenzierung (Einteilung nach Leistungsgruppen)
o Summative Evaluation: Benotung von Schülern, wenn inhaltliche und curriculare
Validität gegeben sind (Schulleistungstests als Ersatz für Schulaufgaben)

71
7.4 Formelle Schulleistungstests

Forschungsfragen:

Schulleistungstests sind bei der Objektivierung pädagogischer Fragestellungen


unabdingbar, z.B.:

Überprüfung der Effektivität verschiedener Unterrichtsmethoden


Überprüfung der Wirksamkeit von verschiedenen Schulsystemen
Überprüfung der Wirksamkeit verschiedener Methoden der Schülergruppierung
Formative Evaluation und Entwicklung von Lehrplänen
Erarbeitung und Überprüfung von Bedingungsmodellen der Schulleistung

7.4.1.3. Vor- und Nachteile normorientierter Schulleistungstests

Vorteile Nachteile
▪ gute Erfüllung der Gütekriterien, besser ▪ bei mangelnder curricularer Validität
als bei herkömmlicher und Lerngelegenheit unfairer Test
Leistungsbeurteilung! auch Einsatz in
der Forschung möglich
▪ Normierung erlaubt Überprüfung des ▪ negative motivationale / soziale
eigenen Benotungssystems verhindert Folgen, z.B. Verlust der intrinsischen
Anwendung des klasseninternen Motivation
Bezugssystems
▪ Überprüfung des Leistungsstandes der ▪ Erstarrung des Unterrichts und
Klasse und des eigenen Unterrichts Verarmung der Lehrpläne (Lehrer
lehren nur Inhalte, die bei solchen Tests
abgefragt werden könnten)
▪ gerechtere Selektion ▪ häufig veraltet und nicht für alle
Unterrichtsfächer verfügbar
▪ Hilfe bei Entdeckung individueller ▪ eher im kognitiven Bereich
Schwächen
▪ Überprüfung von Lernvoraussetzungen ▪ Erfassung von Lernergebnissen und nicht
Lernleistungsvoraussetzungen
▪ Einsatz zur Leistungsdifferenzierung ▪ klassenunabhängige Beurteilung
▪ Einsatz von Computerauswertung ▪ unökonomisch / Kosten
▪ überregionaler Vergleich ▪ Sozialnormorientierte Schulleistungstests
machen Leistungsunterschiede zwischen
Schulen für den Lehrer überdeutlich

72
7.4 Formelle Schulleistungstests

kann zur Änderung der


Bewertungsstrategie des Lehrers führen
▪ summative Evaluation (als Ersatz für ▪ Gefahr, dass für die Ergebnisse nur
Schulaufgaben, wenn inhaltlich und schulinterne Faktoren verantwortlich
curricular Valide) gemacht werden

äußerst seltene Anwendung von Schulleistungstests,


in Deutschland sind fast alle Schulleistungstests bezugsgruppenorientierte Tests

7.4.2. Kriteriumsorientierte (= lehrzielorientierte) Tests

Ein kriteriumsorientierter Test ist ein „wissenschaftliches Routineverfahren zur Untersuchung


der Frage, ob und eventuelle wie gut ein bestimmtes Lehrziel erreicht ist.“ (Fricke, 1973)

Sind an Feinlernzielen orientiert.

Testaufgaben sind nicht identisch mit dem Lehrziel, sondern repräsentieren es nur und dienen
dazu, den individuellen Fähigkeitsgrad eines Schülers mit einem gewünschten Fähigkeitsgrad
zu vergleichen dazu sind folgende Schritte nötig:

Nötige Schritte:

Quantifizierung des Lehrziels


Quantitative Erfassung der Schülerleitung
Messmodell für die zufallskritische Entscheidung darüber, ob das Lehrziel erreicht
wurde (i.d.R. 2/3 aller Punkte)

Bei den kriteriumsorientierten Tests werden individuelle Testergebnisse zu vorher gesetzten


Kriterien in Beziehung gesetzt. Die Bezugsgruppe spielt also keine Rolle bei der
Testinterpretation. Kriteriumsorientierte Tests sind im Gegensatz zu
bezugsgruppenorientierten Tests mehr von den Feinlehrzielen abhängig, weshalb sie oft
sehr allgemein sind.

7.4.2.1. Prinzipien kriteriumsorientierter Leistungsmessung

▪ Verwendung von sowohl Aufsatztests als auch von Tests mit kurzen Antworten
▪ Verwendung von freien Fragen und gebundenen Fragen mit kurzen Antworten
(gebundene Fragen mit richtig/falsch oder multiple-choice oder Zuordnungsitems)
▪ Aufsatztests für komplexe Leistungen

73
7.4 Formelle Schulleistungstests

▪ Breite gegenüber spezifischen Themen


▪ Formulierung einer Modellantwort
▪ Grammatikalische Konsistenz des Tests
▪ Umfang eher gering, sonst keine Leistungs-, sondern Geschwindigkeitstests

7.4.2.1.1. Konstruktionsphasen bei kriteriumsorientierten Tests

(1) Analyse der Lehrpläne: zentrale Bedeutung aus all den Aufgaben, die die
Unterrichtseinheit repräsentieren, möglichst repräsentativen Überblick herausziehen.

(2) Generierung von Testitems (Aufgabenkonstruktion): ähnlich wie bei den


bezugsgruppenorientierten Tests. Auch werden gleiche Aufgabentypen für beide
Arten von Tests verwendet; nur die Auswertung unterscheidet sich.

(3) Vorerprobung

(4) Testdurchführung an einer kleinen Stichprobe

(5) (empirische) Aufgabenanalyse:


a. spielt relativ geringe Rolle
b. Ist die Aufgabe zu schwierig, lief der Test falsch.
c. Aber: Vorsicht bei der Formulierung der Aufgabe. Ungenaue Formulierungen
sind irreführend.

(6) Testeichung:
entfällt, da nicht mit anderen verglichen wird Daneben muss man sich fragen, ob die
gelösten Aufgaben repräsentativ für das angestrebte Lernziel sind. In dieser Phase
werden ebenfalls Fragen der Gültigkeit und der Zuverlässigkeit des Tests kritisch
betrachtet.

(7) Testauswertung:
Gewinnt im Gegensatz zu bezugsgruppenorientierten Tests eine besondere
Bedeutung. Es muss folgendes bestimmt werden:
a. Wann kann man z.B. sagen, das durch Testaufgaben repräsentierte Lernziel
sei erreicht, oder nicht erreicht
b. oder welchen Anteil der Aufgaben eine Person gelöst hat
c. oder in welche Leistungsgruppe (bezüglich des Abstandes vom Lernziel)
gehört ein Schüler, wenn z.B. 20 von 30 Punkten erreicht wurden.

(8) Testvalidierung:
Validität und Reliabilität ermitteln

74
7.4 Formelle Schulleistungstests

7.4.3. Unterschied zwischen bezugsgruppen- und


kriteriumsorientierten Tests

Normorientiert Kriteriumsorientiert

• Die Position des Schülers wird • Ein vorgegebenes Kriterium


aus der Verteilung der (Lehrziel) muss vorhanden sein
Messwerte bestimmt • Bsp.: Sollte es aber Lehrziele
• Bsp.: Ein normorientiertes sein, dass diese Aufgabe mit
Ergebnis könnte sein, dass ein 90iger Sicherheit beherrscht
Schüler, der 60% von 1x1- wird, dann hat der Schüler das
Aufgaben richtig gelöst hat, in Lehrziel nicht erreicht
Bezug auf seine Mitschüler
relativ gut abgeschnitten hat

Ingenkamp betont, dass die Praxis beide Testvarianten braucht:

Bezugsgruppenorientierte Tests werden dort eingesetzt, wo ein großes Gebiet mit


vielen Einzelheiten beherrscht werden soll. Bezugsgruppen werden deshalb
eingesetzt, weil ein Kriterium nicht genau gesetzt werden kann. Diese Tests werden
dort eingesetzt, wo es um das Verstehen einer Vielzahl von Beziehungen und
Bedingungen zwischen einzelnen Dingen geht.

Kriteriumsorientierte Tests werden dort eingesetzt, wo grundlegende Fähigkeiten


getestet werden sollen, die bedeutend für sich allein sind. Es geht um das Verstehen
von Einzelheiten.

7.4.4. Gütekriterien formeller Schulleistungstests


Also bezugsgruppenorientierter und kriteriumsorientierter Schulleistungstests

7.4.4.1. Objektivität

1) Durchführungsobjektivität:
bei formellen Tests sehr gut:
a. schriftlich fixierte, vorgegebene Instruktion
b. Beispiele und Übungsaufgaben
c. Vorgabe des Anwendungszeitraums und Beurteilerschulung

2) Auswertungsobjektivität:
a. bei gebundenen Antwortformaten maximal Korrektur mit Schablonen

75
7.4 Formelle Schulleistungstests

b. bei freien Antwortformaten Kriterienkatalog notwendig

3) Interpretationsobjektivität:
a. sehr gut: klare Instruktionen bezüglich der Interpretation der Ergebnisse
b. (Punktewerte Noten; Angabe qualitativer Fehlerarten; Angabe von
Normwerten)
c. Angabe des Objektivitätskoeffizients (Ü-Koeffizient bei kriteriumsorientierten
Tests) im Beiheft

7.4.4.2. Reliabilität

i.d.R. werden alle vier Arten der Reliabilitätsmessung berücksichtigt


Reliabilitätsmessungen auf der Basis der Stichprobenerhebungen
Angabe der Reliabilitätskoeffizienten im Beiheft

7.4.4.3. Validität

1) Inhaltsvalidität:
a. Sicherung der curricularen Validität durch Analyse der Lehrpläne (allerdings
i.d.R. nur annäherungsweise zu erreichen)
b. individuelle Lerngelegenheit kann aber nicht berücksichtigt werden
c. Expertenrating bei Lehrplananalyse zur Sicherung der Inhaltsvalidität

Inhaltliche Validität

Curriculare Lerngelegenheit
Validität

Überprüfung von Lehrerurteile


Klassenunterlagen

Schülerurteile

Erklärung:
i. Curriculare Validität: Ausmaß in dem die Testitems das Curriculum
repräsentieren
ii. Lerngelegenheit: Grad, in dem der Schüler tatsächlich Gelegenheit
hatte, die Inhalte eines Schulleistungstests zu lernen durch

76
7.4 Formelle Schulleistungstests

iii. Überprüfung von Unterrichtsunterlagen


iv. Erhebung von Lehrerurteilen
v. Erhebung von Schülerurteilen

2) Empirische Validität:
a. Vergleich der Ergebnisse aus den Stichprobenerhebungen mit Schulnoten,
Lehrerurteilen usw. (Gleichzeitigkeitsvalidität)
b. Erhebung von Vorhersagevalidität bessere prognostische Validität von
Tests im Vergleich zu Noten (Tent, 1969)
c. Angabe der Koeffizienten im Beiheft

3) Konstruktvalidität:
a. auf Grund der hohen Objektivität, der Standardisierung und Normierung
sehr gut
b. Angabe der Validitätskoeffizienten im Beiheft

7.4.5. Beispiele für formelle Schulleistungstests

7.4.5.1. Mehrfächertests
Hauptanwendungsbereiche bei Fragen der Objektivierung von Schulnoten, der Überprüfung
der Förderschulbedürftigkeit sowie bei Spezialfragen (z.B. Legastheniediagnose).
Ergebnisse können zu Platzierungs- oder Fördermaßnahmen verwendet werden. Ob diese
heute jedoch noch gültig sind ist fraglich, da die meistens Tests in den 1970er Jahren
entwickelt wurden inhaltliche Validität? Normgültigkeit? empirische Validität?

7.4.5.1.1. HST 4/5


(nach Mietzel et al. 2001)

Einsatzbereich: Ende 4. Klasse, Anfang 5. Klasse

Ist eine Neubearbeitung des Kombinierten Schultests für die 4. Klasse (KS 4)
14 Subtests bei denen folgende Bereiche erfasst werden:
o Sprachverständnis
o Leseverständnis
o Rechtschreibung
o Informationsentnahme aus Karten, Tabellen und Diagrammen sowie
o Mathematik

7.4.5.1.2. HAT 9 Hauptschulabschlusstest


(nach Ingenkamp, 1983)

77
7.4 Formelle Schulleistungstests

Für die 9. Jahrgangsstufe im 2. Halbjahr


Testung der wichtigsten Lernziele in folgenden Fächern:
o Deutsch o Chemie
o Englisch o Wirtschaftslehre
o Mathematik o Sozialkunde
o Physik
4 Antwortalternativen zum ankreuzen

7.4.5.2. Formelle SLT‘ im Fach Deutsch

7.4.5.2.1. Diagnostischer Test Deutsch DTD 4-6


(nach Nauck & Otte, 1980)

Für die Klassen vier bis 6


Enthält Aufgabengruppe zu sechs Basisleistungen für das Fach Deutsch
o Passiver Wortschatz
o Analogien finden
o Textstrukturierung
o Instruktionsverständnis
o Leseverständnis
o Aktiver Wortschatz

78
7.5 Informelle Schulleistungstests

7.4.5.2.2. Rechtschreibtest RST 7-9/A


(nach Damm et al. 1976)

Wird als Lückendiktat vorgegeben


Auswertung nicht nur nach Summe der Fehler, sondern auch Einordnung nach
Fehlertypologie möglich
Korrelation zwischen Fehleranzahl und Deutschnote sind hoch (.51 bis .78)

7.4.5.3. Duisburger Englisch-Leistungstest DELTA


(nach Klein-Braley & Lück, 1979)

Untersuchung von Abiturienten und Studienfachwechsler


Folgende Bereiche werden untersucht
o Grammatik passiv
o Wortschatz passiv
o Verben aktiv
o Präpositionen aktiv
o Wortschatz aktiv
o Text ergänzen
o Transformationen
o Übersetzen
o Gehörtes transkribieren

7.4.5.4. Geschichtstest Neuzeit GTN 8-10/I-II


(nach Ingenkamp & Mielke, 1966)

Antwortmodus: Multiple-Choice
Klassen 8 bis 10 können geprüft werden

7.4.5.5. Sozialkundetest Form A SKT-A


(nach Brunner et al. 1964)

Sozialkundetest für die 10. Klasse Realschule


Die Items sind aber heute veraltet

7.5. Informelle Schulleistungstests

79
7.5 Informelle Schulleistungstests

Informelle Schulleistungstests sind Verfahren der Pädagogischen Diagnostik, die


hauptsächlich von Lehrkräften konstruiert werden, um die Ergebnisse der von ihnen geplanten
Lernvorgänge in ihrer Klasse möglichst objektiv zu erfassen und für ihr pädagogische Handeln
nutzbar zu machen (Ingenkamp & Lissmann, 2008).

Unterschiede zu formellen Schulleistungstests:

wichtigstes Unterscheidungskriterium: Konstruktion durch Lehrer


nicht an repräsentativen Stichproben geeicht (nur an Ergebnissen einer Klasse)
Orientierung an pädagogischen Bedürfnissen von Klassen
standardisiert: Prüfungssituation; Aufgabenstellung; Rohauswertung
curriculare Analyse: Orientierung an den Lehrzielen für die Klasse
Korrektur: Orientierung an Klassennormen oder Lernzielen
niedrigerer Allgemeinheitsgrad der Anwendung (aufgrund inhaltlicher Spezifität)
unterrichtsnah, direkt aufs Lehrziel bezogen

Informelle Schulleistungstests werden nur für eine oder wenige Schulklassen konzipiert. Es ist
daher keine überregionale Anwendbarkeit, oft nicht einmal eine solche innerhalb der Schule
möglich.

Sie spielen immer noch eine geringe Rolle, weil Lehrer den Arbeitsaufwand scheuen.

7.5.1. Konstruktion informeller SLTs


im Vergleich zu formellen SLTs:

2) Analyse der Lehrpläne: meist werden kleinere Unterrichtseinheiten untersucht


3) Generierung von Testitems (Aufgabenkonstruktion)
4) Vorerprobung an wenigen Fällen
5) Testdurchführung an einer kleinen Stichprobe (200-400 Schüler)
6) Aufgaben- und Testanalyse vereinfacht
a. erfolgt erst nach der ersten Durchführung des Tests in der Klasse
b. Ermittlung der Trennschärfe
c. Distraktoranalyse
7) Testeichung an einer repräsentativen Stichprobe (bei informellen Tests nicht
vorgesehen)
a. Normierung kann erfolgen, indem Test mehrfach durchgeführt wird und
Ergebnisse miteinander (nach Standardisierung der Werte) verglichen
werden fließender Übergang zu form. SLTs
8) Testvalidierung

80
7.5 Informelle Schulleistungstests

a. evtl. Reliabilitätsschätzung

7.5.2. Gütekriterien informeller Tests


Bessere als bei traditioneller Leistungsbeurteilung (= eine Ziffernnote, die keine
Auskunft darüber geben kann, was man tun muss, um besser zu werden oder um
seine Talente zu entwickeln)
Schlechter als bei formellen Tests

7.5.2.1. Objektivität

1) Durchführungsobjektivität:
Bei informellen Tests besser als bei schriftlichen Prüfungen:
a. standardisierte Instruktion
b. Beispiele und Übungsaufgaben

2) Auswertungsobjektivität:
a. bei gebundenen Antwortformaten maximal Korrektur mit Schablone
b. bei freien Antwortformaten sind Kriterienkataloge notwendig

3) Interpretationsobjektivität:
a. besser als bei schriftlichen Prüfungen, v.a. bei geschlossenen
Antwortformaten
b. ungünstiger als bei formellen Tests, da i.d.R. keine Normierung, keine
Erfassung der Objektivitätskoeffizienten

7.5.2.2. Reliabilität
i.d.R. keine Erhebung der Reliabilitätskoeffizienten (u.U. Paralleltestreliabilität)

7.5.2.3. Validität

1) Inhaltsvalidität:
a. Sicherung der curricularen Validität durch Analyse der Lehrpläne besser
als bei formellen SLTs
b. Berücksichtigung der individuellen Lerngelegenheit besser als bei
formellen SLTs
c. Experten-Rating bei Lehrplananalyse zur Sicherung der Inhaltsvalidität

81
7.5 Informelle Schulleistungstests

2) Empirische Validität:
i.d.R. keine Erhebung

3) Konstruktvalidität:
a. Überprüfung der Übereinstimmung z.B. mit Schulnoten möglich
b. ungünstiger als bei formellen Tests, da keine Standardisierung/Erhebung von
Validitätskoeffizienten
c. besser als bei traditioneller Leistungsbeurteilung, da sachfremde
Beurteilungskriterien z.B. durch fixierte Instruktion, Aufgabenanalyse und
Kriterienkataloge gemindert werden

7.5.3. Vor- und Nachteile informeller Schulleistungstests


Vorteile Nachteile
▪ gute Erfüllung der Gütekriterien, besser ▪ u.U. bei gebundenen Antwortformaten
als bei herkömmlicher Ratewahrscheinlichkeit gegeben
Leistungsbeurteilung
▪ curriculare Validität und ▪ Gütekriterien weniger gut erfüllt als bei
Lerngelegenheit werden berücksichtigt formellen SLTs
▪ ökonomischer als formelle SLTs ▪ aufwändiger zu erstellen als
geringerer Konstruktionsaufwand traditionelle Formen der
Leistungsbeurteilung
▪ schnelle Korrektur v.a. bei gebundenen ▪ Qualität des Tests ist abhängig von
Antwortformaten Zeitersparnis bei Lehrkraft
der Auswertung
▪ sie beziehen sich direkt auf den konkret ▪ manche produktiven Leistungen können
durchgeführten Unterricht mit Tests nicht erfasst werden, z.B.
Kreativität
▪ Aufgabenanalyse erst im Nachhinein

7.5.4. Beispiele informelle SLT‘s

7.5.4.1. Reading Comprehension Test RCT 1-4


(nach Neuner et al. 1982)

Enthält unterschiedlich viele Einzeltests


Zum Beispiel zu folgenden Bereichen
o Grammatikalische Formen
o Wortschatz

82
7.6 Zehn Prüfsteine zur Beurteilung von Schulleistungstests

o Korrekter Satzbau
o Aktive Sprechbeherrschung
Sind als informelle Aufgabensammlung zu dem entsprechenden Lehrwerk zu
gebrauchen

7.5.4.2. Informelle Aufgabensammlung Chemie CHTH


(nach Ledig & Jäger, 1970)

Test für den Chemieunterricht an Hauptschulen


50 Testbögen für Wissenstestung zu den großen Bereichen der Anorganischen und
Organischen Chemie

7.5.4.3. Normtestarbeitsblätter Geschichte/Politik NG-GP


(nach Brück, o.J.)

Angeboten werden 15 Aufgabenblätter mit jeweils zehn Aufgaben

7.6. Zehn Prüfsteine zur Beurteilung von Schulleistungstests


Beurteilung zur Qualität von SLTs:
(1) Überprüft der Test das, was unterrichtet wurde?
(2) Ist der Test reliabel genug?
(3) Wie präzise ist ein individueller Testpunktwert?
(4) Wie wird eine objektive Testdurchführung gesichert?
(5) Wie wird die Auswertungsobjektivität gewährleistet?
(6) Wie ist der Test normiert?
(7) Gibt es Paralleltests?
(8) Wie sind die Testergebnisse inhaltlich zu interpretieren?
(9) Wie lange dauert der Test?
(10) Wie alt ist der Test?

8. Mündliche und schriftliche Prüfungen

8.1. Mündliche Prüfungen

83
8.1 Mündliche Prüfungen

Mündliche Prüfungen sind eine Form zielgerichteter Kommunikation zwischen einem oder
mehreren Prüfern und Prüflingen, bei der auf die Schriftform verzichtet wird (Ingenkamp &
Lissmann, 2008).

Mündliche Prüfungen sind am wenigsten erforscht, da sie nicht angemessen für wiederholte
Analysen fixierbar sind (auch Videokameras erfassen die soziale Situation selten vollständig
und beeinträchtigen gleichzeitig).

Formen Werden
durchgeführt als

formelle
sprachliche (festgesetzte)
Prüfungen

nicht- informelle
sprachliche (willkürliche)
Prüfungen

8.1.1. Arten mündlicher Prüfungen


(Jäger, 2000)

•mündliche Prüfung im Rahmen der Promotion


•Disputation: Streitgespräch, alle Aspekte eines Sachverhalts sollten berücksichtigt
Disputation werden
/ •Rigorosum: mehrere Prüfer verschiedener Fachrichtungen prüfen einen Kandidaten
Rigorosum

•freie Entwicklung und Präsentation eines Themas


Vortrag

•Überprüfung, inwiefern ein Schüler etwas wiedergeben kann


Abhören

•Vorstellen eines Themas, das Teil einer größeren Arbeit ist und vorher gedanklich
Arbeits- vorgearbeitet wurde
probe

•z.B. in Englisch (Speaking)


Gruppen-
prüfung

84
8.1 Mündliche Prüfungen

8.1.2. Kritik an der mündlichen Prüfung

8.1.2.1. Sozialpsychologischer Aspekt

Prüfungssituation = asymmetrische Sozialsituation; die einen definieren die Prüfungsnorm, die


anderen haben sich anzupassen (Lautmann, 1977)

Urteilsfehler:

Prüfungs- des Prüflings des Prüflings


situation

Primacy- Alter, Verbalisierungs-


Effekt Geschlecht geschick

Kontext- Ausbildung
effekt Geschlecht

Halo- Motivation
effekt Status

Eindruck Aussehen

8.1.2.2. Psychoanalytischer Aspekt

Ähnlichkeit von mündlichen Prüfungen mit Initiationsriten und Statuszuweisung stark


angstbesetzt

Widerspruch: Prüfung soll Leistung messen, verhindert das aber selbst durch Angstauslösung
(Moeller, 1972)

Angstauslöser bei Prüfungen:

Situation der Trennung (Prüfung als Abschluss eines Lebensabschnitts)


Situation der Kränkung (keine Bestätigung der intellektuellen Leistung möglich)
Situation der Bestrafung (Prüfung als jüngstes Gericht)
Situation der Versuchung (aggressive Versuchung)

85
8.1 Mündliche Prüfungen

8.1.3. Gütekriterien – Kritik an mündlichen Prüfungen

8.1.3.1. Objektivität

Nicht sichergestellt, dass alle Prüflinge dieselben Bedingungen haben

1. Durchführungsobjektivität:

Mangelhaft, da nicht alle Prüflinge dieselben Fragen gestellt bekommen (adaptiv –


situativ), nicht zur selben Zeit geprüft werden usw. (zeitlich unbestimmt).

2. Auswertungsobjektivität:

Wegen situativem Charakter oft unzureichend; Kriterien für richtig/falsch sind oft nur vage
definiert.

3. Interpretationsobjektivität:

großes Ausmaß an Nicht-Übereinstimmung (Objektivitätskoeffizienten zwischen .40 und .80,


Häufig bei .60)

Birkel & Pritz (1980): von einer mündlichen Geographieprüfung, die mit Note 3
bewertet worden war, wurden 2 Videoversionen erstellt; 1x schnell, flüssig, 1x
langsam, stockend

Beurteilung durch ca. 100 Lehrkräfte, denen Vorinformationen über bisherige


Leistungen in Geographie oder anderen Fächern gegeben wurden
Objektivitätskoeffizient von .35
Problem: klasseninternes Bezugssystem

8.1.3.2. Reliabilität

1. Wiederholungsreliabilität:

Prüfer prüft Kandidaten nach einiger Zeit erneut; kaum Untersuchungen vorhanden
(Koeffizient etwas höher als bei Paralleltests)

In der Schule nicht vorgesehen

86
8.1 Mündliche Prüfungen

grundsätzliches Problem bei Leistungsbeurteilung: Prüfer ist zugleich Messinstrument


Messinstrument ist nicht stabil

2. Paralleltestreliabilität:

Prüfen eines Prüflings durch 2 Prüfer kurz hintereinander bzw. zeitgleich;


Äquivalenzkoeffizient zwischen .00 und .60, Häufig bei .45

Birkel & Pritz (1980): Streuung von Note 1 bis 5 unter allen Bedingungen
Beurteilung durch Zweitprüfer; in der Regel nur bei Abschlussprüfungen vorgesehen

8.1.3.3. Validität

1. Inhaltsvalidität:

Beeinträchtigt durch situativen Charakter Fragen sind z.T. nicht repräsentativ, keine
Staffelung nach Schwierigkeit, … aber: i.d.R. curriculare Validität/Lerngelegenheit
berücksichtigt.

2. empirische Validität:

Übereinstimmung zwischen mündlichen und schriftlichen Prüfungen nur .30; Zusammenhänge


mit Dozentengutachten u.Ä. mäßig.

3. Konstruktvalidität:

Durch Interaktionseffekte beeinträchtigt


Birkel (1976): 2 Videos einer mündlichen Deutschprüfung wurden ca. 150 Lehrern
zur Beurteilung vorgelegt; Kandidat A absolvierte eine harmonische Prüfung,
Kandidat B war durch überdurchschnittlich hohen Schwierigkeitsgrad überfordert
(Heller & Nickel)

Reihenfolge der Darbietung wurde variiert


Vorinformation über Leistung im Abituraufsatz wurde variiert (1 / 5 / keine Info)
Kontrasteffekt: guter Kandidat wurde noch besser beurteilt, wenn zuerst schlechter
Kandidat dran war und umgekehrt
Erwartungseffekt: Bei Angabe der Aufsatznote 1 lag die Zensur von Kandidat
durchschnittlich bis 3.01, bei Angabe der Aufsatznote 5 durchschnittlich bei 3,56
personale Variablen: Lehrkräfte mit mehr Prüfungserfahrung tendieren zu strengeren
Noten

87
8.1 Mündliche Prüfungen

Birkel & Pritz (1980):


o Sachfremde Kriterien: Sprechgeschwindigkeit beeinflusst Benotung
(Notendurchschnitt der schnelleren Version 2.57, der langsameren Version
3,44)
o Halo-Effekt: schneller sprechender Kandidat wurde als intelligenter,
sympathischer usw. eingeschätzt
o Erwartungseffekte: bei positiver Vorinformation über die Geographienote
wurde die bessere Note vergeben

8.1.4. Verbesserungsmöglichkeiten

8.1.4.1. Allgemein

Formaler Rahmen: keine Wartezeiten, gute Sitzgelegenheiten, …


Positive Momente: Flexibilität des Prüfers, Ermutigungsstrategien …
Hohe Transparenz der Anforderungen:
o Festlegung der Lehrziele
o Kriterienkatalog
o klare Fragen
o Trennung von Leistungsfeststellung und –bewertung
o Mehrere Beurteiler
o Keine Ballung von Prüfungen
o evtl. Vorbereitungszeit nach Frage
o Pluralismus der Prüfungswahl

8.1.4.2. Explizit

8.1.4.2.1. Objektivität

1. Durchführungsobjektivität:

korrekter formaler Rahmen: pünktlicher Beginn, Freundlichkeit usw. (keine unnötige


Betonung der Prüfermacht)
Auslosen der schriftlichen Prüfungsfragen
Ermutigungsstrategien & Funktionsfragen einsetzen
Vorbereitungszeit gewähren, Reihenfolge frei wählen lassen
Kontrolle der Prüfung durch Prüfling ermöglichen

88
8.1 Mündliche Prüfungen

2. Auswertungs- & Interpretationsobjektivität:

Kriterienkataloge einsetzen
getrennte Beurteilung durch Zweitprüfer
Entwicklung eines schulinternen Bezugssystems

8.1.4.2.2. Reliabilität

1. Wiederholungsreliabilität:

Prüfling u.U. freiwillig wiederholte Leistungskontrolle während Schulzeit ermöglichen

2. Paralleltestreliabilität:

Einsatz von Zweitprüfern

8.1.4.2.3. Validität

1. Inhaltsvalidität:

Formulierung von Prüfungsfragen im Voraus


Experten-Rating der Fragen
Berücksichtigung der Lerngelegenheit

2. empirische Validität:

Überprüfung des Zusammenhangs mit anderen Kriterien wie z.B. weiteren mündlichen
Prüfungen, schriftlichen Prüfungen, Tests, usw.

3. Konstruktvalidität:

nur mündlich prüfen, wenn Sprache der Gegenstand der Prüfung ist
Pluralismus der Prüfungsmethoden Wahlmöglichkeit
Bewusstheit über Verzerrungseffekte
Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf
Abwechseln von Übersichts- und Detailfragen
nicht zu viele Prüfungen hintereinander (Vermeidung von Kontrasteffekten)
besser mehrere Einzelprüfungen statt einer einzelnen Prüfung

89
8.2 Schriftliche Prüfungen

8.2. Schriftliche Prüfungen


Schulaufgaben

Grundsätzlich können Schulaufgaben trotz aller Fragwürdigkeit der Notengebungspraxis


als objektiv und gerechter eingeschätzt werden als mündliche Prüfungen.

8.2.1. Vorteile
Schulaufgaben sind i.d.R. standardisiert. Alle erhalten dieselben Aufgaben oder
Fragestellungen
Beurteiler müssen ihre Entscheidungen nicht sofort und in der Belastung der
Prüfungssituation treffen. Der Lehrer kann die Leistung in Ruhe mit seinem Maßstab
vergleichen.
Weil viele oder nur wenige Schüler eine Aufgabe/eine Frage lösen, erhält der
Lehrer eine Vorstellung von Schwierigkeitsgrad dieser Aufgabe
Für die Zuverlässigkeit der Prüfung ist die Anzahl der gestellten Aufgaben wichtig.
Schriftliche Prüfungen enthalten i.d.R. mehr Aufgaben
Leistungsfremde Faktoren (Aussehen, Kleidung, Haltung, …) spielen bei schriftlichen
Prüfungen keine Rolle
Blockierung durch Ängste können bei der schriftlichen Prüfung leichter überwunden
werden
Schriftliche Prüfungen sind i.d.R. besser strukturiert Prüfling kann sich besser
zurechtfinden
Grundlagen und Ergebnisse der schriftlichen Prüfungen sind öffentlich, d.h. sie
können mit den Betroffenen nachbesprochen werden

8.2.2. Formen schriftlicher Prüfungen


(Heller & Nickel, 1978)

▪ Aufsatz:
Nachteile: mangelnde Auswertungs- und Interpretationsobjektivität,
Reliabilitätskoeffizienten um .5, Vielfalt der Bewertungsmaßstäbe beeinträchtigt
Validität

▪ freie Hausarbeit:
Vorteile: differenzierte Erfassung produktiver Denkleistungen, umfassendere
Rückmeldung der Prüfer und Prüflinge, intrinsische Motivation
Nachteile: größerer Zeitaufwand bei Korrektur, geringere Objektivität (
Beeinträchtigung der Reliabilität und Validität)

90
8.2 Schriftliche Prüfungen

▪ Klassenarbeiten:
Nachteile: meist klasseninternes Bezugssystem zur Beurteilung, mangelnde
Objektivität und Validität, Kriterien oft nicht im Voraus festgelegt

Tests oder testähnliche Verfahren (Jäger, 2000):

Satzergänzungen: Lückentexte
Ja-Nein-Antworten
multiple-choice-Aufgaben

Vorteile: bessere Gewährleistung der Gütekriterien als bei freien Formaten


Nachteile: unzureichendes Feedback für Prüfer und Prüflinge, u.U. Verlust intrinsischer
Motivation

8.2.3. Erfüllung der Gütekriterien bei schriftlichen Prüfungen

8.2.3.1. Objektivität

1. Durchführungsobjektivität:

aufgrund des Gruppenbezugs und des transsituativen Charakters relativ günstig


besser als bei mündlichen Prüfungen, schlechter als bei Tests (Standardisierung fehlt)

2. Auswertungsobjektivität:

z.T. mangelhaft:
Williams (1933): Mathematikaufgabe sollten von Lehrkräften mit 0 bis 100
Punkten beurteilt werden Beurteilung schwankt zwischen 16 und 96 Punkten
Starch & Elliot (1913): Abschlussarbeit in Mathematik sollte von ca. 130 Schulen
mit 0 bis 100 Punkten bewertet werden Streuung von 25 bis 89 Punkten bei
Gesamtbewertung, ähnlich starke Schwankungen bei einzelnen Aufgaben

3. Interpretationsobjektivität:

beeinträchtigt:
Starch & Elliot (1913): Bestehensgrenze variiert von Schule zu Schule zwischen 70
bis 80 Punkten, Objektivitätskoeffizient zwischen .5 und .7 (Ingenkamp)

91
8.2 Schriftliche Prüfungen

8.2.3.2. Reliabilität

1. Wiederholungsreliabilität:

Bewertung ist unzureichend stabil:


Hartog & Rhodes (1936): 15 Prüfungsarbeiten aus dem Fach Geschichte wurden
von 15 Prüfern bewertet; nach 12 bis 19 Monaten wurde die Beurteilung wiederholt
Bewertung wurde in fast 50% der Fälle geändert

2. Paralleltest-Reliabilität:

Beurteilung schwankt mit dem Prüfer:


Starch & Elliot (1913): Streuung von 25 bis 89 Punkten bei Gesamtbewertung,
ähnlich starke Schwankungen bei einzelnen Aufgaben

8.2.3.3. Validität

1. Inhaltsvalidität:

curriculare Validität und Lerngelegenheit in der Regel berücksichtigt


besser als bei mündlichen Prüfungen auf Grund des transsituativen Charakters,
schlechter als bei Tests

2. Konstruktvalidität:

Beurteilung wird durch verschiedene sachfremde Faktoren beeinflusst:


o durch Sympathie:
Hadley (1954): beliebte Schüler erhielten im Vergleich zu Unbeliebten in
den Testergebnissen zu 50% bessere Noten, als angemessen wäre und
umgekehrt
o durch Vorinformation:
Weiss (1965): Beurteilung von 2 Deutschaufsätzen durch ca. 90 Lehrer,
Variation der Vorinformation (Redakteurssohn vs. Eisenbahnersohn) positiv
dargestellter Schüler erhielt eine bis zu einer halben Notenstufe bessere
Bewertung
o durch Länge der Arbeit, Handschrift, Rechtschreibfehler Weiss (1965)
o durch das Geschlecht des Prüfers und des Prüflings
o durch das Fach an sich: mildere Beurteilung in musischen fächern
o durch die Klassengröße: bessere Beurteilung in kleineren Klassen
o durch die Jahrgangsstufe: Verschärfung der Zensuren von Klasse 1 bis 4

92
8.2 Schriftliche Prüfungen

o durch das klasseninterne Bezugssystem


o durch die Schulart: je „höher“ die Schule, desto strenger die Benotung
o durch die länderspezifische Zugehörigkeit

3. Empirische Validität:

Empfehlungen der Grundschullehrer bestätigen sich zu 60% Sommer (1983)


relativ hohe Korrelation zwischen Noten in der 4. Klasse und am Gymnasium
Roederer (1997)
aber: kaum Zusammenhänge zwischen Noten und Berufserfolg Althoff (1986)
Noten haben geringere prognostische Validität als Tests Tent (1969)

8.2.4. Verbesserungsmöglichkeiten:

8.2.4.1. Objektivität

1. Durchführungsobjektivität:

gleiche Hilfsmittel für alle Prüflinge


Individualisierung bei Prüfungsängstlichen

2. Auswertung- &Interpretationsobjektivität:

Kriterienkatalog einsetzen
bei freien Arbeiten: Teamauswertung nach Globaleindruck & Kriterienkatalog
getrennte Beurteilung durch Zweitprüfer
Entwicklung eines schulinternen Bezugssystems

8.2.4.2. Reliabilität

1. Wiederholungsreliabilität:

Möglichkeit der Prüfungswiederholung einräumen (i.d.R. gegeben)

2. Paralleltestreliabilität:

Einsatz von Zweitprüfern

93
8.3 Vor- und Nachteile schriftlicher Prüfungen in Abgrenzung von Schulleistungstests

8.2.4.3. Validität

1. Inhaltsvalidität:

Experten-Rating der Fragen


Berücksichtigung der Lerngelegenheit

2. empirische Validität:

Überprüfung des Zusammenhangs mit anderen Kriterien wie weiteren schriftlichen


Prüfungen, mündlichen Prüfungen, Tests usw.

3. Konstruktvalidität:

Pluralismus der Prüfungsmethoden Wahlmöglichkeit


Bewusstheit über Verzerrungseffekte
Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf
geschlossene Antwortformate verwenden geringe Inferenz
neue Formen der Leistungsbeurteilung berücksichtigen
Anonymisierung einführen verhindert Sympathie- und Erwartungseffekte
Prüfungen nach erster Durchsicht in andere Reihenfolge bringen und erneut
korrigieren vermeidet Kontrasteffekte
besser mehrere Einzelprüfungen statt einer einzelnen Prüfung

8.3. Vor- und Nachteile schriftlicher Prüfungen in Abgrenzung


von Schulleistungstests
Vorteile Nachteile
schriftliche Prüfungen schriftliche Prüfungen
Curriculare Validität und Lerngelegenheit Gütekriterien sind weniger gut erfüllt als
wird i.d.R. berücksichtigt bei Tests: v.a. bei freien Arbeiten
Standardisierte SLTs: Curriculare Validitätsprobleme wegen mangelnder
Validität nicht immer gegeben; Auswertungskriterien, des Einflusses des
Lerngelegenheit kann nicht berücksichtigt Vorwissens & des klasseninternen
werden Bezugssystems Standardisierte SLTs:
sehr gute Erfüllung durch
Standardisierung, geschlossene
Antwortformate, Auswertung mittels
Schablone, ggf. Anonymisierung,
Experten-Rating bei Fragen usw.
Objektivitäts- und Reliabilitätsprüfungen

94
8.4 Mündliche vs. schriftliche Prüfungen

sind außer bei Abschlussprüfungen in der


Praxis nicht vorgesehen
Manche Formen der schriftlichen Prüfung bei freien Arbeiten hoher Zeitaufwand
wirken intrinsisch motivieren (z.B. freie für die Korrektur
Hausarbeit) Standardisierte SLTs:
wegen geschlossenen Antwortformaten &
vorgegebenem Thema kaum motivierend
schriftliche Prüfungen erlauben
detaillierte & umfassendere
Rückmeldung für den Prüfer und den
Prüfling Standardisierte SLTs: Tests
werden i.d.R. nur mittels Schablone
ausgewertet; weitere Kommentare sind
nicht vorgesehen; Tests erfassen nur eng
umgrenztes Wissensgebiet
Gütekriterien sind bei schriftlichen
Prüfungen besser erfüllt als bei
mündlichen Prüfungen

V.a. bei Selektionsentscheidungen sollten schriftliche Prüfungen durch


Schulleistungstests ergänzt werden!

8.4. Mündliche vs. schriftliche Prüfungen


(Jäger, 2000)

MÜNDLICHE PRÜFUNGEN SCHRIFTLICHE PRÜFUNGEN


adaptiv: fixiert:
Einstellen auf den Prüfling möglich vorgegebene Fragen müssen bearbeitet
werden
kommunikativ: reaktiv:
Austausch zwischen Prüfer und Prüfling Reaktion des Prüflings auf schriftliche
Fragen
auslotend: Grenzen vorgeben:
Eruieren des individuellen Fähigkeitsniveaus Prüfer und Prüfling halten sich an
möglich vorgegeben Fragen
singulärer Bezug: Gruppenbezug:
Einzelperson wird geprüft Gruppe wird geprüft
eher zeitlich unbestimmt: eher zeitlich bestimmt:
keine allzu strengen zeitlichen Grenzen strenge zeitliche Grenzen
situativ: transsituativ:
Fragen werden oft aus der Situation heraus Fragen kommen unabhängig von der
gestellt Situation zu Stande
umfassend: ausschnitthaft:

95
9.1 Funktionen

kann größeres Wissensspektrum erfassen stichprobenartiger Charakter

9. Zensuren und Zeugnisse

9.1. Funktionen
Der Zweck von Leistungsbeurteilung in der Schule ist generell in den Aspekten Vergleich,
Analyse und Prognose zu sehen, und zwar für mehrere am Bewertungsprozess interessierte
Beteiligte:

Lernender: Rückmeldung über Lernerfolg


Lehrender: Abschätzung des Unterrichtserfolgs
Erziehungsberechtigte: Hilfe für eigene Entscheidungen (Nachhilfe…)
Außerschulische Interessengruppen: Vergleichsinfos
Staat: Vorhandensein von genügend qualifizierten Schülern in Gesellschaft

9.1.1. Kontrolle
Eine wesentliche Funktion von Noten ist die Kontrolle des erreichten Kenntnisstandes
(Anforderung des Lehrplans). Um eine weitgehende Homogenität des Leistungsstandes in
einer Klasse zu gewährleisten, ist es nötig, den Kenntnisstand in bestimmten Abständen zu
kontrollieren.

Diese Kontrolle ist wichtig für:

Schüler: Rückmeldung über die Erreichung des gesetzten Lernziels


Lehrer: Überwachung seines Unterrichtserfolgs

Kritik: Die Kontrollfunktion ist nur bei objektiver Erstellung der Zensuren möglich!

9.1.2. Bericht und Information


Noten und Zeugnisse haben auch für außenstehende Dritte (Eltern) die Aufgabe eines
standardisierten Berichts, sie sollen die Eltern über Kenntnisstand ihrer Kinder informieren

Kritik: In vielen Fällen nehmen Eltern leider erst Zeugnisnoten bewusst zur Kenntnis.
Kurzfristige Störungen oder auch langanhaltende Spannungen zwischen Schüler und Eltern
oder Schüler und Lehrer; Gefahr falscher Noteninterpretation der Eltern.

96
9.1 Funktionen

9.1.3. Berechtigung
Nur durch den formalen Nachweis eines bestimmten Kenntnisstandes sind für den Schüler
bestimmte Berechtigungen formaler Art gegeben. ( Hochschulberechtigung: NC, Latinum,
…)

Kritik: Berechtigungsfunktion von Noten und Zeugnissen hat ausschließlich formalen


Charakter. (Bestimmte Note erreicht Keine weitere Überprüfung des Kenntnisstandes)

9.1.4. Auslese
Das Leistungsprinzip ist in unserer Gesellschaft der wichtigste Verteilungsmechanismus
Schule = Qualifikations- und Sozialisationsinstanz

Auslese geschieht grundsätzlich durch Noten und Zeugnisse (Annahme: Zeugnisse sagen
weitere Leistungsfähigkeit voraus).

Kritik: Die Auslese ist eine der wichtigste, aber auch eine der pädagogisch fragwürdigsten
Funktionen der Schule bzw. der Noten. Die Zensuren bestimmen das Vorrücken in die
nächste Jahrgangsstufe.
„Existenzkampf“, Konkurrenz der Schüler, Lehrer = Verwalter von
„Lebensschicksalen“

9.1.5. Rückmeldung und Steuerung im Lernprozess


Beurteilung von Leistungen dient der Rückmeldung an Schüler und Lehrer hinsichtlich des
bisher erreichten Kenntnisstandes.

Angelehnt an das Modell des Regelkreises:

Werden
zu zueinander in
vorhandener
erreichender Bezug gesetzt Ist-Wert
Sollwert

Rückmeldung für Lehrer:

97
9.2 Ermittlung

Einsetzung äußerer und innerer Differenzierung


Überprüfung des Unterrichtskonzepts auf Effektivität
Rechtzeitiges Erkennen von Über- und Unterforderung der Schüler

9.1.6. Motivation
Noten = Anreiz zu positivem Leistungsverhalten (Operantes Konditionieren: Positive
Verstärkung Lob kriegen; negative Verstärkung schlechte Noten meiden)

Kritik: Die Motivation durch Noten ist eher extrinsisch und damit qualitativ weniger
hochwertig als die intrinsische Motivation.
Bei leistungsschwachen Schülern ist durch Leistungsdruck sogar gegenteilige Wirkung zu
erwarten. Notendruck stellt generell eine Gefahr dar („Notenpeitsche“, Prüfungsangst)

9.1.7. Disziplinierung
Nicht ordnungsgemäßes Verhalten wird durch schlechte Noten bestraft.

Kritik: Disziplinierung durch Noten ist pädagogisch sehr bedenklich:

Leistungslähmende Auswirkungen auf den Unterricht


Teilweise Entstehung von Konkurrenzsituationen und Prüfungsangst
Gefahr der Manipulation durch die Note als Disziplinierungsmittel

Validität verletzt, da Verhalten statt Leistung gemessen wird!

9.2. Ermittlung
Schulnoten werden i.d.R. durch schriftliche Arbeiten, mündliche Prüfungen und
Mitarbeitsnoten („Eindrucksnoten“) ermittelt. Anzahl, Zeitpunkte, Inhalte und Gewichtung
solcher Prüfungen sind im Einzelnen durch Erlasse (Lehrplan …) geregelt.

9.3. Gütekriterien und Kritik


Anhand der Gütekriterien wird die Kritikwürdigkeit der Schulnoten deutlich vor Augen
geführt.

Im Folgenden wird deshalb die Erfüllung der Hauptgütekriterien bei der Notengebung
genauer betrachtet.

98
9.3 Gütekriterien und Kritik

9.3.1. Objektivität
Objektivität wäre nur bei standardisierten Formen der Aufgabenstellung/Beantwortung und
technischer Auswertung vollständig gegeben.

In der Schule allenfalls geminderte Objektivität: Note wäre nur dann objektiv, wenn
gleiche Leistung von verschiedenen Lehrern gleich beurteilt wird.

Gründe für mangelnde Objektivität:

Uneinheitliche Bewertungskriterien (Unterschiedliche Vorstellung der Lehrer,


inwieweit z.B. Schriftbild und Rechtschreibfehler in Aufsatzbeurteilung eingehen)
Wesentliche Kriterien der Beurteilung sind nicht eindeutig definierbar „Halo-
Effekt“, d.h. man schreibt Person mit schlechter Handschrift unbewusst auch schlechten
Sprachstil zu
Persönlichkeit des Lehrers Beurteilungsfehler möglich
Kennen des Beurteilten Eindrücke, Erfahrungen, Stereotype mindern die
Objektivität
Empirische Untersuchungen haben gezeigt, dass Lehrer
o auf unterschiedlichen Strengeniveaus urteilen
o die Notenskala unterschiedlich ausschöpfen
o sich in der Differenziertheit der Notengebung unterscheiden
o unterschiedliche Kriterien bei Bewertung der Arbeiten zugrundelegen

Verbesserungsmöglichkeiten:

Erarbeitung eines Kriterienkatalogs vor der Bewertung


Möglichst viele Leistungsüberprüfungen
Mehrere Bewerter/Lehrer sollten eine Arbeit beurteilen sicheres Urteil

9.3.2. Reliabilität
Hohe Reliabilität (Grad der Messgenauigkeit) liegt vor, wenn man einen Test häufig
durchführt und mehrmals das gleiche Ergebnis erzielt (z.B. Schulaufgabe zweimal
hintereinander, gleiches Ergebnis).

Gründe für mangelnde Reliabilität:

In Prüfungssituation spiele auch Zufall, Konzentrationsmangel, Leichtsinn, Motivation,


Wohlbefinden … eine Rolle.

99
9.3 Gütekriterien und Kritik

Schulnoten geben selten genauen Aufschluss über tatsächliches Wissen des Schülers,
sondern eher über in einmaliger Situation reproduziertes Wissen.

9.3.3. Validität
Die Validität von Schulnoten macht eine Aussage darüber, inwieweit diejenigen Leistungen
notengemäß bewertet werden, die vom Test bewertet werden sollen.

Gründe für mangelnde Validität:

Mitbewertung von
Schriftbild
äußerer Form
Rechtschreibung bei Aufsatzbeurteilung,
die eigentlich nicht Kriterien eines guten Aufsatzes sind, oder Fragen in Klassenarbeiten, die
im Unterricht nicht behandelt wurden.

Bei der Notengebung muss man zwischen den verschiedenen Arten der Validität
unterscheiden.

9.3.3.1. Inhaltsvalidität

Die Aufgabenstellung in einer Klassenarbeit ist in dem Maß inhaltlich valide, in dem sie dem
zu überprüfenden Stoffgebiet entspricht.

Gründe für mangelnde Inhaltsvalidität:

Es ist kaum möglich, ausschließlich das zu überprüfende Stoffgebiet zu testen


(Grundwissen: z.B. Grundlagen in Rechtschreibung)
Inhaltsvalidität ist nur zu erreichen, wenn ein Test operationalisierbare Lernziele
überprüft, was aber nicht bei allen im Lehrplan formulierten Lernzielen der Fall ist
(z.B. Entwicklung von Musikverständnis)

9.3.3.2. Vorhersagevalidität

Schulnoten sollten – um empirisch valide zu sein – Prognosen über den weiteren schulischen
Lebensweg, Bildungsweg oder berufliche Ausbildung geben können.

100
9.3 Gütekriterien und Kritik

Nach Ingenkamp (1976) ergaben Untersuchungen, dass 33% der Schüler mit „geeignetem“
bzw. „sehr geeignetem“ Übertritts Zeugnis aus der Grundschule die Vorhersage in keine
tatsächlich erfolgreiche Schullaufbahn im Gymnasium umsetzen konnten.
Notengebung erfüllt Vorhersagevalidität nicht

Gründe für mangelnde Vorhersagevalidität:

Es gibt viele andere Faktoren (außer Schulnoten), die über einen erfolgreichen Übertritt von
Grundschule auf Gymnasium bzw. Studienerfolg entscheiden: Entwicklung der Persönlichkeit
(Pubertät), Qualität der Vermittlung, neue Umgebung …

9.3.3.3. Kriterienbezogene Validität

Die kriterienbezogene Validität sagt etwas darüber aus, inwieweit die Schulnote Aufschluss
darüber gibt, ob das Unterrichtsziel erreicht wurde.

Sie ist höher, wenn das Lernziel operationalisierbar ist (In Mathetests ist sie mit Kriterien wie
Rechenweg, -fehler, -ergebnis leichter zu gewährleisten als in der Aufsatzbeurteilung).
Wenn also bestimmte, vorab definierte bzw. stillschweigend anerkannte Kriterien Maßstab
für die Beurteilung sind.

Gründe für mangelnde kriterienbezogene Validität:

Beurteilungskriterien sind oft nur vage bestimmt


Bei Aufsatzbeurteilung (Was ist guter/schlechter Aufsatz?) und im Sport
(individueller Einsatz/körperliche Voraussetzungen mit einbeziehen?) besonders
schwierig
Unterschiedliche Auffassungen (bedingt durch unterschiedliche Ausbildung,
fachdidaktische Positionen, verschiedene Fortbildungen, berufliche Erfahrungen …)
gehen in die Bewertung mit ein.

9.3.3.4. Insgesamt

Noten sind ein fester Bestandteil der Schule, die einige wichtige Funktionen haben

Notengebung ist jedoch mit schwerwiegenden Problemen behaftet:


Wie benotet man gerecht/objektiv?
Nach welchen Kriterien wird benotet?
Wie soll mit Prüfungsangst umgegangen werden? …

101
10.1 Allgemeines

10. Intelligenztests

10.1. Allgemeines

Im Unterschied zum Leistungstest (misst tatsächlich erbrachte Leistungen in einzelnen


Fächern) werden die Inhalte von Intelligenztests gewöhnlich nicht explizit in der
Schule unterrichtet
Intelligenztests testen mehr die fluiden Fähigkeiten Leistungstests eher kristallines
Wissen
Entwicklung der Intelligenz: Intelligenzstabilisierung im Alter von etwa 12 Jahren

10.2. Geschichte der Intelligenzmessung


1) Psychiatrie:
a. Esquirol, frz. Psychiater, verwendete bereits 1838 die Sprachbeherrschung,
um den Ausprägungsgrad von Schwachsinn abzuschätzen. Er verglich die
Sprache von Schwachsinnigen mit den Sprachäußerungen von Kindern und
schließt vom Grad der Deformiertheit der Sprache auf den
Schwachsinnsgrad
b. Emil Kraeplin, dt. Psychiater (1895): psychiatrische Leistung kann in
Beziehung zu einer Durchschnittsnorm bestimmt werden. Norm durch
Massenbeobachtung gewonnen; Abweichungen galten als krankhaft,
abnormal

2) Genetik:
Francis Galton (1870), engl. Biologe, hat mithilfe von Tests/Fragebögen versucht
Daten zu ermitteln, die das Individuum bestimmen. Er beschäftigte sich mit
individuellen Verschiedenheiten der Intelligenz und fand Methoden, um solche
Fähigkeiten quantitativ zu erfassen. Überlegung, dass diese Unterschiede genetisch
bedingt sind.

3) Experimentelle Psychologie:
James McKeen Catell (1890) Begründer der Testpsychologie er konzipierte eine
Reihe von Einzeltests, die erstmals unter präzisen Bedingungen durchgeführt und
objektiv ausgewertet wurden.

4) Schulische Anwendungsaspekte:
a. Ebbinghaus (1895) verwendete Prüfungen der Rechenfähigkeit, des
Gedächtnisses und der Kombinationsfähigkeit (Lückentests). Er stellte fest,
102
10.3 Definition Intelligenz

dass mit zunehmendem Alter bei Schülern eine deutliche Leistungssteigerung


einherginge. Ohne es zu wollen entwarf er sozusagen den ersten
Intelligenztest
b. Alfred Binet (1911)
i. Erfassung von Intelligenz muss dort ansetzen, wo sich Intelligenz
unmittelbar zeigt (Urteilen, Verstehen und Denken) und nicht bei der
Analyse elementarer Sinnesleistungen
ii. Griff auf Galtons Idee einer Testreihe zurück
iii. Intelligenz ist nicht absolut messbar, sondern relativ zu betrachten
(kindliche Intelligenz muss mit „kindlichen“ Maßstäben gemessen
werden). Differenzbildung: Intelligenzalter (IA) – Lebensalter (LA)

5) Differentielle Psychologie:
a. William Stern definierte Intelligenz (1912): Intelligenz ist die allgemeine
Fähigkeit eines Individuums, sein Denken bewusst auf neue Forderungen
einzustellen; sie ist die allgemeine geistige Anpassungsfähigkeit an neue
Aufgaben und Bedingungen des Lebens. Intelligenzquotient =
(Intelligenzalter / Lebensalter) x 100
b. 1939 definierte David Wechsler den IQ als Abweichungsquotienten von der
durchschnittlichen Leistung Personen gleichen Alters; Mittelwert 100, Streuung
15: IQ = 100 + [(X – aM) / s] x 15
X = individuelle Rohwert
aM = Mittelwert der jeweiligen Altersgruppe
s = Streuung der Rohwerte
15 = Standardabweichung des IQ-Maßes

10.3. Definition Intelligenz

Es gibt zahlreiche Definitionen für Intelligenz


Diese Definitionen haben aber nur begrenzten und mehr hypothetischen Wert

Intelligenz ist die personale Fähigkeit, sich unter zweckmäßiger Verfügung der Denkmittel
auf neue Forderungen einzustellen (Stern, 1912).

Intelligenz ist die zusammengesetzte oder globale Fähigkeit des Individuums, zweckvoll zu
handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll
auseinanderzusetzen (Wechsler, 1944).

Intelligenz wird als Fähigkeit verstanden, sich neuen Gegebenheiten anzupassen, zugleich
aber auch als Fähigkeit, die Umwelt zu verändern (Sternberg, 1997).

103
10.4 Intelligenzmodelle Übersicht

10.4. Intelligenzmodelle Übersicht

Zwei-Faktoren-Theorie
Spearman, 1904

Zweifaktorenmodell
Wechsler, 1958

Psychometrische Theorie der Primärfaktoren


Thurstone, 1941

Zwei-Faktoren-Modell
Cattell & Horn, 1963

Intelligenzmodelle Berliner
Intelligenzstruckturmodell
Jäger, 1984

Triarchische Theorie der


Intelligenz Sternberg, 1984
Kognitive
Modell der sieben
Intelligenzen Gardner,
1983

10.5. Psychometrische Intelligenzmodelle

10.5.1. Zwei-Faktoren-Theorie
(nach Spearman 1904,1927)

general factor (g)

•variiert bei verschiedenen Individuen, aber er ist für jedes Individuum in allen
korrelierten Leistungen als gemeinsamer Faktor nachgewiesen
•d.h. die Guten sind mehr oder minder überall gut und die Schlechten eher überall
schlecht
•allgemeine Intelligenz: von Mensch zu Mensch unterschiedlich

specific factor (s)

•nicht nur von Mensch zu Mensch unterschiedlich


•sondern auch von Fähigkeit zu Fähigkeit des jeweiligen Menschen
•spezifischer Begabungsfaktor

Mit dieser Theorie lässt sich erklären, wieso machen Menschen eine besondere Begabung in
einem bestimmten Bereich besitzen, ihre allgemeine Intelligenz jedoch relativ gering ist,
oder umgekehrt.

Testbeispiel:

104
10.5 Psychometrische Intelligenzmodelle

BT 1-2: Bildertest für die 1. und 2. Klasse (Horn & Schwarz, 1994)
BT 2-3: Bildertest für die 2. und 3. Klasse (Ingenkamp, 1976)

10.5.2. Zweifaktorenmodell
(nach Wechsler, 1958)

Unterscheidung in g-Faktor und zwei untergeordnete Intelligenzkomponenten


o Verbale Intelligenz
o Parktische Handlungsintelligenz

Ist die Grundlage für die am weitest verbreiteten Intelligenztest in Deutschland


(WISC-IV)

10.5.3. Theorie der Primärfaktoren


(nach Thurstone, 1938)

Seiner Meinung nach können die Vielzahl der beobachteten Einzeltestleistungen durch
Rückführung auf sieben grundlegende Primärfaktoren beschrieben werden
Intelligenz keine globale Fähigkeit
Dürfte nicht mittels einer Zahl dargestellt werden
Intelligenz = ein Intelligenzprofil, das die Ausprägungen der Einzelfähigkeiten
darstellt

105
10.5 Psychometrische Intelligenzmodelle

V: sprachliches Verständnis

P: Wahrnehmungsschnelligkeit

I: Induktives Denken

Intelligenz
N: Rechengewandtheit

D: Deduktives Denken

W: Schnelligkeit der Wortfindung

M: Gedächtnis

S: Raumvorstellung

Beispiel:
LPS: Leistungsprüfungssystem (Horn, 1983)
PSB-R 4-6: Prüfsystem für Schul- und Bildungsberatung (Horn, 2002)

10.5.4. Zwei-Faktoren-Modell
(nach Cattell & Horn, 1963)

Fluide Intelligenz

• der g-Faktor
• Abhängig von der Funktionstüchtigkeit hirnphysiologischer Prozesse
• vorwiegend erbbedingt
• weniger durch Lernen beeinflussbar

Kristalline Intelligenz

• Abhängig von Lernen und Umwelt

Beispiele:
CFT 1: Grundintelligenztests Skala 1 (Cattell et al. 1997)
CFT 20: Grundintelligenztests Skala 20 mit Wortschatz- und Zahlenfolgentests
(Weiß, 1998)
CFT 1-R: Grundintelligenztest Skala 1 (Weiß & Osterland, 2013)

10.5.5. Berliner Intelligenzstrukturmodell


(nach Jäger, 1973)

106
10.6 Kognitive Intelligenztheorien

Allgemeine Intelligenz

Operationsfaktoren Inhaltsfaktoren

E: Einfallsreichtum F: figural-bildhaft
M: Merkfähigkeit V: verbal
B: Verarbeitungsgeschwindigkeit N: numerisch
K: Verarbeitungskapazität

10.6. Kognitive Intelligenztheorien


Neuere Ansätze zur Intelligenztheorie. Hierin werden die kognitiven Prozesse der
Informationsverarbeitung oder des Problemlösens besonders beachtet.

10.6.1. Triarchische Theorie der Intelligenz


(nach Sternberg, 1984)

Intelligenz ist die Fähigkeit, im Leben erfolgreich zu sein, unter der Voraussetzung seiner
persönlichen Standards und innerhalb seines soziokulturellen Kontexts (Sternberg, 2000).

107
10.6 Kognitive Intelligenztheorien

Leistungs-
komponent
en

Wissens-
erwerbs-
Kognitive
komponent Intelligenz- Erfahrung
en komponenten

Metakomp
onenten

Umwelt

Erklärung: Intelligentes besteht aus dem Zusammenwirken von kognitiven


Intelligenzkomponenten, Erfahrung und Umwelt. Jede dieser Teiltheorien hat wiederum eine
eigene Struktur

10.6.2. Modell der sieben Intelligenzen


(nach Gardner, 1983)

Für Howard Gardner besteht Intelligenz in der Fähigkeit, Probleme zu lösen oder Produkte
zu schaffen, die im Rahmen einer oder mehrerer Kulturen gefragt sind.

Später wurde das Modell auf achteinhalb Intelligenzen ausgeweitet (Gardner, 2000)

108
10.7 Aufbau Intelligenztests

10.7. Aufbau Intelligenztests


Intelligenztests bestehen aus einzelnen Aufgaben oder „Items“ aus jeweils verschiedenen
Itemgruppen und Untertests. Dabei werden in verbaler oder nonverbaler Form Probleme
vorgegeben oder Fragen gestellt, die von der Testperson eine Antwort bzw. Bearbeitung
erfordern.

Die Fragen in diesen Tests sind nach Gruppen geordnet, die im Schwierigkeitsgrad
ansteigen. Die Summe der Punkte, die in einem IQ-Test erreicht wurde, bildet dann den
Rohwert, der dann in einem aussagekräftigen Standardwert umgewandelt wird. IQ-Tests
tendieren in der Regel zu einer Normalverteilung.

10.8. Messung von Intelligenz

10.8.1. Frühere Intelligenzmessung


(Achtung: heute nicht mehr gültig)

Differenzberechnung:
Intelligenztests liefern ein Maß für die Gesamtintelligenz einer Person – den so genannten
Intelligenzquotienten (IQ). Der Begriff wurde von William Stern (1912) eingeführt und ist
das Maß für die intellektuelle Leistungsfähigkeit einer Person im Vergleich zu Gleichaltrigen.
𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑧𝑎𝑙𝑡𝑒𝑟
Er wurde ursprünglich definiert als 𝑥 100.
𝐿𝑒𝑏𝑒𝑛𝑠𝑎𝑙𝑡𝑒𝑟

10.8.2. Moderne Intelligenzmessung


IQ als Abweichungsquotient: (nach Wechsler, 1956)
Die moderne Definition ist etwas anders: Intelligenz ist – wie umfangreiche Tests zeigten –
ähnlich wie viele Größen normalverteilt, gehorcht also einer Gauß`schen Glockenkurve. Der
IQ-Wert ist dabei der Mittelwert der Intelligenz in einer Altersgruppe und (willkürlich) auf
100 festgelegt. 15 Punkte auf der IQ-Skala entsprechen einer Standardabweichung. Bspw.
haben 68% der Personen einen IQ von 85 bis 115 (das sind 2 Standardabweichungen).

Vorteil dieser Definition: IQ-Werte können auch über Altersstufen hinweg leicht verglichen
werden.

Berechnung:
(𝑋𝑖 − 𝑎𝑀)
𝐼𝑄 = 100 + × 15
𝑠

Xi = individueller Rohwert

109
10.9 Relevanz von Intelligenz für schulisches Lernen

aM = arithmetischer Mittelwert der jeweiligen Altersgruppe


s = Streuung der Rohwerte
15 = Standardabweichung des IQ-Maßes

Verteilung IQ:

10.9. Relevanz von Intelligenz für schulisches Lernen


Übersicht über die statistische Vorhersage des Schulerfolgs durch Intelligenztests:
(nach Kühn, 1987)

Zensuren in den für die Schulkarriere bedeutsameren Hauptfächern lassen sich


besser vorhersagen (an der Spitze liegt Mathematik) als die Noten in den
Nebenfächern
die Beziehungen zu Leistungen in standardisierten Schultests sind hoch und enger als
zu Schulnoten
der Zusammenhang zu Schulleistungen fällt bei Tests mit stärkerer verbaler
Ausrichtung höher aus als bei nicht-verbalen Tests
Mittlere Korrelationen von Intelligenz und Schulnoten

Weitere Zusammenhänge:
Zusammenhang mit Problemlösendem Denken
Intelligenz erklärt zwischen 25% und 45% der Unterschiede in Schulleistungen (nach
Hasse & Latzko, 2011)
mit zunehmender Klassenstufe abnehmende Bedeutung (Schneider et al., 1989)
Ergebnisse aus der Experten-Novizen-Forschung: Experten weisen leicht höhere
Intelligenzwerte auf (Sternberg & Wagner, 1985)
Gute prognostische Validität für Schulerfolg: in Metaanalysen bis zu r = .50
o z.B. Amelang&Bartussek, 1997; Fraser, Walberg, Welch & Hattie, 1987

110
10.10 Sprachgebundene Intelligenztests

10.10. Sprachgebundene Intelligenztests


WISC-IV (Hamburg-Wechsler-Intelligenztest für Kinder):
(Vormals HAWIK-IV; Petermann & Petermann, 2011)

Altersbereich 6; 0-16; 11 Jahre


Test-typ Einzeltest
Jahr 2011
Der WISC-IV dient der Erfassung von Niveau und Struktur der
Intelligenz von Kindern ab 6 Jahren und Jugendlichen bis 16;11
Zielsetzung Jahren. Er ermöglicht die Beurteilung von individuellen Stärken und
Schwächen und unterstützt die Ableitung spezifischer
Fördermaßnahmen.

Der WISC-IV basiert auf dem pragmatisch-erfahrungsgeleiteten


Intelligenzmodell von David Wechsler. Der Test bildet teilweise die
zweite Ebene des empirisch gesicherten Cattell-Horn-Carroll-Modells
ab (CHC-Modell; z.B. Flanagan & Kaufman, 2004), welches im
Grundlage Manual jedoch nicht explizit erwähnt wird. Anders als in den
Vorgängerversionen gibt es keine Unterscheidung mehr in einen
Handlungs- und Verbalteil, sondern es werden neben der
allgemeinen Intelligenz Sprachverständnis,
wahrnehmungsgebundenes logisches Denken, Arbeitsgedächtnis und
Verarbeitungsgeschwindigkeit erfasst.
10 obligatorische Subtests (Gemeinsamkeiten finden, Wortschatz-
Test, Allgemeines Verständnis, Mosaik-Test, Bildkonzepte,
Matrizen-Test, Zahlen nachsprechen, Buchstaben-Zahlen-Folge,
Zahlen-Symbol-Test uns Symbol-Suche) sowie 5 optionale Subtests
(Allgemeines Wissen, Begriffe erkennen, Bilder ergänzen,
Rechnerisches Denken, Durchstreich-Test).
Aufbau Anpassung von Subtests an Entwicklungsstand des Kindes z.T.
möglich (z.B., wenn Kinder noch sehr jung sind oder feinmotorische
Schwierigkeiten vorliegen).
4 Indexwerte (Sprachverständnis, Wahrnehmungsgebundenes
logisches Denken, Arbeitsgedächtnis und
Verarbeitungsgeschwindigkeit) sowie Gesamt-IQ.
Es existiert kein Paralleltest.
Dauer 1-2 Stunden
Autoren Petermann & Petermann, 2011
Anwendung in der Hochbegabungsdiagnostik
Die Eignung des WISC-IV für die Hochbegabungsdiagnostik ist nicht abschließend beurteilbar
Screening Nicht als Gruppentest durchführbar
Fähigkeitsprofilerstellung Möglich
Schullaufbahnberatung Weitestgehend geeignet

111
10.11 Sprachfreier Intelligenztest

Selektionsentscheidungen Geeignet
Gütekriterien
Durchführungsobjektivität: gegeben (Instruktionen mit
Wortlaut gegeben und Durchführungsregeln)

Auswertungsobjektivität: gegeben (Genaue


Objektivität
Auswertungshinweise und Computergestützte Auswertung

Interpretationsobjektivität: Normwerte und Ausführliche


Interpretationshinweise
Paralleltestreliabilität: keine Paralleltests vorhanden

Retest-Reliabilität: eingeschränkt vorhanden


Reliabilität
Interne Konsistenz: Angaben fehlen

Profilreliabilität: Angaben fehlen


Konstruktvalidität: gegeben

Kriteriumsvalidität: Angaben zur Beurteilung nicht


Validität
ausreichend

Prognostische Validität: Angaben fehlen

Auswertung:

1. Ermittlung der Rohwerte


2. Umrechnung der Rohwerte in Wertpunkte (altersnormiert)
3. Berechnung der Wertpunktsummen der Indizes
4. Ermittlung des Gesamt-IQs (mit Prozentrang und Vertrauensintervall („realistische
also am Durchschnitt orientierte Einschätzung der Werte“)

Gütekriterien:
Objektivität und Reliabilität: sehr gut (Re-Test-Reliabilität: ca. r = .90)
Validität: Vergleiche mit anderen Tests problematisch (andere Modelle!) – bei
Hochbegabten sehr gut

10.11. Sprachfreier Intelligenztest


CFT 1-R Grundintelligenztest Skala 1
(nach Weiß & Osterland, 2013)

112
10.11 Sprachfreier Intelligenztest

Altersbereich 5; 4-9; 11 Jahre


Test-typ Einzel- und Gruppentest
Jahr 2013

Zielsetzung sprachfreien Erfassung der Grundintelligenz (fluide Intelligenz) mittels


figuralem Aufgabenmaterial bei fünf bis neunjährigen

Dem Test liegt die Intelligenztheorie von Cattell (1963) zugrunde.


Demnach setzt sich die allgemeine intellektuelle Leistungsfähigkeit aus
Grundlage
kristalliner Intelligenz (erworbenes Faktenwissen) und fluider Intelligenz
(Fähigkeit zum Erkennen von Unterschieden, Beziehungen und zum
schlussfolgernden Denken) zusammen
6 Subtests: (1) Substitutionen, (2) Labyrinthe, (3) Ähnlichkeiten, (4)
Reihenfortsetzen, (5) Klassifikation und (6) Matrizen.
Die Untertests sind auf 2 Testteile verteilt.
Subtests 1 bis 3 (Teil 1) messen figurale Wahrnehmung und
Verarbeitungsgeschwindigkeit, Subtests 4 bis 6 (Teil 2) erfassen
figurales Denken.

Aufbau Testzeit kann variiert werden („Kurzform“ mit ca. 4 Min. weniger Zeit
für Aufgabenbearbeitung als bei regulärer „Langform“).
Maximalgrößen für Gruppentestungen: Kindergarten 6 Kinder,
Förder- und Sonderschule 4 Kinder (1. Klasse) bis 12 Kinder (3./4.
Klasse), Grundschule 10 Kinder (1. Klasse) bis 15 Kinder (2./3.
Klasse).
Es existiert kein Paralleltest.

Autoren Weiß & Osterland, 2013


Anwendung in der Hochbegabungsdiagnostik
Der CFT 1-R eignet sich eher zur Intelligenzdiagnostik im mittleren und unteren Begabungsbereich
Geeignet
Screening Der CFT 1-R ist als Gruppentest mit bis zu 15 Kindern in ca. 60 Min.
durchführbar.
Aufgrund des eingeschränkten Messbereichs (fluide Intelligenz mit
Fähigkeitsprofilerstellung figuralem Aufgabenmaterial) ist die Erstellung eines Intelligenzprofils
nicht möglich
Schullaufbahnberatung Eingeschränkt geeignet
Selektionsentscheidungen Eingeschränkt geeignet
Gütekriterien
Durchführungsobjektivität: gegeben (Durchführungsinstruktion
und Zeitangaben)

Auswertungsobjektivität: gegeben (Genaue Hinweise


Objektivität
vorhanden; Computergestützte Auswertung)

Interpretationsobjektivität: gegeben (Normtabellen und


ausführliche Interpretationshinweise)

113
10.12 Anwendungsbereiche

Paralleltestreliabilität: kein Paralleltest vorhanden

Testhalbierungsreliabilität: Angaben fehlen


Reliabilität
Retest-reliabilität: gegeben und sehr gut

Interne Konsistenz: gegeben


Konstruktvalidität: gegeben

Kriteriumsvalidität: Angaben nicht ausreichend


Validität

Prognostische Validität: eingeschränkt gegeben (niedrige bis


mittlere Korrelation mit Mathenote)

10.12. Anwendungsbereiche

10.12.1. Feststellung des sonderpädagogischen Förderbedarfs

Lernbehinderung wird angenommen, sofern die Intelligenzleistung im Bereich zwischen der


negativen ersten und dritten Standardabweichung eines validen standardisierten
Intelligenzmessverfahrens liegt und wenn zugleich ein erhebliches Schulversagen gegeben
oder zu erwarten ist (Deutscher Bildungsrat, 1973).

Heute spricht man aber nicht mehr von Lernbehinderten Schülern, sondern von Schülern mit
sonderpädagogischem Förderbedarf.

Häufig verwendete Intelligenztests für die Feststellung des sonderpädagogischen


Förderbedarfs:
CFT 20: Grundintelligenztest Skala 2 mit Wortschatz- und Zahlenfolgentest
CFT 1: Grundintelligenztest Skala 1
CPM: Coloured Progressive Matrices
HAWIK-R: Hamburg-Wechsler-Intelligenztest für Kinder – Revision 1983

10.12.2. Übergang zur Sekundarstufe I


Ein wichtiger Bestandteil jeder Schullaufbahnberatung ist und bleibt die
Intelligenzdiagnostik. Intelligenztests sollten somit neben Grundschulempfehlungen und
Elternbefragungen in ein Inventar diagnostischer Maßnahmen eingefügt werden.

Folgende Intelligenztest werden hierfür vorgeschlagen:

114
10.13 Förderung der Intelligenz

KFT 4-12+R: Kognitiver Fähigkeitstest für 4.-12. Klassen, Revision (Heller & Perleth,
2000)
KLI 4-5: Kombinierter Lern- und Intelligenztest (Schröder, 1995)
PSB-R 4-6: Prüfsystem für Schul- und Bildungsberatung für 4.-6. Klassen – revidierte
Fassung (Horn, 2002)

10.12.3. Teilleistungsstörungen

Teilleistungsstörungen werden diagnostiziert, wenn die Schulleistungen im Lesen, Schreiben


oder Rechnen erheblich beeinträchtigt sind, die IQ-Werte aber größer als 84 sind
(Hasselhorn & Gold, 2013).

Es liegen also trotz mindestens durchschnittlicher Intelligenz in einzelnen Bereichen, die


isoliert, aber auch in verschiedenen Kombinationen auftreten können, Störungen vor, die
dann die sogenannten “umschriebenen Entwicklungsstörungen schulischer Fertigkeiten“ zur
Folge haben wie z.B. Legasthenie, Dyskalkulie

Diagnose:
Spezifischer Teilleistungsstörungstest (z.B. für Legasthenie)
Intelligenztest

10.13. Förderung der Intelligenz


„Versuche zur Hebung des Intelligenzniveaus“ (Selz, 1935) konnten das Intelligenzniveau in
der Regel nur in einem sehr bescheidenen Rahmen durch Trainingsprogramme steigern.

„Intelligenz lässt sich durch formal angelegte, zeitlich begrenzte Trainingsprogramme weder
erlernen noch nachhaltig verbessern“ (Weinert, 1994)

Steigert ein Arbeitsgedächtnistraining den IQ?

Bislang liegen lediglich für die Denktrainings von Klauer (z.B. 1993) Evaluationen
verschiedener Autoren vor, die einen nicht-trivialen Trainingseffekt von mittlerer
Größenordnung – direkt im Anschluss an das Training und über einige Monate hinweg –
belegen (Klauer & Phye, 2008)

Mit den Denktrainingsprogrammen von Klauer (1989, 1991, 1993, 2008) können
Kinder und Jugendliche
unter gezielter Anleitung (z.B. durch einen Lehrer)

115
10.14 Hochbegabte

das Identifizieren von Gleichheit und Verschiedenheit von Merkmalen


(Generalisierung, Differenzierung, Kreuzklassifikation) und Relationen
(Beziehungserfassung, Beziehungsunterscheidung, Systembildung) üben.
Ziel: Das Training zielt darauf ab, anhand von paradigmatischen Beispielen
Strategien zur Lösung der sechs Varianten zu trainieren.

Anforderungen dieser Art finden sich in Aufgaben, die induktiv-schlussfolgerndes Denken


erfordern.

Empirische Ergebnisse:
Meta-Analyse über 74 – zumeist quasi-experimentelle – Trainingsstudien (Klauer &
Phye, 2008)
Trainingsprogramme zur Förderung des induktiven Denkens führen zumindest zu
kurzfristigen Erfolgen mit bis zu mittleren Effektstärken
vor allem bei jüngeren Kindern und bei Kindern mit unterdurchschnittlicher Intelligenz.
Aber: Untersuchungen, die eine Wirksamkeit des Denktrainings über mehrere
Schuljahre hinweg (vor allem auf ökologisch relevante Kriterien wie beispielsweise
Schulleistungen in zentralen Fächern) belegen, stehen leider noch aus; nur bei einem
Experiment wurde nach 15 Monaten der Trainingserfolg evaluiert

10.14. Hochbegabte

Man spricht von Hochbegabung, wenn die allgemeine intellektuelle Leistungsfähigkeit


mindestens zwei Standardabweichungen über dem Mittelwert der Referenzpopulation liegt
(Hasselhorn & Gold, 2013).

Diesen Wert erreichen etwa nur 2% der Bevölkerung. In der gebräuchlichen Metrik des
Intelligenzquotienten ist als ein IQ-Wert von mindestens 130 erforderlich

10.14.1. Underachiever
„Hochbegabte Underachiever“

Lernende, die trotz sehr hoher Intelligenz nur bestenfalls durchschnittliche Schulleistungen
erbringen, werden als „Underachiever“ bezeichnet (Hasselhorn & Gold, 2013).

Mögliche Ursachen:
Bezeichnen sich selbst als unglücklich, unzufrieden, unbeliebt, psychisch instabil und
wenig attraktiv

116
11.1 Funktionen

Niedriges Niveau an Willenskontrolle, Impulsivität, leicht erregbar, sozial


zurückhaltend, scheu
Familiäre Umstände
Auffällige Probleme in den Bereichen Motivation, Selbstkonzept,
Konzentrationsprobleme und soziale Unsicherheiten

10.14.2. Overachiever
Bezeichnet eine Person, die Leistungen oberhalb ihres Potentials erreicht. Haben mehr
Erfolg, als man aufgrund von Leistungs- und Intelligenztests erwarten würde.

11. Evaluation

Evaluation ist die systematische Anwendung sozialwissenschaftlicher Forschungsmethoden


(von der Planungsphase bis hin zur Entwicklung und Umsetzung eines Programms) zur
Beurteilung des Konzepts, des Designs, der Umsetzung und des Nutzens sozialer
Interventionsprogramme (Rossi & Freemann, 1983).

Allgemein: Evaluation hat etwas mit systematischem Bewerten von Handlungsalternativen zu


tun.

11.1. Funktionen
zur eigenen Erkenntnisgewinnung und Selbstvergewisserung beitragen
die Steuerung bei Unterrichts-/ Schulentwicklungsprozessen unterstützten
der Rechenschaftslegung dienen

Es wird Unterschieden nach:


schulinterner (durch Schüler, Kollegen, Schulleitung) und
schulexterner Evaluation (durch Schulaufsicht, Eltern, Betriebe, Testinstitute, Berater)

Funktionen der Evaluation (nach Stockmann, 2000):

117
11.2 Standards und Grundprinzipien einer Evaluation:

Meist mehrere Funktionen gleichzeitig, aber auch einzelne Nutzung möglich oder in
beliebiger Kombination

11.2. Standards und Grundprinzipien einer Evaluation:

Unterteilt in vier Abschnitte nach Deutsche Gesellschaft für Evaluation, 2008:

Nützlichkeit (N) Durchführbarkeit Fairness (F) Genauigkeit (G)


(D)

Jeder dieser Abschnitte beinhaltet mehrere Standards, die teilweise auch in Konkurrenz
zueinander zu betrachten sind.

Diese Standards sind als eine freiwillige Selbstverpflichtung zu verstehen. Sie spiegeln den
aktuellen Stand der Diskussion über gute Evaluation in der Fachöffentlichkeit wieder.
Allerdings sind sie nicht als starre Regeln zu verstehen Variation ist möglich.

11.2.1. Nützlichkeit

Information die Evaluiert wird soll nützlich sein für die Personengruppe

N1 Identifizierung der Beteiligten und Betroffenen: alle frühzeitig in


Evaluationsprozess einbinden (Schüler, Lehrer, Kommunen, Eltern, …)

118
11.2 Standards und Grundprinzipien einer Evaluation:

N2 Klärung der Evaluationszwecke: Sinn und Zweck vorher explizit darstellen

N3 Glaubwürdigkeit und Kompetenz des Evaluators

N4 Auswahl und Umfang der Informationen: Zwei mögliche Probleme vermeiden:


o Zu viele Fragen
o Zu knapp bemessene Evaluation (wichtige Informationen fehlen, …)

N5 Transparenz der Werte: strikte Unterscheidung zwischen Datenerhebung und


Interpretation

N6 Vollständigkeit und Klarheit der Berichterstattung

N7 Rechtzeitigkeit der Evaluation

N8 Nutzung und Nutzen der Evaluation: fasst die Anforderungen des ganzen
Bereichs nochmal zusammen

11.2.2. Durchführbarkeit

D1 Angemessenes Verfahren
D2 Diplomatisches Vorgehen: Rücksicht auf die Belange der Beteiligten nehmen
Effizienz der Evaluation

11.2.3. Fairness

F1 Formale Vereinbarungen: besonders bei externer Evaluation


F2 Schutz individueller Rechte: Einverständnis der Eltern einholen
F3 Vollständige und faire Überprüfung
F4 Unparteiische Durchführung und Berichterstattung
F5 Offenlegung der Ergebnisse

11.2.4. Genauigkeit

♦ G1 Beschreibung des Evaluationsgegenstandes


♦ G2 Kontextanalyse
♦ G3 Beschreibung von Zwecken und Vorgehen
♦ G4 Angabe der Informationsquellen
♦ G5 Valide und reliable Informationen
119
11.3 Evaluationsformen

♦ G6 Systematische Fehlerprüfung
♦ G7 Analyse qualitativer und quantitativer Informationen
♦ G8 Begründete Schlussfolgerungen
♦ G9 Meta-Evaluation

11.3. Evaluationsformen
Die sechs Z der Evaluation

Formativ vs. Summativ

„Formativ ist, wenn der Koch die Suppe probiert, summativ ist, wenn der Gast das tut“.

Formativ

• interne Akteure (Lehrer)


• aufgrund der Ergebnisse wird steuernd in den Prozess eingegriffen

Summativ

• übergeordnete Stellen (Schulamt, Minister, ...)


• nach der Maßnahme wird das Ergebnis festgehalten

Diese Begriffe wurden von Michale Scriven (1991) geprägt.

Diese Unterscheidung kann auf Zeitpunkt, Zielgruppe und Zweck der Informationen aus der
Evaluation bezogen werden:

formativ summativ
(prozessorientiert) (output-orientiert)
Zeitpunkt vor oder während der Nach der Maßnahme
Maßnahme
Zielgruppe Ausführende/direkt Entscheidungsträger
Betroffene
Zweck Steuerung während der Beurteilung der Ergebnisse
Laufzeit

Erweiterung durch Rossi, Freeman, Lipsey (1999):


Zielebene
Zielrichtung

120
11.3 Evaluationsformen

Zuständigkeit

Diese Aufteilung in sechs Facetten ermöglicht bei der Konzentration und Durchführung einer
Evaluation Lücken zu entdecken und zu vermeiden. Die Dimensionen sind dabei prinzipiell
unabhängig, d.h. es lässt sich durch beinahe jede beliebige Kombination eine nützliche
Evaluationsmaßnahm konstruieren und differenziert darstellen.

System-Monitoring und Vergleichsarbeiten in Abgrenzung zur Evaluation:

Studien zur Evaluation des Bildungswesens treten in den letzten Jahren zunehmend in die
öffentliche Wahrnehmung. Das letzte und bekannteste Beispiel ist die PISA-Studie.

PISA (System-Monitoring) unterscheidet sich von Evaluation:

1. Es gibt keine konkrete Maßnahme, die mittels dieser Studie überprüft werden soll
2. Die einzelne Testaufgabe ist nicht aussagekräftig. Erst durch die Verteilung
unterschiedlicher Aufgaben sowie die große Anzahl der teilnehmenden Schüler
können die Ergebnisse interpretiert werden
3. Die Ergebnisse sind somit nur als Zustandsbeschreibung des Bildungssystems gültig.
Die einzelne Schule oder gar individuelle Schüler sind nicht die Adressaten der
Ergebnisse
4. Konkrete Maßnahmen für einzelne teilnehmende Schulen können daher als Folge
der Studie auch nicht abgeleitet werden.

PISA = eine Momentaufnahme des gesamten Bildungssystems (System-Monitoring)

121
11.4 Möglichkeiten der Erfassung von Unterrichtsqualität

11.4. Möglichkeiten der Erfassung von Unterrichtsqualität

frei vs. gebunden


(z.B. Interviews mit Leitfragen multiple choice)

schriftlich vs. mündlich


(z.B. Fragebogen Interview)

Breitbanddiagnose vs. Ausschnittbeleuchtung

Aktuell vs. Kumulativ


(soeben erfahrener Unterricht retrospektiv über einen längeren Zeitraum)

Niedrig-inferent vs. hoch-inferent


(Beurteilungs- und Erfahrungsspielraum sehr gering mit Portion Ermessen und
Subjektivität)

Medium der Beurteilung (Papier, Bleistift, Audio, Video, etc.)

Beispiele:

Videoanalyse
Hospitationen
Fragebögen
Spezielle Methoden: z.B. Zielscheibe

Evaluation ist nur dann sinnvoll, wenn die Zielperson aus den Erkenntnissen der Evaluation
einen Nutzen ziehen kann und wenn aus ihr Konsequenzen abgeleitet werden!

Evaluation ist die notwenige Voraussetzung, um schulisches Leben und Arbeiten


weiterzuentwickeln. In Schulen ist der Begriff Evaluation allerdings negativ besetzt: Der
Begriff wird mit externer Kontrolle assoziiert, der die Schulen weitgehend ausgeliefert sind
Falsch!

11.5. Ablauf einer Evaluation


(nach Jäger, 2005)

122
11.5 Ablauf einer Evaluation

1. Klärung des Rahmens bzw. Evaluationsumfeldes

2. Bestimmung der Ziele und Evaluationsfragen (wichtigster & schwierigster Teil)

3. Festlegung von Kriterien und Indikatoren

4. Untersuchungsplanung

5. Auswahl der Datenerhebnungsmethoden

6. Datensammlung

7. Datenauswertung

8. Bewertung und Interpretation (erst nach vollständiger Auswertung)

9. Umsetzung

Es kann allerdings keine „Musterevaluation“ geben!


Themenstellung, Umfeld, Akteure, Ressourcen etc. sind immer anders.

Weitere Möglichkeit eines Ablaufs:


(nach Stockmann, 2010)

• Bestimmung und Begrenzung des Vorhabens


Planung • Entwicklung der Konzeption und des Ablaufs

• Instrumententwicklung
Durchführung • Datenerhebung, Strukturierung, Auswertung

• Präsentation und Berichterstellung


Verwertung • Nutzung der Ergebnisse und Empfehlung

A. Planungsphase
a) Definition des Inhalts und des Zwecks der Evaluation
b) Zunächst: Festlegung auf interne oder externe Evaluation
c) Grundlegende Arten der Planung
1. In formalisierten Verfahren: Auftraggeber setzt Maßstäbe etc. fest

123
11.6 Methoden schulbezogener Evaluation

2. Beim partizipatorischen Vorgehen: Beteiligte des zu evaluierenden


Programmes nehmen aktiv an der Gestaltung der Evaluation teil

d) Bestimmung der Zielgruppe (der Personen, denen das Programm zugutekommt)


e) Auswahl einer geeigneten Zahl von Fragestellungen
f) Festlegung der zur Verfügung stehenden Ressourcen
g) Probleme, die eine Evaluation unangemessen machen
1. Erwartung von nutzlosen Ergebnissen
2. Fehlende Ressourcen (Zeit, Geld)
3. Evaluation nicht gemäß Standards durchführbar (z.B. politischer Druck,
Wirkungen des Programms können nicht mehr festgestellt werden)

h) Genaue Konzeption der Evaluation


1. Schriftliche Fixierung der oben besprochenen Merkmale
2. Zeit-, Personal- und Budgetplan erstellen
3. Herausforderungen: Gleichgewicht zwischen engem Spielraum des
Auftraggebers und Notwendigkeit von Spielräumen

B. Durchführung
a) Festlegung, wie und von wem Daten erhoben werden sollen
b) Definition von Indikatoren, falls bestimmte Dinge nicht direkt erfasst werden
können
c) Auswahl einer Stichprobe (z.B. Auswahl durch Zufall vs. nach Kriterien)
d) Datensammlung!
e) Auswertung, Interpretation und Bewertung nach vorher festgelegten Kriterien

C. Verwertung siehe oben

Probleme und Herausforderungen:


Kritik an der Evaluation selbst (z.B. Vorwurf falscher Methoden, wenig neuer
Erkenntnisse etc.) → bei der Planung auf wissenschaftlich genaue Methodik achten;
Involvierung der Beteiligten in Planung
Leugnung von Ergebnissen → Konzentration auf Fakten, nicht Eindrücke des
Evaluators; Achtung einer logischen Argumentationskette

11.6. Methoden schulbezogener Evaluation


Tests bzw. Fragebögen, Beobachtung und Interviewtechniken

Beispiele:

124
11.6 Methoden schulbezogener Evaluation

Standardisierte Fragebögen:
Fragebogen zum Lernverhalten vor einem Leistungstest
Fragebogen zum Verhalten in der Gruppe nach einer Projektarbeit
Schüler-Fragebogen zur Selbstbewertung der Methodenkompetenz/der
Sozialkompetenz/der Sachkompetenz/der Arbeitsorganisation/des Umgangs mit
Konflikten/sprachliche Fertigkeiten
Schüler-Fragebogen zur Analyse von Lernproblemen/zur Beurteilung des
Lehrers/zur Beurteilung des Klassenklimas
Fragebogen für Eltern
Lehrer-Fragebogen zu den Arbeitsbedingungen/zum Unterrichtsverhalten

Offene Befragungen:
Kurzbefragung zur Einschätzung des Unterrichts durch die Schüler
Befragung zur Selbstbewertung des eigenen Arbeitsprozesses in der Freiarbeit
Befragung zur Projektevaluation
Klassen-Soziogramm
Fachlehrer-Befragung zu Klassenauffälligkeit
Sonstige Methoden
Beobachtungsbogen zur Methodenkompetenz/Sozialkompetenz/Sachkompetenz
Tagebuch für Grundschüler

Können Schüler Unterricht beurteilen?

Pro Contra
Perspektive der Betroffenen (Zielgruppe) Mögliche Überforderung der Schüler
Bildung eines Klassenmittelwerts möglich können didaktische Kompetenz und
fachliche Expertise schwer
beurteilen
Langzeitperspektive (Schuljahr)
Lernklima Differentielle Angaben zu einzelnen
Facetten der Unterrichtsqualität werden
überlagert. (z.B. durch die allgemeine
Beliebtheit einer Lehrkraft)

Schülerangaben repräsentieren eine sehr wichtige Perspektive. Da sie jedoch auch


Schwächen haben, dürfen sie nicht verabsolutiert werden. Sehr gut eignen sie sich für
formative Evaluation

125
11.7 Probleme bei der Evaluation

11.7. Probleme bei der Evaluation

a) Methodische Probleme
1. Ausschalten von „Störfaktoren“
2. Prinzipien der wissenschaftlichen Versuchsdurchführung (z.B. ist das übliche
Festhalten an erstellten Untersuchungsplänen bei der Evaluation oft nicht
möglich)
3. Auswahl geeigneter Indikatoren für Evaluationsfragen oftmals schwierig

b) Interpretationsprobleme
1. Bewertung der Indikatoren (z.B. „Ist es gut oder schlecht, dass ein Kind täglich
zwei Stunden Hausaufgaben macht?“)
2. Wahrheit über die Studie kann abschrecken → Dissonanz-toleranz

c) Stichprobenprobleme
1. Klumpen-Stichproben (nicht Einzelpersonen, sondern ganze Klasse): kein
repräsentativer Durchschnitt
2. Finden einer repräsentativen Stichprobe
3. Freiwillige Teilnehmende sind motivierter
4. Übliche statistische Auswertung nicht geeignet, da Ergebnisse nicht auf eine
gesamte Population ausgeweitet werden können
5. Stichprobenmortalität: Teilnehmer der Programme sind nicht mehr in der
Stichprobe enthalten (etwa, weil sie durchgefallen sind)

d) Zeitabhängigkeit der Ergebnisse

e) Einmaligkeit (Evaluationen können aufgrund der veränderlichen Bedingungen


nicht wiederholt werden)

f) Nicht-finanzielle Kosten
1. Zweifel an der Richtigkeit des bisherigen Handelns
2. Unruhe bei allen Beteiligten (z.B. bei Einführung neuer Maßnahmen)
3. Beeinträchtigung der Lebenssituation der Beteiligten (Selbstwertgefühl)
4. Zeitverzögerung
5. Schädigung der Betroffenen durch probeweise durchgesetzte Maßnahmen

11.8. Evaluation des Bildungssystems

11.8.1. PISA

126
11.8 Evaluation des Bildungssystems

11.8.1.1. Allgemeines
(Program for International Student Assessment; initiiert von der OECD)

Teilnehmer: 15-jährige Schülerinne und Schüler


Turnus: alle 3 Jahre
Kompetenzbereiche: Lesen, Mathematik und Naturwissenschaften
Schwerpunkt: jedes Jahr wird einer der drei Kompetenzbereiche als Schwerpunkt
gewählt
o 2000: Lesen
o 2003: Mathe
o 2006: Naturwissenschaft
o 2009: Lesen
o 2012: Mathematik
o 2015: Naturwissenschaft
Beginn: 2000
Weitere Untersuchungsbereiche: Lernmotivation, Selbsteinschätzung und
Lernstrategien
Hintergrundmerkmale: soziale Herkunft, Geschlecht und Migrationshintergrund
Bisherige Teilnehmer: 70 Länder

11.8.1.2. Ablauf

1. Itemkonstruktion: basieren auf der Item-Response-Theorie


2. Testdurchführung: Schwerpunkt liegt nicht auf Messung und Rückmeldung über
individuelle Leistungen, sondern auf der Bewertung der Leistung eines Schulsystems
a. 2-stündige Bearbeitung der Fragen
b. Ca. 30 Minuten für Fragebogen

Genügt wissenschaftlichen Gütekriterien

11.8.1.3. Gestaltung der Tests

Multiple-choice-Fragen
Freie Antwortformate
Fragen sind realen Lebenssituationen entnommen
Bisher Stift- und Papierfragebögen, demnächst aber auch computerbasierte Tests

127
11.8 Evaluation des Bildungssystems

Hintergrundfragebogen: Informationen über sich selbst, Lerneinstellungen und über


Zuhause
Fragebogen zur Schule: von der Schulleitung auszufüllen

11.8.1.4. Ziele/Anliegen von PISA

vergleichende Daten über Leistungsfähigkeit der einzelnen Bildungssysteme


Hinweis für die Erklärung dieser Stärken und Schwächen
nützliche Hinweise für Schulpolitik, Fachdidaktik sowie Lehreraus- und
Lehrerweiterbildung
wichtiger Beitrag für die Qualitätsentwicklung in der Schule

PISA analysiert Zusammenhänge zwischen Leistungsergebnissen und Merkmalen von


Jugendlichen und Schulen:

Inwieweit gelingt es den einzelnen Staaten, den Schülern Basiskompetenzen zu


vermitteln, die Voraussetzung für eine erfolgreiche schulische Laufbahn oder
berufliche Tätigkeit, sowie die gesellschaftliche Teilhabe sind?
Nicht zur Abfrage von bloßem Faktenwissen, sondern Schwerpunkt auf Erkennen von
Zusammenhängen, Wissen situationsgerecht anwenden und wirklichkeitsnahe
Aufgaben bewältigen

Konzeptwissen Prozesswissen

• wissen, dass ... • wissen, wie

d.h. Umsetzung von schulischem Wissen in praktische Aufgaben und Probleme

11.8.1.5. Testablauf an einer Schule

Für die Vorbereitung der Testdurchführung bestimmt jede Schule einen sogenannten
Schulkoordinator Ansprechperson für Schüler und Eltern
Die Tests werden von geschulten Testleitern durchgeführt:
o 1. Tag: Bearbeitung der internationalen Aufgaben
o 2. Tag: Bearbeitung der nationalen Ergänzung (PISA-E)
o Bearbeitungszeit der Tests: je 120 Minuten

128
11.8 Evaluation des Bildungssystems

Anonyme Bearbeitung nicht die Leistungen einzelner Schüler sollen überprüft


werden, sondern „Erträge“ von schulischen Systemen
Teilnahme freiwillig, schriftliche Einwilligungserklärung der Eltern erforderlich

11.8.1.6. Auswertung

Nach Kompetenzstufen

11.8.1.7. Ergebnisse PISA 2012

Schwerpunkt: Mathematik
Beteiligung: 65 Länder; 500.000 Schüler weltweit
Stichproben: Deutschland 230 SuS (insgesamt getestet in DE: 5.001 SuS)
Erstmalige Ergänzung durch computerbasierte Tests, die das Problemlösen
erfassen

11.8.1.7.1. Mathematik Ergebnisse

Mittelwert Deutschland: 514 Punkte


OECD-Durchschnitt: 494 Punkte

129
11.8 Evaluation des Bildungssystems

Kompetenzstufen:

Unter Kompetenzstufe I und Kompetenzstufe I:


o Deutschland: 17,7%
o OECD-Durchschnitt: 23%

Kompetenzstufen V-VI:
o Deutschland: 17,5%
o OECD-Durchschnitt: 12,6%

Unterschied Mädchen – Jungen: Jungen im Mittelwert signifikant besser als


Mädchen

130
11.8 Evaluation des Bildungssystems

11.8.1.7.2. Lesen Ergebnisse

Mittelwert Deutschland: 508 Punkte


OECD-Durchschnitt: 496 Punkte

Kompetenzstufen:

Kompetenzstufe unter I – I:
o Deutschland: 14,5%
o OECD-Durchschnitt: 18%

Kompetenzstufen V-VI:
o Deutschland: 8,9%
o OECD-Durchschnitt: 8,4%

Unterschiede Mädchen – Jungen: Mädchen signifikant besser

131
11.8 Evaluation des Bildungssystems

11.8.1.7.3. Naturwissenschaften Ergebnisse

Mittelwert Deutschland: 524 Punkte


OECD-Durchschnitt: 501 Punkte

132
11.8 Evaluation des Bildungssystems

Kompetenzstufen:

Kompetenzstufen unter I bis I:


o Deutschland: 12,2%
o OECD-Durchschnitt: 17,8%
Kompetenzstufen V-VI:
o Deutschland: 12,2%
o OECD-Durchschnitt: 8,4%
Unterschiede Mädchen – Jungen: kein signifikanter Unterschied

133
11.8 Evaluation des Bildungssystems

11.8.1.8. Entwicklungen über die Jahre

134
11.8 Evaluation des Bildungssystems

Entwicklungen in den Bereichen Lesen, Mathe und


Naturwissenschaften 2000-2012
530 524
520
520 516

510 513 514


502
508
500
Punkte

503 504
490 487 497
495
490 491
480 484
470
460
2000 2003 2006 2009 2012
Jahre

Lesen Mathe Naturwissenschaften


OECD Lesen OECD-Mathe OECD-Naturwissenschaften

135
11.8 Evaluation des Bildungssystems

Literatur

Psychologische Diagnostik und Intervention (Amelang & Schmidt-Atzert, 2006)

Psychologische Diagnostik (Krohne & Hock, 2007)

Lehrbuch der Pädagogischen Diagnostik (Ingenkamp & Lissmann, 2008)

Einführung in die pädagogisch-psychologische Diagnostik (Lukesch, 1998)

136