PSYCHOLOGISCHE DIAGNOSTIK
Münchner Skript 2.0
Gaby Loicht
2016
0
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern
Inhaltsverzeichnis
Inhaltsverzeichnis ............................................................................................................................................ 1
0. Überblick ................................................................................................................................................ 0
1. Einleitung ................................................................................................................................................ 1
1.1. Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern ................................ 1
1.2. Bedeutung der Leistungsbeurteilung ............................................................................ 1
1.3. Zielorientierung des Unterrichts ................................................................................... 1
1.4. Leistungs- und Persönlichkeitsbeurteilungen in der Schule ......................................... 2
2. Grundbegriffe ........................................................................................................................................ 2
2.1. Diagnostik ................................................................................................................... 2
2.2. Arten von Diagnostik................................................................................................... 6
2.2.1. Standardisierte und nicht-standardisierte Diagnostik .............................................................................6
2.2.2. Norm- und kriteriumsorientierte Diagnostik ...............................................................................................7
2.2.3. Individual- und Umweltdiagnostik ...............................................................................................................7
2.2.4. Schulleistungsdiagnostik .................................................................................................................................8
3. Gütekriterien ......................................................................................................................................... 8
3.1. Überblick ..................................................................................................................... 8
3.2. Objektivität .................................................................................................................. 9
3.2.1. Durchführungsobjektivität ........................................................................................................................... 10
3.2.2. Auswertungsobjektivität .............................................................................................................................. 11
3.2.3. Interpretationsobjektivität .......................................................................................................................... 11
1
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern
2
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern
6. Schulleistungsdiagnostik .................................................................................................................... 63
6.1. Schulleistungsmodelle ............................................................................................... 64
6.1.1. Schulleistungsmodell von Bloom ................................................................................................................. 64
6.1.2. Schulleistungsmodell von Helmke .............................................................................................................. 64
6.1.3. Schulleistungsmodell nach Carroll ............................................................................................................. 65
7. Schulleistungstests .............................................................................................................................. 65
7.1. Begriffsklärung .......................................................................................................... 65
7.2. Arten von Schulleistungstests .................................................................................... 66
7.3. Überblick über die Möglichkeiten der Konstruktion von SLT ...................................... 67
7.4. Formelle Schulleistungstests ...................................................................................... 68
7.4.1. Bezugsgruppenorientierte (= sozialnormorientierte) Tests .................................................................. 68
7.4.2. Kriteriumsorientierte (= lehrzielorientierte) Tests .................................................................................. 73
7.4.3. Unterschied zwischen bezugsgruppen- und kriteriumsorientierten Tests .......................................... 75
7.4.4. Gütekriterien formeller Schulleistungstests.............................................................................................. 75
7.4.5. Beispiele für formelle Schulleistungstests................................................................................................. 77
3
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern
4
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern
5
0. Überblick
Schulleistungsmess Befragung, Schulfähigkeits
Psychologisch ung, diagnostik für Methoden der
Beurteilung,
e Grundlagen Gütekriterien Zensurengebung
Beobachtung und verschiedene schulbezogenen
und Evaluation
Lernerfolgskontrolle Tesstverfahren Schularten
Objektivität Schulleistungs- Testmethoden Intelligenztests Evalutation
tests
Reliabilität Mündliche Beobachtungs- Einschulungs-
Prüfungen verfahren diagnostik
Validität Schriftliche Gesprächs- Lernfähigkeit
Prüfungen methoden
Konzentration
Nebengüte- Zensuren und Dokument- und
kriterien Zeugnisse analyse Aufmerksamke
it
Beurteilungs-
verfahren
Fragebogen
Soziometrie
0
1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern
1. Einleitung
Dreigliedriges Schulsystem?
Bei Gesamtschulvarianten?
2. Grundbegriffe
2.1. Diagnostik
Diagnostik ist ein Teilbereich der Psychologie, der sich mit der Theorie, der Konstruktion und
der Analyse von Diagnoseverfahren befasst. Diagnose ist dabei die Feststellung des
Vorhandenseins oder der Ausprägung von psychologischen Merkmalen (Zimbardo, 1988).
Definition Diagnostik: „Diagnostik [ist] die Lehre von der sachgemäßen Durchführung der
Diagnose; auch die Ausübung der Diagnose.“
„Psychologische Diagnostik ist die Bezeichnung für alle Methoden und deren Anwendung,
welche zur Messung bzw. Beschreibung inter- und intraindividueller Unterschiede verwendet
werden.“ (Dorsch, 1982).
Verschiedenste Methoden
Unterschiede innerhalb einer Person
Unterschiede zwischen mehreren Personen
2
2.1 Diagnostik
Sachverhalten
Tatsachen
Eigenschaften oder Merkmalen
Bedingungen etc.
Es wird entweder nach dem Eintreffen Oder das Einzelergebnis ist gegeben
des Einzelergebnisses gefragt und soll erklärt werden
"Wie wird sich die Leistung des Schülers "Warum hat ein Schüler x in bestimmten
x entwickeln?" Leistungsbereichen versagt?"
Unter diagnostischer Tätigkeit wird dabei ein Vorgehen verstanden, in dem unter Beachtung
wissenschaftlicher Gütekriterien beobachtet und befragt wird, die Beobachtungs- und
Befragungsergebnisse interpretiert und mitgeteilt werden, um ein Verhalten zu beschreiben
und/oder die Gründe für dieses Verhalten zu erläutern und/oder künftiges Verhalten
vorherzusagen.
Das Modell beschreibt Komponenten und Ablaufschritte einer rational gesteuerten Handlung
und markiert darin jene Stellen, die direkt oder indirekt mit diagnostischen Prozessen
verbunden sind.
3
2.1 Diagnostik
In diesem Schema wird zunächst zwischen einer Vorbereitungsphase und einer praktischen
Phase (Realisierungsphase) unterschieden.
Es ist notwendig jene Informationen zu gewinnen, die auf dem Hintergrund einer
allgemeinen Problemstellung zu einer begründeten Entscheidung bezüglich der richtigen
pädagogischen Maßnahme (Treatment) beitragen können.
Treatmentvorbereitende Diagnostik:
dient der Ziel- oder Mittel-(Treatment)Entscheidung
z.B. Sonderschule? Ja/Nein
Es müssen Informationen gewonnen werden, die eine Einschätzung des Erfolges einer
Maßnahme erlauben.
Treatmentbegleitende Diagnostik:
dient der Steuerung des Handlungsablaufes, ggf. Modifikation, Beobachtung von
Nebenwirkungen.
z.B. Lehrerin beobachtet Lernfortschritt bei einem bestimmten Förderkind „formative
Evaluation“.
4
2.1 Diagnostik
Treatmentabschließende Diagnostik:
dient der Bestimmung des Erfolgs einer Intervention/eines Treatments. Rückmeldung
für Therapeut und Klient, Schülerin und Lehrerin. „summative Evaluation.“
Nominalskala
• Bestimmung von Gleichheit und Verschiedenheit
• z.B. Einteilung in Klassenstufen, männlich-weiblich
Ordinal- oder Rangskala
• Bestimmung der Rangordnung (größer-kleiner) -> Reihenfolge
• Zeigt nur Reihenfolge und Richtung des Ausprägungsgrades
• z.B. Zensuren, Ranglisten beim Sportwettbewerb
Intervallskala
• Gleiche Skalenabstände (Gleichheit von Intervallen), aber keine Aussage über Proportionen
zwischen Skalenwerten, da der Nullpunkt willkürlich festgelegt ist
• z.B. Temperaturskala
Verhältnis- oder Proportionalskala
• Bestimmung der Gleichheit von Brüchen
• Aussage über Proportionen möglich, da natürlicher Nullpunkt (=Messwert = 0) -> Aussage über
Gleichheit von Verhältnissen
• z.B. Längenmaße, Gewichtsmaße
Merke:
5
2.2 Arten von Diagnostik
Note 1 2 3 4 5 6
Anzahl 2 5 8 3 2 1
Das Diagnoseverfahren wird auf alle Personen einer ausgewählten, genau beschriebenen
Stichprobe in der gleichen Weise und unter vergleichbaren Bedingungen angewendet.
Schule: Standardisierte Test werden meist von Testverlagen vertrieben, große Stichproben
von Schülern zur Bearbeitung vorgelegt und Gesamtpunktwert mit Normwert einer
Eichstichprobe – z.B. Gruppe gleichen Alters und Schulstufe – (vgl. normorientierte
Diagnostik) verglichen. ( Hohe Objektivität)
6
2.2 Arten von Diagnostik
Genau das Gegenteil ist der Fall – die Personen werden subjektiv bewertet (bspw. in
mündlichen Prüfungen) und somit nicht in einer großen Gruppe in gleicher Weise und unter
gleichen Bedingungen geprüft bzw. bewertet.
„Unter normorientierter Diagnostik versteht man einen Untersuchungsansatz mit dem Ziel, das
einzelne Untersuchungsergebnis im Hinblick auf statistische Bezugswerte, also relativ zur
Verteilung der Testergebnisse in einer Bezugsgruppe (Eichstichprobe), auszudrücken und zu
interpretieren.“ (Pawlik, 1982).
Schule: Schüler hat 60% des Einmaleins richtig Etwas besser als der Klassendurchschnitt
Schule: Schüler hat 60% richtig Das kleine Einmaleins sollte mit mind. 90%-iger Sicherheit
beherrscht werden, also schneidet Schüler eher schlechter ab.
7
3.1 Überblick
2.2.4. Schulleistungsdiagnostik
3. Gütekriterien
3.1. Überblick
An die Genauigkeit und Verlässlichkeit von Messergebnissen in der Diagnostik werden
Anforderungen gestellt. Man hat Kriterien entwickelt, die es möglich machen, die Qualität
einer Messung zu beurteilen. Gütekriterien sind als Forderungen an die Methode bezüglich
der:
8
3.2 Objektivität
Durchführung,
Objektivität Auswertung,
Interpretation
Wiederholungsreliabilität,
Hauptgütekriterien Reliabilität Split-Half-Rel.,
Paralleltestsrel.,
Konsistenzanalyse
Inhaltsvalidität, empirische
Validität Validität, Konstruktval.,
Testfairness
Gütekriterien Normierung
Zützlichkeit &
Zumutbarkeit
Nebengütekriterien Ökonomie
Vergleichbarkeit
Akzeptanz
Die Güte eines Verfahrens ist am größten, wenn diese hohe Objektivität, Reliabilität
und Validität aufweist!
3.2. Objektivität
= Grad, in dem Ergebnisse unabhängig vom Untersucher sind
Ein Test wäre vollkommen objektiv, wenn verschiedene Untersucher bei denselben Probanden
zu gleichen Ergebnissen gelangen (Lienert, 1967) (Interpersonelle Übereinstimmung der
Untersucher.)
Objektivität ist (wie Reliabilität) ein formales Kriterium, es sagt nichts über den Inhalt
aus!
9
3.2 Objektivität
Durchführungsobjektivität
Auswertungsobjektivität
3.2.1. Durchführungsobjektivität
Gleiche Bedingung für alle Prüflinge und die Untersuchung soll unabhängig von zufälligen
und systemischen Verhaltensvariationen des Untersuchers sein.
Ist das Maß dafür, inwieweit die Ergebnisse eines Tests von der Person des Versuchsleiters
unabhängig sind. Für alle Getesteten gelten die gleichen Anforderungen unter den gleichen
Bedingungen.
Man versucht zu sichern, dass alle Lernenden bzw. Probanden den gleichen Anforderungen
unter gleichen Bedingungen ausgesetzt sind.
Positive Wirkung:
Der Testleiter ist eine vertraute Person
Positive und angenehme Atmosphäre
10
3.2 Objektivität
Schwierigkeiten:
3.2.2. Auswertungsobjektivität
Ist ein Maß dafür, inwieweit gleiches Verhalten einer Testperson stets auf die gleiche Weise
ausgewertet wird.
Schwierigkeit:
Bei Aufsätzen o.ä. ist die Auswertungsobjektivität eher negativ beeinträchtigt. Sie erfordern
eine inhaltliche Klassifikation (auch mündliche Prüfungen).
3.2.3. Interpretationsobjektivität
11
3.2 Objektivität
Ist ein Maß dafür, inwieweit die Ergebnisse eines Tests von den interpretativen Schlüssen
abhängen, die ein Diagnostiker vornimmt. Eine hohe Interpretationsobjektivität besteht, wenn
verschiedene Diagnostiker gewonnene Befunde in gleicher Weise interpretieren.
Aus gleichen Ergebnissen sollten auch die gleichen diagnostischen Schlüsse gezogen werden
(erst hier findet in der Schule Notengebung statt!) Interpretationsobjektivität ist schwieriger
zu erreichen als Auswertungsobjektivität.
Mangelnde Interpretationsobjektivität:
Schüler hat 12 Punkte erreicht Ein Lehrer gibt Note 2, der andere Note 4
Bsp.: Schulleiter entscheidet, ob Kind eingeschult werden kann oder Zusatzförderung braucht
– nach ärztlichen Gutachten, Angaben der Eltern …
Schwierigkeit:
Insgesamt:
12
3.3 Reliabilität
Objektivität ist die notwenige Voraussetzung für die Zuverlässigkeit und Gültigkeit
einer Messung bzw. eines Prüfsystems. Eine Messung, die nicht objektiv ist, kann auch
nicht zuverlässig und gültig sein.
3.3. Reliabilität
Beschreibt die Zuverlässigkeit oder Präzision der Messung.
Unter Reliabilität eines Tests versteht man den Grad der Genauigkeit, mit dem er ein
bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst (Lienert, 1967)
Reliabilität ist ein Maß für die Genauigkeit, mit dem ein Test ein zu messendes Merkmal
erfasst.
Testergebnisse sind normalerweise mit Fehlern behaftet. Ein im Test beobachteter Wert setzt
sich zusammen aus der Summe eines wahren Wertes (konstant, aber nicht messbar) und
eines Fehlerwertes (labil, kann an Gegenstand, Messinstrument oder Beurteiler liegen
Häufiges Messen nötig!)
Weiterhin ist klarzustellen, dass die Reliabilität sich immer auf das Testverfahren bezieht
und nicht auf den Probanden!
Reliabilität ist (wie Objektivität) ein formales Kriterium, es sagt nichts über den Inhalt aus!
Der Grad der Zuverlässigkeit einer Messung wird durch den Zuverlässigkeits- oder
Reliabilitätskoeffizienten bestimmt.
13
3.3 Reliabilität
a) r = +.45
positive Korrelation: Je größer/kleiner Wert x, desto größer/kleiner ist Wert y.
(z.B. Körpergröße – Schuhgröße) .45: mittlerer Zusammenhang
b) r = 0
Kein Zusammenhang zwischen Wert x und y.
c) r = - .80
Negative Korrelation: Je größer/kleiner Wert x, desto kleiner/größer Wert y. (z.B.
Anzahl Regentage – Sonnentage, Leistung – Notenwert). .80: hoher Zusammenhang
Um den Grad der Genauigkeit (also die Reliabilität) eines Verfahrens zu optimieren,
müssen Messfehler minimiert werden. Dazu unterscheidet man zunächst verschiedene Arten
der Reliabilität, die im Folgenden beschrieben werden. Reliabilität wird geschätzt und nicht
gemessen.
14
3.3 Reliabilität
Gleichwertigkeit von 2
Testhälften
Split-half-Reliabilität
Koeffizient der inneren
Konsistenz
Gleichwertigkeit von 2
Paralleltests
Paralleltest-Reliabilität
Äquivalenz-koeffizient
Homogenität von
Testitems
Konsistenz-Analyse
Homogenitätskoeffizient
Die Messung wird wiederholt und mit den Ergebnissen der ersten Messung verglichen - dazu
ist allerdings zeitliche Stabilität des Merkmals nötig.
Bsp.:
Mehrmaliges Abwiegen von 1 Liter Milch oder Messen der Größe einer Person
durch wiederholtes Messen.
Wenn man nicht weiß, ob eine Waage genau misst, besteht eine Möglichkeit darin,
die Messung zu wiederholen.
Bei der Wiederholungsreliabilität lässt man also die gleichen Aufgaben von den gleichen
Versuchspersonen zu verschiedenen Zeiten bearbeiten.
Messwert:
15
3.3 Reliabilität
Koeffizient der zeitlichen Stabilität gibt an, wie konstant die Messwerte über die Zeit
ausfallen
Schwierigkeit:
Wird bei der Leistungsmessung selten angewandt, da man bei Wiederholung mit
Übungseffekten rechnen muss Verfälscht die Messung
Gedächtniseffekte: z.B. Erinnerung
Handelt es sich überhaupt um ein zeitlich stabiles Merkmal? (Es sollte zeitlich stabil
sein, damit diese Methode genutzt werden soll) Bei Lernleistung handelt es sich nicht
um ein stabiles Merkmal
Zeit zwischen den beiden Tests
Um nicht wie oben die zeitliche Stabilität fordern zu müssen, wird bei der Split-Half-
Methode die Aufgabenzusammenstellung halbiert und getrennt ausgewertet, es erfolgt also
nur ein Testdurchgang.
Bsp.: 1 Liter Milch durch Abwiegen von 2 Hälften bestimmen, bzw. Leistung bei Aufgaben
1-10 und 11-20 vergleichen.
Danach lässt sich der Zusammenhang beider Testhälften berechnen (Koeffizient der internen
Konsistenz gibt an, ob die jeweiligen Testhälften gleichwertig sind.)
Messwert:
Koeffizient der internen Konsistenz: Im Grund wird hier überprüft, ob die beiden Testhälften
einander gleichwertig sind.
16
3.3 Reliabilität
Schwierigkeit:
3.3.3. Paralleltestreliabilität
Bsp.: 1 Liter Milch durch Abwiegen mit 2 Waagen bestimmen oder gleichwertige Aufgaben
A und B in einer Schulaufgabe (z.B. Mathe: gleiche Rechenwege, verschiedene Zahlen)
Messwert:
Äquivalenzkoeffizient gibt an, wie gleichwertig die beiden Tests sind.
Schwierigkeit:
3.3.4. Konsistenzanalyse
Ein Test wird in seine einzelnen Items (Fragen, die die gleiche Fähigkeit messen) zerlegt und
aus dem Zusammenhang zwischen den Itembeantwortungen wird auf die Messgenauigkeit
rückgeschlossen.
Dies ist
sinnvoll, wenn ein diagnostisches Verfahren aus mehreren Items besteht, die alle
dieselben Fähigkeiten messen.
nicht sinnvoll: wenn ein diagnostisches Verfahren aus strukturunähnlichen,
heterogenen Items besteht.
17
3.3 Reliabilität
Bsp.: 1 Liter Milch durch Abwiegen von vielen kleinen Teilen bestimmen
Messwert:
Homogenitätskoeffizienten
Schwierigkeit:
3.3.5. Zusammenfassung
Aus diesen 4 Methoden können Koeffizienten berechnet werden, die zur Abschätzung des
Messfehlers herangezogen werden. Die Reliabilität bzw. der Standardmessfehler sind
wichtige Angaben für die Messgenauigkeit eines Verfahrens. (Es lässt sich ein
Vertrauensintervall um das konkrete Testergebnis berechnen, in dem der unverfälschte Wert
des Probanden liegt).
18
3.4 Validität
Bei sonst gleicher Aufgabenzahl und –qualität können wir daher nach der Split-Half-
Methode die höchsten (r ≥ 0,90) und nach der Methode der zu verschiedenen Zeiten
durchgeführten Parallelformen die niedrigsten (r ≥ 0,80) Zuverlässigkeitskoeffizienten
erwarten.
Insgesamt: Die Reliabilität einer Messung sagt nur etwas darüber aus, wie genau
gemessen wird, aber nicht, was gemessen wird. Aber sie ist Voraussetzung für die
Gültigkeit des Verfahrens!
3.4. Validität
Die Validität eines Verfahrens sagt etwas darüber aus, ob tatsächlich das Gemessen wird,
was man messen will und nicht irgendetwas anderes (Ingenkamp, 2008).
„Die Validität eines Tests gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige
Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll oder zu
messen vorgibt, auch tatsächlich misst. Ein Test ist demnach vollkommen valide, wenn seine
Ergebnisse einen unmittelbaren und fehlerfreien Rückschluss auf den Ausprägungsgrad des zu
erfassenden Persönlichkeits- oder Verhaltensmerkmals zulassen, wenn also der individuelle
Testpunktewert eines Probanden diesen auf der Merkmalskala eindeutig lokalisiert.“ (Lienert,
1967)
Validität ist keine generelle Eigenschaft, ein Test kann für einen bestimmten Zweck valide
sein und für einen anderen nicht.
Validität ist (im Gegensatz zu Objektivität und Reliabilität) ein inhaltliches Kriterium!
Validität darf nicht mit Reliabilität verwechselt werden, z.B. Versuch, Intelligenz mit
Meterstab zu messen Es ergibt sich mehrfach das gleiche Ergebnis (z.B. 90cm)
Reliabilität ist gegeben!
Aber natürlich kann Intelligenz so nicht gemessen werden!
Um festzustellen, ob man tatsächlich das gemessen hat, was man messen wollte, braucht man
allerdings ein Kriterium. Je nach Art des Kriteriums unterscheidet man im Allgemeinen drei
bzw. vier Arten von Validität in der Testmethodik:
19
3.4 Validität
Inhaltsvalidität
Empirische Validität
Konstruktvalidität
Testfairness
3.4.1. Inhaltsvalidität
„Spricht man von inhaltlicher Validität, so nimmt man an, dass ein Test oder dessen Elemente
so beschaffen sind, dass sie das in Frage stehende Persönlichkeitsmerkmal und dergleichen in
optimaler Weise repräsentieren, dass also der Test selbst das optimale Kriterium für das
Persönlichkeitsmerkmal ist.“ (Lukesch, 1998)
Ein valider Test muss eine repräsentative Stichprobe derjenigen Unterrichtsinhalte umfassen,
deren Kenntnis es zu prüfen gilt. Der Lehrer muss vorher eine inhaltliche Analyse
durchführen:
Beispiele:
Test über Groß- und Kleinschreibung von Verben Es dürfen keine Schwierigkeiten
wie Schreibung von i, ie, ieh eingebaut sein.
Überprüfung der Mathematikkenntnisse der 10. Klasse mit Aufgaben der Algebra
Zur allgemeinen Überprüfung sollte Geometrie nicht fehlen!
Schwierigkeit:
20
3.4 Validität
Bei der Feststellung der empirischen Validität (auch Kriteriumsvalidität genannt) steht nicht
im Vordergrund, welche Eigenschaften oder Strukturen durch den Test gemessen werden
sollten, sondern ob aus dem Testverhalten ein bestimmtes Verhalten vorhergesagt werden
kann. Sie ist rein auf das Empirische ausgerichtet (Lukesch, 1998).
Nach Cronbach (1970) wir die empirische Validität in eine „predictive validity“
(Vorhersagevalidität) und eine „concurrent validity“ (Gleichzeitgkeitsvalidität) unterteilt, je
nachdem ob das Verhalten, auf das geschlossen wird, in der Zukunft liegt, oder gleichzeitig
(außerhalb der Testsituation nachweisbar) ist.
Zusammengefasst:
Beispiele:
Gleichzeitigkeitsvalidität und innere Validität: Intelligenztest A sollte Ergebnisse von
Intelligenztest B vorhersagen können.
21
3.4 Validität
Gleichzeitigkeitsvalidität und äußere Validität: Gültigkeit von Schultests wird mit dem
Grad der Übereinstimmung ihrer Ergebnisse mit Schulnoten ermittelt. Vorgehen
problematisch, da Schultests ja gerade aus Unzulänglichkeit der Schulnote
verwendet werden sollen
Schwierigkeit:
Ein Test, der Verhalten zu 100% vorhersagen kann, ist kaum konstruierbar.
z.B.: Intelligenztestverfahren mit dem Ziel, eine Bewährungsprognose für die
Schullaufbahn zu diagnostizieren:
o am Ende der Grundschule: gute Validitätskoeffizienten, da hier eine
Stichprobe aus der gesamten Schülerpopulation gezogen wurde
o zu Beginn der Gymnasialzeit: keine guten Validitätskoeffizienten, aufgrund
der Homogenität der Stichprobe (aufgrund der Gymnasialzuweisung)
3.4.3. Konstruktvalidität
Ein Konstrukt ist eine relativ stabile, theoretisch angenommene Eigenschaft, die nicht
beobachtbar ist (z.B. Prüfungsangst, Intelligenz). Die Erfassung von Konstrukten ist nur durch
die Erstellung von Theorien möglich, die festlegen, wodurch sich Konstrukte in der
beobachtbaren Ebene zeigen.
Beispiel: Intelligenz
Durch die Erhebung von messbaren Fähigkeiten (z.B. mentales Rotieren, Ängstlichkeit, …)
und die darauffolgende Einbettung der Ergebnisse in ein Netzwerk von
konstruktspezifischen Theorien („nomologisches Netzwerk“ lassen sich Konstrukte
nachweisen.)
22
3.4 Validität
Man kann nur beobachtbare Fähigkeiten messen und daraus auf die Ausprägung der
Intelligenz schließen.
Beispiel: Prüfungsangst – Wir können z.B. mit einem Fragebogen „Prüfungsangst“ messen.
Ob sie valide gemessen wurde, können wir nur abschätzen, wenn wir überprüfen, ob sich
theoretisch erwartete positive oder negative Beziehungen nachweisen lassen.
Fällt z.B. bei einem Probanden mit hoher Prüfungsangst unter Zeitdruck der
Leistungserfolg besonders stark ab, reagieren intelligente Prüfungsängstliche anders
als weniger intelligente, lassen sich körperliche Begleiterscheinungen (wie Schwitzen
oder Zittern) nachweisen?
Das Instrument ist dann konstruktvalide, wenn die tatsächlich gefundenen Beziehungen mit
dem theoretischen Merkmal hohe Übereinstimmung zeigen.
Schwierigkeit:
Da Konstrukte nicht direkt beobachtbar sind, kann nur schwer festgestellt werden,
welche beobachtbaren Kennzeichen für sie typisch sind.
Verfälschungstendenzen (individuelle Kontrolle der Probanden über die
Testantworten):
o Soziale Erwünschtheit: jeder Proband versucht, ein sozial erwünschtes Bild von
sich zu abzugeben (Intervention durch Lügenskalen, Itempaare, welche das
gleiche Konstrukt erfassen)
o Eigenschaften des Messinstrumentes: wenn eine andere Präsentation der
Inhalte zu anderen Antworten führt (z.B. unklare Formulierungen Tendenz,
eher „Ja“ zu sagen
o Simulationen: Bewusste Vortäuschung von Symptomen (z.B. mit Absicht
Rechtschreibfehler machen, um die Vorteile von LRS zu erhalten)
23
3.4 Validität
3.4.4. Testfairness
„Darunter ist die Forderung zu verstehen, dass die Testitems keinen Probanden oder keine
Probandengruppe benachteiligen dürfen (Lukesch, 1998).
Weiterhin sollte bei diagnostischen Verfahren auf Testfairness geachtet werden. Testitems
dürfen keine Probanden oder keine Probandengruppen benachteiligen.
Beispiele:
Benachteiligung von ausländischen Personen bei sprachgebundenen Intelligenztests
Kulturgebundenheit von Intelligenztests (cultur fair tests: möglichst unabhängig von
Kultur, Bildungsgrad und verbaler Kompetenz)
Schwierigkeit:
Insgesamt:
Die Validität ist das einzige inhaltliche Kriterium und macht eine Aussage darüber,
ob gemessen wird, was gemessen werden soll. Sie ist ein sehr wichtiges Kriterium für
die Güte einer diagnostischen Messung.
24
3.5 Nebengütekriterien
3.5. Nebengütekriterien
Neben den drei großen Hauptgütekriterien Objektivität, Reliabilität und Validität sollte ein
guter Test auch die weniger wichtigen Nebengütekriterien möglichst gut erfüllen:
Normierung
Nützlichkeit und Zumutbarkeit
Ökonomie
Vergleichbarkeit
Akzeptanz
3.5.1. Normierung
Diagnostische Ergebnisse sind nicht aus sich selbst heraus interpretierbar, d.h. Schlüsse
können nur durch Vergleich mit anderen Ergebnissen gezogen werden. Dazu stehen drei
Bezugsgruppen zur Verfügung:
25
3.5 Nebengütekriterien
Ein Test ist nützlich, wenn er ein Persönlichkeitsmerkmal misst, für dessen Untersuchung ein
praktisches Bedürfnis besteht. Hohe Nützlichkeit = kein anderer Test misst dasselbe ebenso
gut (Lienert, 1967).
Die Zumutbarkeit ist ein subjektives Merkmal- sie ist das Ausmaß, in dem ein Test die
getestete Person in zeitlicher, psychischer sowie körperlicher Hinsicht beansprucht
(Testkuratorium, 1986).
3.5.3. Ökonomie
Nach Lienert (1967) ist ein Test nur dann ökonomisch, wenn er:
3.5.4. Vergleichbarkeit
Vergleichbarkeit dient der Reliabilität und Validität, ist jedoch nicht zwingend notwendig.
3.5.5. Akzeptanz
Die Güte eines Tests wird auch von der Öffentlichkeit beeinflusst.
26
4.1 Testmethoden
4.1. Testmethoden
Allgemeine Definition:
Ein Test ist ein nach bestimmten Methoden entwickeltes und nach bestimmten Regeln
durchzuführendes Untersuchungsverfahren (Ingenkamp & Lissmann, 2008).
„Als Test lassen sich allgemein alle kontrollierten Situationen bezeichnen, in denen
1. Ein diagnostisch relevantes Verhalten durch standardisierte Reize ausgelöst wird und für
die
2. eine Interpretationsvorschrift besteht, die den beabsichtigten Rückschluss von beobachteten
Verhalten auf die Existenz und Ausprägung von Fähigkeiten, Eigenschaften usw. der
Persönlichkeit ermöglicht (Wieczerkowski & Schümann, 1982).
27
4.1 Testmethoden
durch Lehrer oder Erzieher ausgewertet, interpretiert und für ihr pädagogisches Handeln
nutzbar gemacht werden kann (Ingenkamp & Lissmann, 2008).
28
4.1 Testmethoden
Zentrale Frage: Das Ausmaß von verfälschenden Anteilen bei Messungen. Daher wird sie
auch oft als Messfehlertheorie bezeichnet.
Fragen konzipiert anhand eines Beispiels eines Schülers, der im Rechtschreibtest 26 von 40
Punkten erreicht hat:
1. Frage nach Reliabilität: Kam der Testwert durch zufällige Einflüsse oder aufgrund
einer überdauernden Fähigkeit der Schüler zustande?
2. Frage nach Validität: Sagt der Testwert etwas über die Rechtschreib-Fähigkeit
des Schülers aus?
2) Fehleraxiom: Der Messfehler einer Messung ist eine Zufallsvariable. Für diese gilt,
dass die Summe bzw. das arithmetische Mittel der Fehlerwerte den Wert Null ergibt
Beschrieben werden die aus diesen Axiomen der klassischen Testtheorie abgeleiteten
Formeln, Regeln und Vorschriften unter Objektivität, Rentabilität und Validität.
Genauere Beschreibung siehe Gütekriterien
4.1.3. Item-Response-Theorie
Bezeichnung im deutschsprachigen Raum als probabilistische Testtheorie.
29
4.2 Beobachtungsverfahren
In der Praxis konnte sich dieses Verfahren jedoch noch nicht durchsetzen
4.2. Beobachtungsverfahren
Vorbemerkung:
Aus diesen Gründen ist ein Test nicht immer möglich und deshalb ist die Beobachtung
die wichtigste Methode der Pädagogischen Diagnostik
Mit ihrer Hilfe können Informationen erlangt werden, die sonst nicht oder nur schwer erfasst
werden können. Vor allem ist man in einer alltäglichen Situation von Zustimmung und
Kooperation der Beobachteten weitgehend abhängig.
„Beobachtung ist die absichtliche, aufmerksame Art des Wahrnehmens, die ganz bestimmte
Aspekte auf Kosten der Bestimmtheit von anderen betrachtet“ (Graumann, Heller, Nickel
1978).
30
4.2 Beobachtungsverfahren
kontinuierlich vs.
diskontinuierlich
31
4.2 Beobachtungsverfahren
Naiv Systematisch
ungesichertes "Zuschauen", d.h. ohne klare Klärung des Ziels, des Zeitpunktes, der
Zielsetzung, Gelegenheitsbeobachtung Methode, des Instruments, etc.
teilnehmend nicht-teilnehmend
Versuchsleiter ist involviert in Geschehen Wahrung einer kritischen Distanz zum
und interagiert mit den Versuchspersonen Geschehen
(Vpn)
Problem: u.U. mangelnde Distanz Problem: Vpn fühlen sich beobachtet und
zeigen u.U. nicht das gewünschte Verhalten
Aber: Verhalten der Vpn soll durch das Gefühl der Beobachtung nicht gestört werden.
Lösung: Beobachter gibt sich z.B. als Gruppenmitglied aus („Under cover“)
Problem: objektiver Status ist gefährdet, späte Protokollierung, vgl. verdeckte Beobachtung
offen verdeckt
• wissenschaftlich • unwissenschaftlich
• Vpn weiß, dass sie beobachtet • Vpn weiß nicht, dass sie
wird beobachtet wird
• Problem: u.U. wird • Problem: ethische Bedenken
gewünschtes Verhalten
unterdrückt
32
4.2 Beobachtungsverfahren
Kontinuierlich Diskontinuierlich
Dauerbeobachtung Zeitstichprobenpläne
Problem: Überforderung des Beobachters, Problem: erfasst u.U. seltenes oder
in Schule kaum möglich unauffälliges Verhalten nicht
Feldbeobachtung Laborbeobachtung
33
4.2 Beobachtungsverfahren
Fremdbeobachtung
• Problem: kein direkter Zugang zum "Innenleben"
Selbstbeobachtung
• z.B. Befragung, Tagebücher
• Problem: Verzerrung
4.2.2.8. Fazit
34
4.2 Beobachtungsverfahren
Sprachzeiten Lehrer/Schüler: Nach Claus, 1954: 80% Lehrer Schüler: 20% aller
sprachlichen Interaktionen
Standort des Lehrers: Dauer: am Pult, an der Tafel, bei dem einzelnen Schüler …
4.2.4. Beobachtungssysteme/Interaktions-Analyse-Systeme
Unter einem Beobachtungssystem oder Kodierschema versteht man eine Menge von Regeln,
die spezifizieren, welche Verhaltensaspekte jeweils beachtet und registriert werden müssen
(Krohne & Hock, 2007).
Nach Mees (1977) kann man die Beobachtungssysteme unterscheiden in Verfahren der:
Isomorphen Deskription: möglichst vollständig und unveränderte Wiedergabe des
Beobachteten faktisch unmöglich, da Verhalten immer unterschiedlich
35
4.2 Beobachtungsverfahren
4.2.4.2. Kategoriesysteme
4.2.4.2.1. FIAC
Interaktions-Analyse-System: Flanders Interaction Analysis Categories (FIAC) (Flanders,
1970)
Ist das bekannteste Kategoriesystem
4.2.4.2.1.1. Aufbau
36
4.2 Beobachtungsverfahren
4.2.4.2.1.2. Auswertung
Alle drei Sekunden Kodierung einer Verhaltensweise, d.h. die Beobachtungseinheit ist
zeitlich definiert und nicht nach abgeschlossenen Verhaltenssequenzen.
37
4.2 Beobachtungsverfahren
Der Lehrer stellt eine Frage (4) Schüleräußerung-Antwort (8) Lehrer akzeptiert oder
verwendet Gedanken der Schüler (3) Lehrervortrag (5) …
Diese Kodierungen werden, wie bei IPA in eine 10x10 Matrix eingetragen:
Durch die Matrix können dann Zeilen- und Spaltensummen sowie
Übergangswahrscheinlichkeiten bestimmt werden
Bei der Auswertung in einer 10x10 Matrix wird jede vorhergehende Kategorie mit einer
nachfolgenden in eine Matrix eingetragen
Erstes Glied: Zeile
Zweites Glied: Spalte LEHRER SCHÜLER
LEHRER
SCHÜLER
4.2.4.2.1.3. Kritik
38
4.2 Beobachtungsverfahren
4.2.4.3. Zeichensysteme
4.2.4.3.1. BASYS
(Beobachtungssystem zur Analyse aggressiven Verhaltens in schulischen Settings)
(nach Wettstein, 2008)
39
4.2 Beobachtungsverfahren
Gütekriterien:
4.2.4.4. Schätzskalen/Ratingskalen
40
4.3 Beurteilung
Geringe Objektivität
Haloeffekt: überdurchschnittlich hohe Korrelation der Urteile eines Beobachters
zwischen verschiedenen Merkmalen einer Person
Keine Reliabilität, da meist keine Parallelverfahren existieren
Meist Validität gegeben, da sich Beobachtung nur auf ein konkrete Verhalten
bezieht
4.2.7. Beobachtungsfehler
4.3. Beurteilung
Def. Beurteilung: Beurteilung ist die abstrahierende Beschreibung des Verhaltens mit
anschließender Deutung des Verhaltens, wobei ein Vergleich der Beobachtungseinflüsse mit
Milieueinflüssen und Lebenslaufdaten stattfindet.
Als Inferenz bezeichnet man die Wertungs- und Interpretationsprozesse, die sich an eine
Wahrnehmung anschließen (können) (Ingenkamp, 2005).
41
4.3 Beurteilung
Beobachtung Beurteilung
niedriger Inferenzgrad hoher Inferenzgrad
Bsp.: Registrieren der Meldung eines Bsp.: Ist das Verhalten des Schülers als
Schülers in einer Unterrichtsstunde Meldung zu interpretieren oder hat er sich
nur gestreckt? Meldet sich dieser Schüler
viel oder wenig?
BEOBACHTUNG BEURTEILUNG
„Der Klient hat während des 20-minütigen
„Der Klient zeigt eine extreme Blickaversion
Gesprächs den Therapeuten zweimal für
gegenüber dem Therapeuten“
jeweils eine halbe Sekunde angeschaut“
Nach den Vorstellungen des deutschen Bildungsrates (1970) umfassen die Aufgaben von
Lehrern das Lehren (Vermittlung von Kenntnissen), das Beurteilen (Feststellen von Lernerfolg
und –misserfolg), das Beraten (Bildungs-, Berufsberatung …), das Erziehen (Weitergabe
von Wert- und Normvorstellungen) und das Innovieren (eigenverantwortliches Erarbeiten
und Verarbeiten fördern und fordern).
Schülerbeurteilung ist ein zentrales Problem, aber ein wichtiger Bestandteil des
Schulsystems.
„Nicht was Schüler lernen, bestimmt ihren Schulerfolg, ihre Lebenschancen, sondern wie sie
zensiert werden.“ (Ingenkamp, 1962)
4.3.2. Beurteilungsverfahren
Jede Beurteilung setzt eine Beobachtung voraus, deshalb sind diese beiden Bereich eng
miteinander verknüpft.
Es gibt mehrere Möglichkeiten und Arten der Beurteilung (z.B. Selbst- oder
Fremdbeurteilung)
42
4.3 Beurteilung
4.3.4. Beurteilungsfehler
43
4.4 Einsatzmöglichkeiten der Beobachtung/Beurteilung
Situation
Verlauf
Untersucht
werden kann
Vergleich
Sequenz
44
4.5 Gesprächsmethoden
Lehrer Schüler
4.5. Gesprächsmethoden
45
4.5 Gesprächsmethoden
Gespräch: Vorgehensweise der Informationssuche, bei der der Proband durch gezielte
Fragen zu Angaben über sich und sein Umfeld angeregt werden soll (Fisseni, 2004).
Anamnese
Interview Exploration
Die Anamnese, die Exploration und das Interview haben unterschiedliche Schwerpunkte, die
man aber nicht trennscharf voneinander abgrenzen kann.
4.5.2. Anamnese
(Griechisch: in Erinnerung rufen, „Vorgeschichte eines Tatbestandes“)
„Anamnese ist das Insgesamt der Mitteilungen eines Probanden oder einer wesentlichen
Bezugsperson über seine Persönlichkeit, Lebensgeschichte, soziale Bezüge, Erlebnisse
Handlungen, Einstellungen und Wünsche im Allgemeinen(!) oder in speziellen Bereichen.“
(Schraml, 1964)
46
4.5 Gesprächsmethoden
4.5.3. Exploration
(lat.: ausforschen, ermitteln, „einer Sache auf den Grund gehen“)
Dabei gilt:
individuelle Orientierung durch Interviews möglich; nicht standardisiert
Fragen können persönlichkeitsspezifisch erfasst werden; einzelner Gesprächsführer
keine Inhalte werden aufoktroyiert
Individuum ist durch keine Methodik eingeengt
47
4.5 Gesprächsmethoden
Anamnese
• Bewusstseinsnahe Aspekte der Lebensgeschichte
Exploration
• ganzheitlicher tiefergehender Anspruch
4.5.4. Interview
Unter Interview als Forschungsinstrument versteht man ein planmäßiges Vorgehen mit
wissenschaftlicher Zielsetzung, bei dem die Versuchsperson durch eine Reihe gezielter Fragen
oder mitgeteilter Stimuli zu verbalen Informationen veranlasst werden soll (Scheuch, 1962).
Die Befragung ist in der Form des Interviews eine der ältesten und auch heute noch am
häufigsten benutzen diagnostischen Methoden.
Man kann dabei die Beobachteten oft direkt nach ihren Interessen und Einstellungen
befragen. Der Befragung können objektive (z.B. Fakten, Angaben zur Person) und subjektive
(z.B. Meinungen, Einstellungen) Daten erhoben werden.
Als diagnostisches Instrument sind Gespräch und Befragung vor allem in der Soziologie und
der Psychologie entwickelt worden.
Fragebogen in Gesprächsform
Vorteile:
Aufmerksamkeit der Probanden kann
kontrolliert werden
Keine Lesefähigkeit notwendig, im
Vergleich zum Fragebogen
48
4.5 Gesprächsmethoden
Problem:
Ergebnisprotokoll,
Tonbandaufzeichnung?
reduzierte Vergleichbarkeit
hoher Anspruch an verbalen
Fähigkeiten des Probanden
hohe Flexibilität gefordert und
aufwändige Auswertung
a) duale Form 1 Interviewer, 1 Proband
Geordnet nach Anzahl der Interviewer und
Problem:
Selbstdarstellungstechniken
c) reziproke Sozialsituation 1 Proband, mehrere Interviewer z.B. bei
Eignungstests (Extremfall: Stressinterview)
Vorteil:
Erhöhung der Objektivität und Reliabilität, um
Wahrnehmungsfehler auszugleichen;
trotzdem: soziale Einflüsse auf Urteilbildung
49
4.5 Gesprächsmethoden
50
4.5 Gesprächsmethoden
„Lüge ist zugleich Inbegriff des Unmoralischen und Instrument der Menschlichkeit und
Rücksichtnahme. Sie dient der Durchsetzung und Machtausübung und erfolgt sehr oft aus
Schwäche.“ (Fiedler, 1989)
„Die Lüge ist eine Aussage mit dem Willen, Falsches zu sagen.“ (Augustinus, 1953)
Dokumente sind alle Zeugnisse menschlichen Handelns, Denkens und Erlebens, die in
natürlichen Situationen entstanden sind und erst nachträglich zur Beantwortung einer
Forschungsfrage herangezogen werden. (Ballstaedt, 1987)
52
4.7 Fragebogen
4.7. Fragebogen
Wissenschaftliche gesehen ist ein Fragebogen „[…] die schriftlich fixierte Strategie einer
strukturierten Befragung“ (Atteslander, 2000).
Die schriftliche Befragung oder der Fragebogen ist für Erzieher das am wenigsten
aufwendige Verfahren, Auskünfte über objektive Daten und subjektive Einstellungen zu
erlangen.
Der Fragebogen als wissenschaftliches Instrument ist das Ergebnis sorgfältiger und
aufwendiger Expertenkonstruktion. Er soll eingesetzt werden, wenn er für diagnostische
Ziele hilfreich erscheint.
4.7.1. Merkmale
Kategorisierung von Fragebögen nachfolgenden Merkmalen:
Ein Fragebogen oder schriftliche Befragung ist eine spezielle Art von Fragenkatalog, als
Instrument der Datenerhebung für eine/mehrere Statistik(en). Meist wird derselbe
Fragebogen mehreren Personen vorgelegt und dann statistisch ausgewertet. Man
unterscheidet zwischen Papier- und elektronischen Fragebogen.
53
4.8 Soziometrie
Der Fragebogen als wissenschaftliches Instrument ist das Ergebnis sorgfältiger und
aufwändiger Expertenkonstruktion. Der Erzieher sollte sich über diese publizierten
Fragebögen informieren und sie einsetzen, wenn sie für seine diagnostischen Ziele hilfreich
erscheinen.
4.8. Soziometrie
(Lat.: socius = Teilnehmer; griech.: metria = Messung)
Die Soziometrie ist eine von Jakob Levy Moreno in den 1930er Jahren begründete
Methode der empirischen Sozialforschung, welche dazu dient, Beziehungen zwischen
Mitgliedern einer Gruppe zu erfassen, darzustellen und zu analysieren.
54
4.8 Soziometrie
Es gibt zahlreiche teilweise verschiedene Definitionen, doch alle haben eine Gemeinsamkeit:
Soziometrie ist die quantitative Analyse zwischenmenschlicher Beziehungen.
Datenerhebung:
Mit einer soziometrischen Beobachtung kann man die Stellung des Individuums innerhalb der
Gruppe beurteilen. Da aber nur eine oberflächliche Beobachtung möglich, ist der
soziometrischen Beobachtung die soziometrische Befragung vorzuziehen, die im Folgenden
ausführlich behandelt wird.
55
4.8 Soziometrie
4.8.3.1. Soziomatrix
56
4.8 Soziometrie
4.8.3.3. Soziogramm
Ein Soziogramm ist die graphische Darstellung der Beziehungen in einer Gruppe, etwa in
einer Schulklasse oder in einem UN. Ausgehend von Daten einer Erhebung werden in der
Darstellung Beziehungen beispielsweise durch Pfeile symbolisiert.
57
4.8 Soziometrie
58
5.1 Normierung
Konsequenzen:
o Sympathie/Antipathie evtl. vom Kriterium abhängig
o Frage nach Antipathie kann diese stärker ins Bewusstsein rufen
o Negative Wahlen können verletzend wirken anonyme Erhebung
o Gefahr von Fehlinterpretation der Ergebnisse
5.1. Normierung
Um das Verhalten der Lernenden besser vergleichen zu können und damit auch objektiver
beurteilen zu können, werden die Verfahren, die das Verhalten erfassen sollen, normiert.
Bei der Standardisierung (=Eichung) wird das Diagnoseverfahren auf alle Personen einer
ausgewählten, genau beschriebenen Stichprobe in der gleichen Weise und unter
vergleichbaren Bedingungen angewendet. Diese Erhebung an einer repräsentativen
Stichprobe unter konstant gehaltenen Bedingungen ermöglicht die Aufstellung von Normen.
Das sind statistische Vergleichsdaten, die es ermöglichen, den spezifischen individuellen Wert
einer Person mit Resultaten anderer Personen einer definierten Gruppe zu vergleichen.
Ein konkretes Testergebnis ist nicht aus sich heraus interpretierbar, sondern jedes
Testergebnis muss in ein Bezugssystem eingeordnet werden. Dafür stehen drei Möglichkeiten
zur Verfügung (sozial, individuell und sachlich/kriterial).
59
5.2 Arten von Bezugsnormen
Synonyme: normorientiert
Vergleich der individuellen Leitung mit dem Leistungsdurchschnitt der Klasse oder Vergleich
in einer bestimmten Bezugsgruppe Normalverteilung mit Mittel-/Durchschnittswert (meist
auf Note 3)
Normierte Leistungsbewertung
Beachte: Bei Intelligenztests hingegen ist aber das Ergebnis des Einzelnen im Vergleich zum
Durchschnitt interessant!
ipsative Leistungsbewertung
60
5.3 Interindividuelle Normskalen
Diese Norm wird besonders in der Förderpädagogik verwendet oder auch bei LRS-Kindern
in der Realschule. Sollte auch in der Schule miteinbezogen werden!
Vergleich der aktuellen Leistung des einzelnen Schülers mit einem vorher genau definierten
und den Schülern mitgeteilten Anforderungskatalog (z.B. vom Lehrer).
Rückmeldungsfunktion
Qualifikationsfunktion von Noten
kriteriumsorientierte Leistungsbewertung
5.3.1. Prozentrangskala
Der Prozentrang definiert die Stellung eines Schülers innerhalb einer Gruppe bzgl. eines
Merkmals. Er wird durch den Prozentsatz charakterisiert, der innerhalb dieser Gruppe von
dem Schüler im Hinblick auf das Merkmal übertroffen wird.
Hat ein Schüler bspw. einen Prozentrangplatz von 75, dann sind seine Leistungen gleich
oder besser als die von 75% aller Schüler dieser Gruppe.
Beispiel:
Von 300 Schülern liegen die Ergebnisse eines Wortschatztests mit 80 Aufgaben vor
(f) ist wie oft (0-300) ein Rohpunkt (0-80) erreicht wurde
Vom untersten aufgetretenen Rohpunktwert aus werden die je Rohpunktwert
aufgetretenen Häufigkeiten (cum f) fortlaufend (kumulativ) addiert
Die pro Rohpunktwert aufgetretenen kumulative Häufigkeit drückt man als
Prozentanteil PR aller N=300 Beobachtungen aus nach der Formel: cum f % =
100 cum f/N
61
5.3 Interindividuelle Normskalen
5.3.3. T-Wert-Skala
Es gibt verschiedene Standardnormen. Bei diesen Normen geht man davon aus, dass die
empirischen Werte sich normal verteilen und dass man sie linear, den aus der Normalkurve
bekannten Zahlenwerten zuordnen kann.
Für Tests hat sich die T-Wert-Skala als sehr praktische Normskala weitgehend durchgesetzt
(Lienert, 1969). Bei ihr wurden der Mittelwert mit 50 und die Standardabweichung mit 10
festgelegt.
Bsp.: Ein Proband mit T-Wert 48 hat Prozentrang 42, seine Leistungen sind also besser als
oder gleich wie die von 42% aller Teilnehmer
Dazu bildet man zunächst Kompetenzbereiche (etwa I: rudimentäres schulisches Wissen bis
V: Problemlösen bei inner- und außermathematischem Kontext) und ordnet diesen Aufgaben
mit einem bestimmten Schwierigkeitsgrad zu. Löst ein Schüler eine Aufgabe mit
Schwierigkeitsgrad 287, fällt er bspw. in Kompetenz I
62
5.3 Interindividuelle Normskalen
Großer Vorteil: spiegeln tatsächliches Können der Schüler wieder, nicht nur Vergleich mit
anderen
Stichprobe sollte ein verkleinertes Bild der Gesamtheit sein, also nach Geschlecht,
Bundesland, etc. der Population entsprechend, für die Gültigkeit beansprucht wird
Stichprobe muss randomisiert auswählt werden
Normierung sollte aktuell sein
6. Schulleistungsdiagnostik
Schulleistungs-
diagnostik
Unter Schulleistung versteht man zusammengefasst die von der Schule initiierten
Lernprozesse und Lernergebnisse der Schüler. Diese Lernleistungen können im Hinblick auf
verschiedene Verhaltensdimensionen beschrieben und unter Bezug auf verschiedene Normen
eingeordnet werden (Ingenkamp & Lissmann, 2008).
63
6.1 Schulleistungsmodelle
6.1. Schulleistungsmodelle
Qualität des
kognitive Unterrichts
Merkmale der 25%
Schüler
50%
Affektiv-
motivationale
Merkmale der
Schüler
25%
64
7.1 Begriffsklärung
7. Schulleistungstests
7.1. Begriffsklärung
Schulleistungstests sind Verfahren der Pädagogischen Diagnostik, mit deren Hilfe Ergebnisse
geplanter und an Curricula orientierten Lernvorgänge möglichst objektiv, zuverlässig und
65
7.2 Arten von Schulleistungstests
gültig gemessen und durch Lehrende oder Beratende ausgewertet, interpretiert und für
pädagogisches Handeln nutzbar gemacht werden können (Ingenkamp & Lissmann, 2008).
Ein und dasselbe Resultat kann aufgrund der Verwendung unterschiedlicher Bezugsnormen
als unterschiedliche Leistung bewertet werden.
Schulleistungstest dienen der Untersuchung darüber, ob – und eventuelle wie gut – ein
Lernziel erreicht ist. Die hierbei verwendeten Testaufgaben sind nicht identisch mit dem
Lernziel, sondern repräsentieren es nur und dienen dazu, den individuellen Fähigkeitsgrad
zu vergleichen.
SLTs sind objektive Verfahren, mündliche und schriftliche Prüfungen hingegen subjektive.
Grad
der
Standa Formell Informell
rdisier
ung
Bezugsgruppen- Kriteriumsorientiert
orientiert (soziale
Norm- (sachliche BZN)
BZN)
bezug
Bezugsgruppen Kriteriums-
Informelle SLT‘s
-orientierte orientierte SLT‘s
SLT‘s
66
7.3 Überblick über die Möglichkeiten der Konstruktion von SLT
Nach Normbezug:
Sozialnormorientiert Kriteriumsorientiert
Synonyme: normorientiert Synonyme: kriterial, Kriteriumsbezogen,
Lehrzielbezogen, Lernzielorientiert,
objektive Norm
Vergleich mit den Leistungen anderer Vergleich individueller Testergebnisse mit
vorher gesetzten Kriterien
67
7.4 Formelle Schulleistungstests
Bei den bezugsgruppenorientierten Tests werden die individuellen Testergebnisse mit denen
einer Bezugsgruppe verglichen (meist Klassenstufe). Daher muss die Bezugsgruppe für den
jeweiligen Zweck des Tests repräsentativ sein.
68
7.4 Formelle Schulleistungstests
69
7.4 Formelle Schulleistungstests
70
7.4 Formelle Schulleistungstests
7. Testvalidierung:
a. Überprüfung der empirischen Validität an kleineren Stichproben (ca. 150
Pbn)
b. Überprüfung der Konstruktvalidität
c. Berechnung der Reliabilität
7.4.1.2. Einsatzmöglichkeiten
71
7.4 Formelle Schulleistungstests
Forschungsfragen:
Vorteile Nachteile
▪ gute Erfüllung der Gütekriterien, besser ▪ bei mangelnder curricularer Validität
als bei herkömmlicher und Lerngelegenheit unfairer Test
Leistungsbeurteilung! auch Einsatz in
der Forschung möglich
▪ Normierung erlaubt Überprüfung des ▪ negative motivationale / soziale
eigenen Benotungssystems verhindert Folgen, z.B. Verlust der intrinsischen
Anwendung des klasseninternen Motivation
Bezugssystems
▪ Überprüfung des Leistungsstandes der ▪ Erstarrung des Unterrichts und
Klasse und des eigenen Unterrichts Verarmung der Lehrpläne (Lehrer
lehren nur Inhalte, die bei solchen Tests
abgefragt werden könnten)
▪ gerechtere Selektion ▪ häufig veraltet und nicht für alle
Unterrichtsfächer verfügbar
▪ Hilfe bei Entdeckung individueller ▪ eher im kognitiven Bereich
Schwächen
▪ Überprüfung von Lernvoraussetzungen ▪ Erfassung von Lernergebnissen und nicht
Lernleistungsvoraussetzungen
▪ Einsatz zur Leistungsdifferenzierung ▪ klassenunabhängige Beurteilung
▪ Einsatz von Computerauswertung ▪ unökonomisch / Kosten
▪ überregionaler Vergleich ▪ Sozialnormorientierte Schulleistungstests
machen Leistungsunterschiede zwischen
Schulen für den Lehrer überdeutlich
72
7.4 Formelle Schulleistungstests
Testaufgaben sind nicht identisch mit dem Lehrziel, sondern repräsentieren es nur und dienen
dazu, den individuellen Fähigkeitsgrad eines Schülers mit einem gewünschten Fähigkeitsgrad
zu vergleichen dazu sind folgende Schritte nötig:
Nötige Schritte:
▪ Verwendung von sowohl Aufsatztests als auch von Tests mit kurzen Antworten
▪ Verwendung von freien Fragen und gebundenen Fragen mit kurzen Antworten
(gebundene Fragen mit richtig/falsch oder multiple-choice oder Zuordnungsitems)
▪ Aufsatztests für komplexe Leistungen
73
7.4 Formelle Schulleistungstests
(1) Analyse der Lehrpläne: zentrale Bedeutung aus all den Aufgaben, die die
Unterrichtseinheit repräsentieren, möglichst repräsentativen Überblick herausziehen.
(3) Vorerprobung
(6) Testeichung:
entfällt, da nicht mit anderen verglichen wird Daneben muss man sich fragen, ob die
gelösten Aufgaben repräsentativ für das angestrebte Lernziel sind. In dieser Phase
werden ebenfalls Fragen der Gültigkeit und der Zuverlässigkeit des Tests kritisch
betrachtet.
(7) Testauswertung:
Gewinnt im Gegensatz zu bezugsgruppenorientierten Tests eine besondere
Bedeutung. Es muss folgendes bestimmt werden:
a. Wann kann man z.B. sagen, das durch Testaufgaben repräsentierte Lernziel
sei erreicht, oder nicht erreicht
b. oder welchen Anteil der Aufgaben eine Person gelöst hat
c. oder in welche Leistungsgruppe (bezüglich des Abstandes vom Lernziel)
gehört ein Schüler, wenn z.B. 20 von 30 Punkten erreicht wurden.
(8) Testvalidierung:
Validität und Reliabilität ermitteln
74
7.4 Formelle Schulleistungstests
Normorientiert Kriteriumsorientiert
7.4.4.1. Objektivität
1) Durchführungsobjektivität:
bei formellen Tests sehr gut:
a. schriftlich fixierte, vorgegebene Instruktion
b. Beispiele und Übungsaufgaben
c. Vorgabe des Anwendungszeitraums und Beurteilerschulung
2) Auswertungsobjektivität:
a. bei gebundenen Antwortformaten maximal Korrektur mit Schablonen
75
7.4 Formelle Schulleistungstests
3) Interpretationsobjektivität:
a. sehr gut: klare Instruktionen bezüglich der Interpretation der Ergebnisse
b. (Punktewerte Noten; Angabe qualitativer Fehlerarten; Angabe von
Normwerten)
c. Angabe des Objektivitätskoeffizients (Ü-Koeffizient bei kriteriumsorientierten
Tests) im Beiheft
7.4.4.2. Reliabilität
7.4.4.3. Validität
1) Inhaltsvalidität:
a. Sicherung der curricularen Validität durch Analyse der Lehrpläne (allerdings
i.d.R. nur annäherungsweise zu erreichen)
b. individuelle Lerngelegenheit kann aber nicht berücksichtigt werden
c. Expertenrating bei Lehrplananalyse zur Sicherung der Inhaltsvalidität
Inhaltliche Validität
Curriculare Lerngelegenheit
Validität
Schülerurteile
Erklärung:
i. Curriculare Validität: Ausmaß in dem die Testitems das Curriculum
repräsentieren
ii. Lerngelegenheit: Grad, in dem der Schüler tatsächlich Gelegenheit
hatte, die Inhalte eines Schulleistungstests zu lernen durch
76
7.4 Formelle Schulleistungstests
2) Empirische Validität:
a. Vergleich der Ergebnisse aus den Stichprobenerhebungen mit Schulnoten,
Lehrerurteilen usw. (Gleichzeitigkeitsvalidität)
b. Erhebung von Vorhersagevalidität bessere prognostische Validität von
Tests im Vergleich zu Noten (Tent, 1969)
c. Angabe der Koeffizienten im Beiheft
3) Konstruktvalidität:
a. auf Grund der hohen Objektivität, der Standardisierung und Normierung
sehr gut
b. Angabe der Validitätskoeffizienten im Beiheft
7.4.5.1. Mehrfächertests
Hauptanwendungsbereiche bei Fragen der Objektivierung von Schulnoten, der Überprüfung
der Förderschulbedürftigkeit sowie bei Spezialfragen (z.B. Legastheniediagnose).
Ergebnisse können zu Platzierungs- oder Fördermaßnahmen verwendet werden. Ob diese
heute jedoch noch gültig sind ist fraglich, da die meistens Tests in den 1970er Jahren
entwickelt wurden inhaltliche Validität? Normgültigkeit? empirische Validität?
Ist eine Neubearbeitung des Kombinierten Schultests für die 4. Klasse (KS 4)
14 Subtests bei denen folgende Bereiche erfasst werden:
o Sprachverständnis
o Leseverständnis
o Rechtschreibung
o Informationsentnahme aus Karten, Tabellen und Diagrammen sowie
o Mathematik
77
7.4 Formelle Schulleistungstests
78
7.5 Informelle Schulleistungstests
Antwortmodus: Multiple-Choice
Klassen 8 bis 10 können geprüft werden
79
7.5 Informelle Schulleistungstests
Informelle Schulleistungstests werden nur für eine oder wenige Schulklassen konzipiert. Es ist
daher keine überregionale Anwendbarkeit, oft nicht einmal eine solche innerhalb der Schule
möglich.
Sie spielen immer noch eine geringe Rolle, weil Lehrer den Arbeitsaufwand scheuen.
80
7.5 Informelle Schulleistungstests
a. evtl. Reliabilitätsschätzung
7.5.2.1. Objektivität
1) Durchführungsobjektivität:
Bei informellen Tests besser als bei schriftlichen Prüfungen:
a. standardisierte Instruktion
b. Beispiele und Übungsaufgaben
2) Auswertungsobjektivität:
a. bei gebundenen Antwortformaten maximal Korrektur mit Schablone
b. bei freien Antwortformaten sind Kriterienkataloge notwendig
3) Interpretationsobjektivität:
a. besser als bei schriftlichen Prüfungen, v.a. bei geschlossenen
Antwortformaten
b. ungünstiger als bei formellen Tests, da i.d.R. keine Normierung, keine
Erfassung der Objektivitätskoeffizienten
7.5.2.2. Reliabilität
i.d.R. keine Erhebung der Reliabilitätskoeffizienten (u.U. Paralleltestreliabilität)
7.5.2.3. Validität
1) Inhaltsvalidität:
a. Sicherung der curricularen Validität durch Analyse der Lehrpläne besser
als bei formellen SLTs
b. Berücksichtigung der individuellen Lerngelegenheit besser als bei
formellen SLTs
c. Experten-Rating bei Lehrplananalyse zur Sicherung der Inhaltsvalidität
81
7.5 Informelle Schulleistungstests
2) Empirische Validität:
i.d.R. keine Erhebung
3) Konstruktvalidität:
a. Überprüfung der Übereinstimmung z.B. mit Schulnoten möglich
b. ungünstiger als bei formellen Tests, da keine Standardisierung/Erhebung von
Validitätskoeffizienten
c. besser als bei traditioneller Leistungsbeurteilung, da sachfremde
Beurteilungskriterien z.B. durch fixierte Instruktion, Aufgabenanalyse und
Kriterienkataloge gemindert werden
82
7.6 Zehn Prüfsteine zur Beurteilung von Schulleistungstests
o Korrekter Satzbau
o Aktive Sprechbeherrschung
Sind als informelle Aufgabensammlung zu dem entsprechenden Lehrwerk zu
gebrauchen
83
8.1 Mündliche Prüfungen
Mündliche Prüfungen sind eine Form zielgerichteter Kommunikation zwischen einem oder
mehreren Prüfern und Prüflingen, bei der auf die Schriftform verzichtet wird (Ingenkamp &
Lissmann, 2008).
Mündliche Prüfungen sind am wenigsten erforscht, da sie nicht angemessen für wiederholte
Analysen fixierbar sind (auch Videokameras erfassen die soziale Situation selten vollständig
und beeinträchtigen gleichzeitig).
Formen Werden
durchgeführt als
formelle
sprachliche (festgesetzte)
Prüfungen
nicht- informelle
sprachliche (willkürliche)
Prüfungen
•Vorstellen eines Themas, das Teil einer größeren Arbeit ist und vorher gedanklich
Arbeits- vorgearbeitet wurde
probe
84
8.1 Mündliche Prüfungen
Urteilsfehler:
Kontext- Ausbildung
effekt Geschlecht
Halo- Motivation
effekt Status
Eindruck Aussehen
Widerspruch: Prüfung soll Leistung messen, verhindert das aber selbst durch Angstauslösung
(Moeller, 1972)
85
8.1 Mündliche Prüfungen
8.1.3.1. Objektivität
1. Durchführungsobjektivität:
2. Auswertungsobjektivität:
Wegen situativem Charakter oft unzureichend; Kriterien für richtig/falsch sind oft nur vage
definiert.
3. Interpretationsobjektivität:
Birkel & Pritz (1980): von einer mündlichen Geographieprüfung, die mit Note 3
bewertet worden war, wurden 2 Videoversionen erstellt; 1x schnell, flüssig, 1x
langsam, stockend
8.1.3.2. Reliabilität
1. Wiederholungsreliabilität:
Prüfer prüft Kandidaten nach einiger Zeit erneut; kaum Untersuchungen vorhanden
(Koeffizient etwas höher als bei Paralleltests)
86
8.1 Mündliche Prüfungen
2. Paralleltestreliabilität:
Birkel & Pritz (1980): Streuung von Note 1 bis 5 unter allen Bedingungen
Beurteilung durch Zweitprüfer; in der Regel nur bei Abschlussprüfungen vorgesehen
8.1.3.3. Validität
1. Inhaltsvalidität:
Beeinträchtigt durch situativen Charakter Fragen sind z.T. nicht repräsentativ, keine
Staffelung nach Schwierigkeit, … aber: i.d.R. curriculare Validität/Lerngelegenheit
berücksichtigt.
2. empirische Validität:
3. Konstruktvalidität:
87
8.1 Mündliche Prüfungen
8.1.4. Verbesserungsmöglichkeiten
8.1.4.1. Allgemein
8.1.4.2. Explizit
8.1.4.2.1. Objektivität
1. Durchführungsobjektivität:
88
8.1 Mündliche Prüfungen
Kriterienkataloge einsetzen
getrennte Beurteilung durch Zweitprüfer
Entwicklung eines schulinternen Bezugssystems
8.1.4.2.2. Reliabilität
1. Wiederholungsreliabilität:
2. Paralleltestreliabilität:
8.1.4.2.3. Validität
1. Inhaltsvalidität:
2. empirische Validität:
Überprüfung des Zusammenhangs mit anderen Kriterien wie z.B. weiteren mündlichen
Prüfungen, schriftlichen Prüfungen, Tests, usw.
3. Konstruktvalidität:
nur mündlich prüfen, wenn Sprache der Gegenstand der Prüfung ist
Pluralismus der Prüfungsmethoden Wahlmöglichkeit
Bewusstheit über Verzerrungseffekte
Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf
Abwechseln von Übersichts- und Detailfragen
nicht zu viele Prüfungen hintereinander (Vermeidung von Kontrasteffekten)
besser mehrere Einzelprüfungen statt einer einzelnen Prüfung
89
8.2 Schriftliche Prüfungen
8.2.1. Vorteile
Schulaufgaben sind i.d.R. standardisiert. Alle erhalten dieselben Aufgaben oder
Fragestellungen
Beurteiler müssen ihre Entscheidungen nicht sofort und in der Belastung der
Prüfungssituation treffen. Der Lehrer kann die Leistung in Ruhe mit seinem Maßstab
vergleichen.
Weil viele oder nur wenige Schüler eine Aufgabe/eine Frage lösen, erhält der
Lehrer eine Vorstellung von Schwierigkeitsgrad dieser Aufgabe
Für die Zuverlässigkeit der Prüfung ist die Anzahl der gestellten Aufgaben wichtig.
Schriftliche Prüfungen enthalten i.d.R. mehr Aufgaben
Leistungsfremde Faktoren (Aussehen, Kleidung, Haltung, …) spielen bei schriftlichen
Prüfungen keine Rolle
Blockierung durch Ängste können bei der schriftlichen Prüfung leichter überwunden
werden
Schriftliche Prüfungen sind i.d.R. besser strukturiert Prüfling kann sich besser
zurechtfinden
Grundlagen und Ergebnisse der schriftlichen Prüfungen sind öffentlich, d.h. sie
können mit den Betroffenen nachbesprochen werden
▪ Aufsatz:
Nachteile: mangelnde Auswertungs- und Interpretationsobjektivität,
Reliabilitätskoeffizienten um .5, Vielfalt der Bewertungsmaßstäbe beeinträchtigt
Validität
▪ freie Hausarbeit:
Vorteile: differenzierte Erfassung produktiver Denkleistungen, umfassendere
Rückmeldung der Prüfer und Prüflinge, intrinsische Motivation
Nachteile: größerer Zeitaufwand bei Korrektur, geringere Objektivität (
Beeinträchtigung der Reliabilität und Validität)
90
8.2 Schriftliche Prüfungen
▪ Klassenarbeiten:
Nachteile: meist klasseninternes Bezugssystem zur Beurteilung, mangelnde
Objektivität und Validität, Kriterien oft nicht im Voraus festgelegt
Satzergänzungen: Lückentexte
Ja-Nein-Antworten
multiple-choice-Aufgaben
8.2.3.1. Objektivität
1. Durchführungsobjektivität:
2. Auswertungsobjektivität:
z.T. mangelhaft:
Williams (1933): Mathematikaufgabe sollten von Lehrkräften mit 0 bis 100
Punkten beurteilt werden Beurteilung schwankt zwischen 16 und 96 Punkten
Starch & Elliot (1913): Abschlussarbeit in Mathematik sollte von ca. 130 Schulen
mit 0 bis 100 Punkten bewertet werden Streuung von 25 bis 89 Punkten bei
Gesamtbewertung, ähnlich starke Schwankungen bei einzelnen Aufgaben
3. Interpretationsobjektivität:
beeinträchtigt:
Starch & Elliot (1913): Bestehensgrenze variiert von Schule zu Schule zwischen 70
bis 80 Punkten, Objektivitätskoeffizient zwischen .5 und .7 (Ingenkamp)
91
8.2 Schriftliche Prüfungen
8.2.3.2. Reliabilität
1. Wiederholungsreliabilität:
2. Paralleltest-Reliabilität:
8.2.3.3. Validität
1. Inhaltsvalidität:
2. Konstruktvalidität:
92
8.2 Schriftliche Prüfungen
3. Empirische Validität:
8.2.4. Verbesserungsmöglichkeiten:
8.2.4.1. Objektivität
1. Durchführungsobjektivität:
2. Auswertung- &Interpretationsobjektivität:
Kriterienkatalog einsetzen
bei freien Arbeiten: Teamauswertung nach Globaleindruck & Kriterienkatalog
getrennte Beurteilung durch Zweitprüfer
Entwicklung eines schulinternen Bezugssystems
8.2.4.2. Reliabilität
1. Wiederholungsreliabilität:
2. Paralleltestreliabilität:
93
8.3 Vor- und Nachteile schriftlicher Prüfungen in Abgrenzung von Schulleistungstests
8.2.4.3. Validität
1. Inhaltsvalidität:
2. empirische Validität:
3. Konstruktvalidität:
94
8.4 Mündliche vs. schriftliche Prüfungen
95
9.1 Funktionen
9.1. Funktionen
Der Zweck von Leistungsbeurteilung in der Schule ist generell in den Aspekten Vergleich,
Analyse und Prognose zu sehen, und zwar für mehrere am Bewertungsprozess interessierte
Beteiligte:
9.1.1. Kontrolle
Eine wesentliche Funktion von Noten ist die Kontrolle des erreichten Kenntnisstandes
(Anforderung des Lehrplans). Um eine weitgehende Homogenität des Leistungsstandes in
einer Klasse zu gewährleisten, ist es nötig, den Kenntnisstand in bestimmten Abständen zu
kontrollieren.
Kritik: Die Kontrollfunktion ist nur bei objektiver Erstellung der Zensuren möglich!
Kritik: In vielen Fällen nehmen Eltern leider erst Zeugnisnoten bewusst zur Kenntnis.
Kurzfristige Störungen oder auch langanhaltende Spannungen zwischen Schüler und Eltern
oder Schüler und Lehrer; Gefahr falscher Noteninterpretation der Eltern.
96
9.1 Funktionen
9.1.3. Berechtigung
Nur durch den formalen Nachweis eines bestimmten Kenntnisstandes sind für den Schüler
bestimmte Berechtigungen formaler Art gegeben. ( Hochschulberechtigung: NC, Latinum,
…)
9.1.4. Auslese
Das Leistungsprinzip ist in unserer Gesellschaft der wichtigste Verteilungsmechanismus
Schule = Qualifikations- und Sozialisationsinstanz
Auslese geschieht grundsätzlich durch Noten und Zeugnisse (Annahme: Zeugnisse sagen
weitere Leistungsfähigkeit voraus).
Kritik: Die Auslese ist eine der wichtigste, aber auch eine der pädagogisch fragwürdigsten
Funktionen der Schule bzw. der Noten. Die Zensuren bestimmen das Vorrücken in die
nächste Jahrgangsstufe.
„Existenzkampf“, Konkurrenz der Schüler, Lehrer = Verwalter von
„Lebensschicksalen“
Werden
zu zueinander in
vorhandener
erreichender Bezug gesetzt Ist-Wert
Sollwert
97
9.2 Ermittlung
9.1.6. Motivation
Noten = Anreiz zu positivem Leistungsverhalten (Operantes Konditionieren: Positive
Verstärkung Lob kriegen; negative Verstärkung schlechte Noten meiden)
Kritik: Die Motivation durch Noten ist eher extrinsisch und damit qualitativ weniger
hochwertig als die intrinsische Motivation.
Bei leistungsschwachen Schülern ist durch Leistungsdruck sogar gegenteilige Wirkung zu
erwarten. Notendruck stellt generell eine Gefahr dar („Notenpeitsche“, Prüfungsangst)
9.1.7. Disziplinierung
Nicht ordnungsgemäßes Verhalten wird durch schlechte Noten bestraft.
9.2. Ermittlung
Schulnoten werden i.d.R. durch schriftliche Arbeiten, mündliche Prüfungen und
Mitarbeitsnoten („Eindrucksnoten“) ermittelt. Anzahl, Zeitpunkte, Inhalte und Gewichtung
solcher Prüfungen sind im Einzelnen durch Erlasse (Lehrplan …) geregelt.
Im Folgenden wird deshalb die Erfüllung der Hauptgütekriterien bei der Notengebung
genauer betrachtet.
98
9.3 Gütekriterien und Kritik
9.3.1. Objektivität
Objektivität wäre nur bei standardisierten Formen der Aufgabenstellung/Beantwortung und
technischer Auswertung vollständig gegeben.
In der Schule allenfalls geminderte Objektivität: Note wäre nur dann objektiv, wenn
gleiche Leistung von verschiedenen Lehrern gleich beurteilt wird.
Verbesserungsmöglichkeiten:
9.3.2. Reliabilität
Hohe Reliabilität (Grad der Messgenauigkeit) liegt vor, wenn man einen Test häufig
durchführt und mehrmals das gleiche Ergebnis erzielt (z.B. Schulaufgabe zweimal
hintereinander, gleiches Ergebnis).
99
9.3 Gütekriterien und Kritik
Schulnoten geben selten genauen Aufschluss über tatsächliches Wissen des Schülers,
sondern eher über in einmaliger Situation reproduziertes Wissen.
9.3.3. Validität
Die Validität von Schulnoten macht eine Aussage darüber, inwieweit diejenigen Leistungen
notengemäß bewertet werden, die vom Test bewertet werden sollen.
Mitbewertung von
Schriftbild
äußerer Form
Rechtschreibung bei Aufsatzbeurteilung,
die eigentlich nicht Kriterien eines guten Aufsatzes sind, oder Fragen in Klassenarbeiten, die
im Unterricht nicht behandelt wurden.
Bei der Notengebung muss man zwischen den verschiedenen Arten der Validität
unterscheiden.
9.3.3.1. Inhaltsvalidität
Die Aufgabenstellung in einer Klassenarbeit ist in dem Maß inhaltlich valide, in dem sie dem
zu überprüfenden Stoffgebiet entspricht.
9.3.3.2. Vorhersagevalidität
Schulnoten sollten – um empirisch valide zu sein – Prognosen über den weiteren schulischen
Lebensweg, Bildungsweg oder berufliche Ausbildung geben können.
100
9.3 Gütekriterien und Kritik
Nach Ingenkamp (1976) ergaben Untersuchungen, dass 33% der Schüler mit „geeignetem“
bzw. „sehr geeignetem“ Übertritts Zeugnis aus der Grundschule die Vorhersage in keine
tatsächlich erfolgreiche Schullaufbahn im Gymnasium umsetzen konnten.
Notengebung erfüllt Vorhersagevalidität nicht
Es gibt viele andere Faktoren (außer Schulnoten), die über einen erfolgreichen Übertritt von
Grundschule auf Gymnasium bzw. Studienerfolg entscheiden: Entwicklung der Persönlichkeit
(Pubertät), Qualität der Vermittlung, neue Umgebung …
Die kriterienbezogene Validität sagt etwas darüber aus, inwieweit die Schulnote Aufschluss
darüber gibt, ob das Unterrichtsziel erreicht wurde.
Sie ist höher, wenn das Lernziel operationalisierbar ist (In Mathetests ist sie mit Kriterien wie
Rechenweg, -fehler, -ergebnis leichter zu gewährleisten als in der Aufsatzbeurteilung).
Wenn also bestimmte, vorab definierte bzw. stillschweigend anerkannte Kriterien Maßstab
für die Beurteilung sind.
9.3.3.4. Insgesamt
Noten sind ein fester Bestandteil der Schule, die einige wichtige Funktionen haben
101
10.1 Allgemeines
10. Intelligenztests
10.1. Allgemeines
2) Genetik:
Francis Galton (1870), engl. Biologe, hat mithilfe von Tests/Fragebögen versucht
Daten zu ermitteln, die das Individuum bestimmen. Er beschäftigte sich mit
individuellen Verschiedenheiten der Intelligenz und fand Methoden, um solche
Fähigkeiten quantitativ zu erfassen. Überlegung, dass diese Unterschiede genetisch
bedingt sind.
3) Experimentelle Psychologie:
James McKeen Catell (1890) Begründer der Testpsychologie er konzipierte eine
Reihe von Einzeltests, die erstmals unter präzisen Bedingungen durchgeführt und
objektiv ausgewertet wurden.
4) Schulische Anwendungsaspekte:
a. Ebbinghaus (1895) verwendete Prüfungen der Rechenfähigkeit, des
Gedächtnisses und der Kombinationsfähigkeit (Lückentests). Er stellte fest,
102
10.3 Definition Intelligenz
5) Differentielle Psychologie:
a. William Stern definierte Intelligenz (1912): Intelligenz ist die allgemeine
Fähigkeit eines Individuums, sein Denken bewusst auf neue Forderungen
einzustellen; sie ist die allgemeine geistige Anpassungsfähigkeit an neue
Aufgaben und Bedingungen des Lebens. Intelligenzquotient =
(Intelligenzalter / Lebensalter) x 100
b. 1939 definierte David Wechsler den IQ als Abweichungsquotienten von der
durchschnittlichen Leistung Personen gleichen Alters; Mittelwert 100, Streuung
15: IQ = 100 + [(X – aM) / s] x 15
X = individuelle Rohwert
aM = Mittelwert der jeweiligen Altersgruppe
s = Streuung der Rohwerte
15 = Standardabweichung des IQ-Maßes
Intelligenz ist die personale Fähigkeit, sich unter zweckmäßiger Verfügung der Denkmittel
auf neue Forderungen einzustellen (Stern, 1912).
Intelligenz ist die zusammengesetzte oder globale Fähigkeit des Individuums, zweckvoll zu
handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll
auseinanderzusetzen (Wechsler, 1944).
Intelligenz wird als Fähigkeit verstanden, sich neuen Gegebenheiten anzupassen, zugleich
aber auch als Fähigkeit, die Umwelt zu verändern (Sternberg, 1997).
103
10.4 Intelligenzmodelle Übersicht
Zwei-Faktoren-Theorie
Spearman, 1904
Zweifaktorenmodell
Wechsler, 1958
Zwei-Faktoren-Modell
Cattell & Horn, 1963
Intelligenzmodelle Berliner
Intelligenzstruckturmodell
Jäger, 1984
10.5.1. Zwei-Faktoren-Theorie
(nach Spearman 1904,1927)
•variiert bei verschiedenen Individuen, aber er ist für jedes Individuum in allen
korrelierten Leistungen als gemeinsamer Faktor nachgewiesen
•d.h. die Guten sind mehr oder minder überall gut und die Schlechten eher überall
schlecht
•allgemeine Intelligenz: von Mensch zu Mensch unterschiedlich
Mit dieser Theorie lässt sich erklären, wieso machen Menschen eine besondere Begabung in
einem bestimmten Bereich besitzen, ihre allgemeine Intelligenz jedoch relativ gering ist,
oder umgekehrt.
Testbeispiel:
104
10.5 Psychometrische Intelligenzmodelle
BT 1-2: Bildertest für die 1. und 2. Klasse (Horn & Schwarz, 1994)
BT 2-3: Bildertest für die 2. und 3. Klasse (Ingenkamp, 1976)
10.5.2. Zweifaktorenmodell
(nach Wechsler, 1958)
Seiner Meinung nach können die Vielzahl der beobachteten Einzeltestleistungen durch
Rückführung auf sieben grundlegende Primärfaktoren beschrieben werden
Intelligenz keine globale Fähigkeit
Dürfte nicht mittels einer Zahl dargestellt werden
Intelligenz = ein Intelligenzprofil, das die Ausprägungen der Einzelfähigkeiten
darstellt
105
10.5 Psychometrische Intelligenzmodelle
V: sprachliches Verständnis
P: Wahrnehmungsschnelligkeit
I: Induktives Denken
Intelligenz
N: Rechengewandtheit
D: Deduktives Denken
M: Gedächtnis
S: Raumvorstellung
Beispiel:
LPS: Leistungsprüfungssystem (Horn, 1983)
PSB-R 4-6: Prüfsystem für Schul- und Bildungsberatung (Horn, 2002)
10.5.4. Zwei-Faktoren-Modell
(nach Cattell & Horn, 1963)
Fluide Intelligenz
• der g-Faktor
• Abhängig von der Funktionstüchtigkeit hirnphysiologischer Prozesse
• vorwiegend erbbedingt
• weniger durch Lernen beeinflussbar
Kristalline Intelligenz
Beispiele:
CFT 1: Grundintelligenztests Skala 1 (Cattell et al. 1997)
CFT 20: Grundintelligenztests Skala 20 mit Wortschatz- und Zahlenfolgentests
(Weiß, 1998)
CFT 1-R: Grundintelligenztest Skala 1 (Weiß & Osterland, 2013)
106
10.6 Kognitive Intelligenztheorien
Allgemeine Intelligenz
Operationsfaktoren Inhaltsfaktoren
E: Einfallsreichtum F: figural-bildhaft
M: Merkfähigkeit V: verbal
B: Verarbeitungsgeschwindigkeit N: numerisch
K: Verarbeitungskapazität
Intelligenz ist die Fähigkeit, im Leben erfolgreich zu sein, unter der Voraussetzung seiner
persönlichen Standards und innerhalb seines soziokulturellen Kontexts (Sternberg, 2000).
107
10.6 Kognitive Intelligenztheorien
Leistungs-
komponent
en
Wissens-
erwerbs-
Kognitive
komponent Intelligenz- Erfahrung
en komponenten
Metakomp
onenten
Umwelt
Für Howard Gardner besteht Intelligenz in der Fähigkeit, Probleme zu lösen oder Produkte
zu schaffen, die im Rahmen einer oder mehrerer Kulturen gefragt sind.
Später wurde das Modell auf achteinhalb Intelligenzen ausgeweitet (Gardner, 2000)
108
10.7 Aufbau Intelligenztests
Die Fragen in diesen Tests sind nach Gruppen geordnet, die im Schwierigkeitsgrad
ansteigen. Die Summe der Punkte, die in einem IQ-Test erreicht wurde, bildet dann den
Rohwert, der dann in einem aussagekräftigen Standardwert umgewandelt wird. IQ-Tests
tendieren in der Regel zu einer Normalverteilung.
Differenzberechnung:
Intelligenztests liefern ein Maß für die Gesamtintelligenz einer Person – den so genannten
Intelligenzquotienten (IQ). Der Begriff wurde von William Stern (1912) eingeführt und ist
das Maß für die intellektuelle Leistungsfähigkeit einer Person im Vergleich zu Gleichaltrigen.
𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑧𝑎𝑙𝑡𝑒𝑟
Er wurde ursprünglich definiert als 𝑥 100.
𝐿𝑒𝑏𝑒𝑛𝑠𝑎𝑙𝑡𝑒𝑟
Vorteil dieser Definition: IQ-Werte können auch über Altersstufen hinweg leicht verglichen
werden.
Berechnung:
(𝑋𝑖 − 𝑎𝑀)
𝐼𝑄 = 100 + × 15
𝑠
Xi = individueller Rohwert
109
10.9 Relevanz von Intelligenz für schulisches Lernen
Verteilung IQ:
Weitere Zusammenhänge:
Zusammenhang mit Problemlösendem Denken
Intelligenz erklärt zwischen 25% und 45% der Unterschiede in Schulleistungen (nach
Hasse & Latzko, 2011)
mit zunehmender Klassenstufe abnehmende Bedeutung (Schneider et al., 1989)
Ergebnisse aus der Experten-Novizen-Forschung: Experten weisen leicht höhere
Intelligenzwerte auf (Sternberg & Wagner, 1985)
Gute prognostische Validität für Schulerfolg: in Metaanalysen bis zu r = .50
o z.B. Amelang&Bartussek, 1997; Fraser, Walberg, Welch & Hattie, 1987
110
10.10 Sprachgebundene Intelligenztests
111
10.11 Sprachfreier Intelligenztest
Selektionsentscheidungen Geeignet
Gütekriterien
Durchführungsobjektivität: gegeben (Instruktionen mit
Wortlaut gegeben und Durchführungsregeln)
Auswertung:
Gütekriterien:
Objektivität und Reliabilität: sehr gut (Re-Test-Reliabilität: ca. r = .90)
Validität: Vergleiche mit anderen Tests problematisch (andere Modelle!) – bei
Hochbegabten sehr gut
112
10.11 Sprachfreier Intelligenztest
Aufbau Testzeit kann variiert werden („Kurzform“ mit ca. 4 Min. weniger Zeit
für Aufgabenbearbeitung als bei regulärer „Langform“).
Maximalgrößen für Gruppentestungen: Kindergarten 6 Kinder,
Förder- und Sonderschule 4 Kinder (1. Klasse) bis 12 Kinder (3./4.
Klasse), Grundschule 10 Kinder (1. Klasse) bis 15 Kinder (2./3.
Klasse).
Es existiert kein Paralleltest.
113
10.12 Anwendungsbereiche
10.12. Anwendungsbereiche
Heute spricht man aber nicht mehr von Lernbehinderten Schülern, sondern von Schülern mit
sonderpädagogischem Förderbedarf.
114
10.13 Förderung der Intelligenz
KFT 4-12+R: Kognitiver Fähigkeitstest für 4.-12. Klassen, Revision (Heller & Perleth,
2000)
KLI 4-5: Kombinierter Lern- und Intelligenztest (Schröder, 1995)
PSB-R 4-6: Prüfsystem für Schul- und Bildungsberatung für 4.-6. Klassen – revidierte
Fassung (Horn, 2002)
10.12.3. Teilleistungsstörungen
Diagnose:
Spezifischer Teilleistungsstörungstest (z.B. für Legasthenie)
Intelligenztest
„Intelligenz lässt sich durch formal angelegte, zeitlich begrenzte Trainingsprogramme weder
erlernen noch nachhaltig verbessern“ (Weinert, 1994)
Bislang liegen lediglich für die Denktrainings von Klauer (z.B. 1993) Evaluationen
verschiedener Autoren vor, die einen nicht-trivialen Trainingseffekt von mittlerer
Größenordnung – direkt im Anschluss an das Training und über einige Monate hinweg –
belegen (Klauer & Phye, 2008)
Mit den Denktrainingsprogrammen von Klauer (1989, 1991, 1993, 2008) können
Kinder und Jugendliche
unter gezielter Anleitung (z.B. durch einen Lehrer)
115
10.14 Hochbegabte
Empirische Ergebnisse:
Meta-Analyse über 74 – zumeist quasi-experimentelle – Trainingsstudien (Klauer &
Phye, 2008)
Trainingsprogramme zur Förderung des induktiven Denkens führen zumindest zu
kurzfristigen Erfolgen mit bis zu mittleren Effektstärken
vor allem bei jüngeren Kindern und bei Kindern mit unterdurchschnittlicher Intelligenz.
Aber: Untersuchungen, die eine Wirksamkeit des Denktrainings über mehrere
Schuljahre hinweg (vor allem auf ökologisch relevante Kriterien wie beispielsweise
Schulleistungen in zentralen Fächern) belegen, stehen leider noch aus; nur bei einem
Experiment wurde nach 15 Monaten der Trainingserfolg evaluiert
10.14. Hochbegabte
Diesen Wert erreichen etwa nur 2% der Bevölkerung. In der gebräuchlichen Metrik des
Intelligenzquotienten ist als ein IQ-Wert von mindestens 130 erforderlich
10.14.1. Underachiever
„Hochbegabte Underachiever“
Lernende, die trotz sehr hoher Intelligenz nur bestenfalls durchschnittliche Schulleistungen
erbringen, werden als „Underachiever“ bezeichnet (Hasselhorn & Gold, 2013).
Mögliche Ursachen:
Bezeichnen sich selbst als unglücklich, unzufrieden, unbeliebt, psychisch instabil und
wenig attraktiv
116
11.1 Funktionen
10.14.2. Overachiever
Bezeichnet eine Person, die Leistungen oberhalb ihres Potentials erreicht. Haben mehr
Erfolg, als man aufgrund von Leistungs- und Intelligenztests erwarten würde.
11. Evaluation
11.1. Funktionen
zur eigenen Erkenntnisgewinnung und Selbstvergewisserung beitragen
die Steuerung bei Unterrichts-/ Schulentwicklungsprozessen unterstützten
der Rechenschaftslegung dienen
117
11.2 Standards und Grundprinzipien einer Evaluation:
Meist mehrere Funktionen gleichzeitig, aber auch einzelne Nutzung möglich oder in
beliebiger Kombination
Jeder dieser Abschnitte beinhaltet mehrere Standards, die teilweise auch in Konkurrenz
zueinander zu betrachten sind.
Diese Standards sind als eine freiwillige Selbstverpflichtung zu verstehen. Sie spiegeln den
aktuellen Stand der Diskussion über gute Evaluation in der Fachöffentlichkeit wieder.
Allerdings sind sie nicht als starre Regeln zu verstehen Variation ist möglich.
11.2.1. Nützlichkeit
Information die Evaluiert wird soll nützlich sein für die Personengruppe
118
11.2 Standards und Grundprinzipien einer Evaluation:
N8 Nutzung und Nutzen der Evaluation: fasst die Anforderungen des ganzen
Bereichs nochmal zusammen
11.2.2. Durchführbarkeit
D1 Angemessenes Verfahren
D2 Diplomatisches Vorgehen: Rücksicht auf die Belange der Beteiligten nehmen
Effizienz der Evaluation
11.2.3. Fairness
11.2.4. Genauigkeit
♦ G6 Systematische Fehlerprüfung
♦ G7 Analyse qualitativer und quantitativer Informationen
♦ G8 Begründete Schlussfolgerungen
♦ G9 Meta-Evaluation
11.3. Evaluationsformen
Die sechs Z der Evaluation
„Formativ ist, wenn der Koch die Suppe probiert, summativ ist, wenn der Gast das tut“.
Formativ
Summativ
Diese Unterscheidung kann auf Zeitpunkt, Zielgruppe und Zweck der Informationen aus der
Evaluation bezogen werden:
formativ summativ
(prozessorientiert) (output-orientiert)
Zeitpunkt vor oder während der Nach der Maßnahme
Maßnahme
Zielgruppe Ausführende/direkt Entscheidungsträger
Betroffene
Zweck Steuerung während der Beurteilung der Ergebnisse
Laufzeit
120
11.3 Evaluationsformen
Zuständigkeit
Diese Aufteilung in sechs Facetten ermöglicht bei der Konzentration und Durchführung einer
Evaluation Lücken zu entdecken und zu vermeiden. Die Dimensionen sind dabei prinzipiell
unabhängig, d.h. es lässt sich durch beinahe jede beliebige Kombination eine nützliche
Evaluationsmaßnahm konstruieren und differenziert darstellen.
Studien zur Evaluation des Bildungswesens treten in den letzten Jahren zunehmend in die
öffentliche Wahrnehmung. Das letzte und bekannteste Beispiel ist die PISA-Studie.
1. Es gibt keine konkrete Maßnahme, die mittels dieser Studie überprüft werden soll
2. Die einzelne Testaufgabe ist nicht aussagekräftig. Erst durch die Verteilung
unterschiedlicher Aufgaben sowie die große Anzahl der teilnehmenden Schüler
können die Ergebnisse interpretiert werden
3. Die Ergebnisse sind somit nur als Zustandsbeschreibung des Bildungssystems gültig.
Die einzelne Schule oder gar individuelle Schüler sind nicht die Adressaten der
Ergebnisse
4. Konkrete Maßnahmen für einzelne teilnehmende Schulen können daher als Folge
der Studie auch nicht abgeleitet werden.
121
11.4 Möglichkeiten der Erfassung von Unterrichtsqualität
Beispiele:
Videoanalyse
Hospitationen
Fragebögen
Spezielle Methoden: z.B. Zielscheibe
Evaluation ist nur dann sinnvoll, wenn die Zielperson aus den Erkenntnissen der Evaluation
einen Nutzen ziehen kann und wenn aus ihr Konsequenzen abgeleitet werden!
122
11.5 Ablauf einer Evaluation
4. Untersuchungsplanung
6. Datensammlung
7. Datenauswertung
9. Umsetzung
• Instrumententwicklung
Durchführung • Datenerhebung, Strukturierung, Auswertung
A. Planungsphase
a) Definition des Inhalts und des Zwecks der Evaluation
b) Zunächst: Festlegung auf interne oder externe Evaluation
c) Grundlegende Arten der Planung
1. In formalisierten Verfahren: Auftraggeber setzt Maßstäbe etc. fest
123
11.6 Methoden schulbezogener Evaluation
B. Durchführung
a) Festlegung, wie und von wem Daten erhoben werden sollen
b) Definition von Indikatoren, falls bestimmte Dinge nicht direkt erfasst werden
können
c) Auswahl einer Stichprobe (z.B. Auswahl durch Zufall vs. nach Kriterien)
d) Datensammlung!
e) Auswertung, Interpretation und Bewertung nach vorher festgelegten Kriterien
Beispiele:
124
11.6 Methoden schulbezogener Evaluation
Standardisierte Fragebögen:
Fragebogen zum Lernverhalten vor einem Leistungstest
Fragebogen zum Verhalten in der Gruppe nach einer Projektarbeit
Schüler-Fragebogen zur Selbstbewertung der Methodenkompetenz/der
Sozialkompetenz/der Sachkompetenz/der Arbeitsorganisation/des Umgangs mit
Konflikten/sprachliche Fertigkeiten
Schüler-Fragebogen zur Analyse von Lernproblemen/zur Beurteilung des
Lehrers/zur Beurteilung des Klassenklimas
Fragebogen für Eltern
Lehrer-Fragebogen zu den Arbeitsbedingungen/zum Unterrichtsverhalten
Offene Befragungen:
Kurzbefragung zur Einschätzung des Unterrichts durch die Schüler
Befragung zur Selbstbewertung des eigenen Arbeitsprozesses in der Freiarbeit
Befragung zur Projektevaluation
Klassen-Soziogramm
Fachlehrer-Befragung zu Klassenauffälligkeit
Sonstige Methoden
Beobachtungsbogen zur Methodenkompetenz/Sozialkompetenz/Sachkompetenz
Tagebuch für Grundschüler
Pro Contra
Perspektive der Betroffenen (Zielgruppe) Mögliche Überforderung der Schüler
Bildung eines Klassenmittelwerts möglich können didaktische Kompetenz und
fachliche Expertise schwer
beurteilen
Langzeitperspektive (Schuljahr)
Lernklima Differentielle Angaben zu einzelnen
Facetten der Unterrichtsqualität werden
überlagert. (z.B. durch die allgemeine
Beliebtheit einer Lehrkraft)
125
11.7 Probleme bei der Evaluation
a) Methodische Probleme
1. Ausschalten von „Störfaktoren“
2. Prinzipien der wissenschaftlichen Versuchsdurchführung (z.B. ist das übliche
Festhalten an erstellten Untersuchungsplänen bei der Evaluation oft nicht
möglich)
3. Auswahl geeigneter Indikatoren für Evaluationsfragen oftmals schwierig
b) Interpretationsprobleme
1. Bewertung der Indikatoren (z.B. „Ist es gut oder schlecht, dass ein Kind täglich
zwei Stunden Hausaufgaben macht?“)
2. Wahrheit über die Studie kann abschrecken → Dissonanz-toleranz
c) Stichprobenprobleme
1. Klumpen-Stichproben (nicht Einzelpersonen, sondern ganze Klasse): kein
repräsentativer Durchschnitt
2. Finden einer repräsentativen Stichprobe
3. Freiwillige Teilnehmende sind motivierter
4. Übliche statistische Auswertung nicht geeignet, da Ergebnisse nicht auf eine
gesamte Population ausgeweitet werden können
5. Stichprobenmortalität: Teilnehmer der Programme sind nicht mehr in der
Stichprobe enthalten (etwa, weil sie durchgefallen sind)
f) Nicht-finanzielle Kosten
1. Zweifel an der Richtigkeit des bisherigen Handelns
2. Unruhe bei allen Beteiligten (z.B. bei Einführung neuer Maßnahmen)
3. Beeinträchtigung der Lebenssituation der Beteiligten (Selbstwertgefühl)
4. Zeitverzögerung
5. Schädigung der Betroffenen durch probeweise durchgesetzte Maßnahmen
11.8.1. PISA
126
11.8 Evaluation des Bildungssystems
11.8.1.1. Allgemeines
(Program for International Student Assessment; initiiert von der OECD)
11.8.1.2. Ablauf
Multiple-choice-Fragen
Freie Antwortformate
Fragen sind realen Lebenssituationen entnommen
Bisher Stift- und Papierfragebögen, demnächst aber auch computerbasierte Tests
127
11.8 Evaluation des Bildungssystems
Konzeptwissen Prozesswissen
Für die Vorbereitung der Testdurchführung bestimmt jede Schule einen sogenannten
Schulkoordinator Ansprechperson für Schüler und Eltern
Die Tests werden von geschulten Testleitern durchgeführt:
o 1. Tag: Bearbeitung der internationalen Aufgaben
o 2. Tag: Bearbeitung der nationalen Ergänzung (PISA-E)
o Bearbeitungszeit der Tests: je 120 Minuten
128
11.8 Evaluation des Bildungssystems
11.8.1.6. Auswertung
Nach Kompetenzstufen
Schwerpunkt: Mathematik
Beteiligung: 65 Länder; 500.000 Schüler weltweit
Stichproben: Deutschland 230 SuS (insgesamt getestet in DE: 5.001 SuS)
Erstmalige Ergänzung durch computerbasierte Tests, die das Problemlösen
erfassen
129
11.8 Evaluation des Bildungssystems
Kompetenzstufen:
Kompetenzstufen V-VI:
o Deutschland: 17,5%
o OECD-Durchschnitt: 12,6%
130
11.8 Evaluation des Bildungssystems
Kompetenzstufen:
Kompetenzstufe unter I – I:
o Deutschland: 14,5%
o OECD-Durchschnitt: 18%
Kompetenzstufen V-VI:
o Deutschland: 8,9%
o OECD-Durchschnitt: 8,4%
131
11.8 Evaluation des Bildungssystems
132
11.8 Evaluation des Bildungssystems
Kompetenzstufen:
133
11.8 Evaluation des Bildungssystems
134
11.8 Evaluation des Bildungssystems
503 504
490 487 497
495
490 491
480 484
470
460
2000 2003 2006 2009 2012
Jahre
135
11.8 Evaluation des Bildungssystems
Literatur
136