Sie sind auf Seite 1von 143

PÄDAGOGISCH PSYCHOLOGISCHE DIAGNOSTIK

Münchner Skript 2.0

PÄDAGOGISCH PSYCHOLOGISCHE DIAGNOSTIK Münchner Skript 2.0 Gaby Loicht 2016 0

Gaby Loicht

2016

1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

Inhaltsverzeichnis

Inhaltsverzeichnis

1

0. Überblick

0

1. Einleitung

1

1.1. Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

1

1.2. Bedeutung der Leistungsbeurteilung

1

1.3. Zielorientierung des Unterrichts

1

1.4. Leistungs- und Persönlichkeitsbeurteilungen in der Schule

2

2. Grundbegriffe

2

2.1. Diagnostik

2

2.2. Arten von Diagnostik

6

2.2.1. Standardisierte und nicht-standardisierte Diagnostik

6

2.2.2. Norm- und

kriteriumsorientierte Diagnostik

7

2.2.3. Individual- und Umweltdiagnostik

7

2.2.4. Schulleistungsdiagnostik

8

3. Gütekriterien

8

3.1. Überblick

8

3.2. Objektivität

9

3.2.1. Durchführungsobjektivität

10

3.2.2. Auswertungsobjektivität

11

3.2.3. Interpretationsobjektivität

11

3.3. Reliabilität

13

3.3.1. Wiederholungsreliabilität (Test-Retest-Methode)

15

3.3.2. Split-Half-Reliabilität (Testhalbierungsmethode)

16

3.3.3. Paralleltestreliabilität

17

3.3.4. Konsistenzanalyse

17

3.3.5. Zusammenfassung

18

3.3.6. Herstellung von Reliabilität

18

3.4. Validität

19

3.4.1. Inhaltsvalidität

20

3.4.2. Empirische Validität

21

3.4.3. Konstruktvalidität

22

3.4.4. Testfairness

24

3.4.5. Herstellung von Validität

24

3.5. Nebengütekriterien

25

3.5.1. Normierung

25

3.5.2. Nützlichkeit und Zumutbarkeit

25

3.5.3. Ökonomie

26

1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

3.5.4. Vergleichbarkeit

26

3.5.5. Akzeptanz

26

4. Methoden der Pädagogischen Diagnostik

4.1. Testmethoden

27

27

4.1.1. Klassifikation

von Tests:

28

4.1.2. Klassische Testtheorie

28

4.1.3. Item-Response-Theorie

29

4.2. Beobachtungsverfahren

30

4.2.1. Abgrenzung Beobachtung

31

4.2.2. Arten der Beobachtung

31

4.2.3. Unterrichtsbeobachtung und Interaktionsdiagnostik

34

4.2.4. Beobachtungssysteme/Interaktions-Analyse-Systeme

35

4.2.5. Probleme bei der Beobachtung

40

4.2.6. Gütekriterien bei Beobachtungsverfahren

41

4.2.7. Beobachtungsfehler

41

4.3. Beurteilung

41

4.3.1. Abgrenzung von Beobachtung & Beurteilung

41

4.3.2. Beurteilungsverfahren

42

4.3.3. Beurteilung im Unterricht/Urteilsfehler

42

4.3.4. Beurteilungsfehler

43

4.4. Einsatzmöglichkeiten der Beobachtung/Beurteilung

44

4.5. Gesprächsmethoden

45

4.5.1. Arten im Überblick

46

4.5.2. Anamnese

46

4.5.3. Exploration

47

4.5.4. Interview

48

4.6. Dokument- und Werkanalyse

4.6.1. Arten von Dokumenten (Werken)

4.7. Fragebogen

52

52

53

4.7.1. Merkmale

53

4.7.2. Konstruktion eines Fragebogens

54

4.7.3. Vorteile von Fragebögen

54

4.8. Soziometrie

54

4.8.1. Dimensionen der klassischen Methode nach Friedrich (1973)

55

4.8.2. Soziographischer Test von Bullis – Seelmann: „Der soziometrische Test“

56

4.8.3. Verschiedene Darstellungsverfahren

56

4.8.4. Probleme der soziometrischen Befragung

58

5. Testnormierung bzw. Bezugsnormen

59

5.1. Normierung

59

5.2. Arten von Bezugsnormen

59

5.2.1. Soziale (interindividuelle) Bezugsnorm

60

5.2.2. (Intra-)Individuelle Bezugsnorm

60

5.2.3. Sachliche Bezugsnorm

61

1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

5.3. Interindividuelle Normskalen

61

5.3.1. Prozentrangskala

61

5.3.2. IQ-Skala (Abweichungs-IQ)

62

5.3.3. T-Wert-Skala

62

5.3.4. Fähigkeitsorientierte Norm

62

5.3.5. Allgemeines zur Normierung

63

6. Schulleistungsdiagnostik

6.1. Schulleistungsmodelle

63

64

6.1.1. Schulleistungsmodell von Bloom

 

64

6.1.2. Schulleistungsmodell

von

Helmke

64

6.1.3. Schulleistungsmodell nach Carroll

65

7. Schulleistungstests

65

7.1. Begriffsklärung

65

7.2. Arten von Schulleistungstests

66

7.3. Überblick über die Möglichkeiten der Konstruktion von SLT

67

7.4. Formelle Schulleistungstests

68

7.4.1. Bezugsgruppenorientierte (= sozialnormorientierte) Tests

68

7.4.2. Kriteriumsorientierte (= lehrzielorientierte) Tests

73

7.4.3. Unterschied zwischen bezugsgruppen- und kriteriumsorientierten Tests

75

7.4.4. Gütekriterien formeller Schulleistungstests

75

7.4.5. Beispiele für formelle Schulleistungstests

77

7.5. Informelle Schulleistungstests

79

7.5.1. Konstruktion informeller SLTs

80

7.5.2. Gütekriterien informeller Tests

81

7.5.3. Vor- und Nachteile informeller Schulleistungstests

82

7.5.4. Beispiele

informelle

SLT‘s

82

7.6. Zehn Prüfsteine zur Beurteilung von Schulleistungstests

8. Mündliche und schriftliche Prüfungen

8.1. Mündliche Prüfungen

83

83

83

8.1.1. Arten mündlicher Prüfungen

84

8.1.2. Kritik an der mündlichen Prüfung

85

8.1.3. Gütekriterien Kritik an mündlichen Prüfungen

86

8.1.4. Verbesserungsmöglichkeiten

88

8.2. Schriftliche Prüfungen

90

8.2.1. Vorteile

90

8.2.2. Formen schriftlicher Prüfungen

90

8.2.3. Erfüllung der Gütekriterien bei schriftlichen Prüfungen

91

8.2.4. Verbesserungsmöglichkeiten:

93

8.3. Vor- und Nachteile schriftlicher Prüfungen in Abgrenzung von Schulleistungstests

94

8.4. Mündliche vs. schriftliche Prüfungen

95

9. Zensuren und Zeugnisse

96

1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

9.1. Funktionen

96

9.1.1. Kontrolle

96

9.1.2. Bericht und Information

96

9.1.3. Berechtigung

97

9.1.4. Auslese

97

9.1.5. Rückmeldung und Steuerung im Lernprozess

97

9.1.6. Motivation

98

9.1.7. Disziplinierung

98

9.2. Ermittlung

98

9.3. Gütekriterien und Kritik

98

9.3.1. Objektivität

99

9.3.2. Reliabilität

99

9.3.3. Validität

100

10. Intelligenztests

102

10.1. Allgemeines

102

10.2. Geschichte der Intelligenzmessung

102

10.3. Definition Intelligenz

103

10.4. Intelligenzmodelle Übersicht

104

10.5. Psychometrische Intelligenzmodelle

104

10.5.1. Zwei-Faktoren-Theorie

104

10.5.2. Zweifaktorenmodell

105

10.5.3. Theorie der Primärfaktoren

105

10.5.4. Zwei-Faktoren-Modell

106

10.5.5. Berliner Intelligenzstrukturmodell

106

10.6. Kognitive Intelligenztheorien

107

10.6.1. Triarchische Theorie der Intelligenz

107

10.6.2. Modell der sieben Intelligenzen

108

10.7. Aufbau Intelligenztests

109

10.8. Messung von Intelligenz

109

10.8.1. Frühere Intelligenzmessung

109

10.8.2. Moderne Intelligenzmessung

109

10.9. Relevanz von Intelligenz für schulisches Lernen

110

10.10. Sprachgebundene Intelligenztests

111

10.11. Sprachfreier Intelligenztest

112

10.12. Anwendungsbereiche

114

10.12.1. Feststellung des sonderpädagogischen Förderbedarfs

114

10.12.2. Übergang zur Sekundarstufe I

114

10.12.3. Teilleistungsstörungen

115

10.13. Förderung der Intelligenz

115

10.14. Hochbegabte

116

10.14.1. Underachiever

116

1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

10.14.2. Overachiever

11. Evaluation

117

117

11.1. Funktionen

117

11.2. Standards und Grundprinzipien einer Evaluation:

118

11.2.1. Nützlichkeit

118

11.2.2. Durchführbarkeit

119

11.2.3. Fairness

119

11.2.4. Genauigkeit

119

11.3. Evaluationsformen

120

11.4. Möglichkeiten der Erfassung von Unterrichtsqualität

122

11.5. Ablauf einer Evaluation

122

11.6. Methoden schulbezogener Evaluation

124

11.7. Probleme bei der Evaluation

126

11.8. Evaluation des Bildungssystems

126

11.8.1.

Literatur

PISA

126

136

0.

Überblick

0

Psychologisch e Grundlagen
Psychologisch
e Grundlagen
Gütekriterien Objektivität Reliabilität Validität Nebengüte- kriterien
Gütekriterien
Objektivität
Reliabilität
Validität
Nebengüte-
kriterien
Schulleistungsmess Befragung, und Schulfähigkeits ung, Beurteilung, diagnostik Zensurengebung Beobachtung
Schulleistungsmess
Befragung, und
Schulfähigkeits
ung,
Beurteilung,
diagnostik
Zensurengebung
Beobachtung
verschiedene
und
Tesstverfahren
Lernerfolgskontrolle
Schularten für
Schulleistungs-
Testmethoden
Intelligenztests
tests
Mündliche
Beobachtungs-
Einschulungs-
Prüfungen
verfahren
diagnostik
Schriftliche
Gesprächs-
Lernfähigkeit
Prüfungen
methoden
Konzentration
Zensuren
und
Dokument-
und
Zeugnisse
analyse
Aufmerksamke
it
Beurteilungs-
verfahren
Fragebogen
Soziometrie
Methoden schulbezogenen Evaluation der Evalutation
Methoden
schulbezogenen
Evaluation der
Evalutation

1.1 Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

1.

Einleitung

1.1. Zielsetzung des Schulsystems und Berufsaufgaben von Lehrern

Fend:

Drei Aufgaben des Schulsystems: 3 Reproduktionsfunktionen

Qualifikationsfunktion: Vermittlung von Fertigkeiten und Kenntnissen

Selektionsfunktion: Reproduktion der Sozialstruktur einer Gesellschaft (Schulabschluss gesellschaftliche Position)

Integrationsfunktion: Reproduktion von Normen und Werten etc.

Deutscher Bildungsrat: Aufgaben der Lehrer:

Lehren

Vermittlung von Kenntnissen und Fertigkeiten

Beurteilen

Lernerfolg Lernmisserfolg

Beraten

Laufbahn

Erziehen

Weitergabe von Werten und Normen

Innovieren

Eigenverantwortliches Er- und Verarbeiten von Neuerungen

1.2. Bedeutung der Leistungsbeurteilung

„Mit der sozialen Mobilität, der Möglichkeit des sozialen Aufstiegs, wurde die Beurteilungsfunktion des Lehrers immer bedeutungsvoller.“ (Kleber)

Ausbau des Bildungssystems

Erhöhung der Konkurrenz

In einer demokratischen Gesellschaft muss Chancengleichheit Zielgröße sein!

Gegeben oder nicht?

Dreigliedriges Schulsystem?

Bei Gesamtschulvarianten?

1.3. Zielorientierung des Unterrichts

Schule soll: kognitive, affektive und soziale Lernziele erreichen

1.4 Leistungs- und Persönlichkeitsbeurteilungen in der Schule

kognitive: Wissen und Können

affektive und soziale: Moral: Haltungen und Einstellungen problematisch

1.4. Leistungs- und Persönlichkeitsbeurteilungen in der Schule

Leistungsbeurteilung in Form von Prüfungs- und Zeugnisnoten

Beratungspflicht geht mit Benotungspflicht einher (Lernberatung, Schullaufbahnberatung)

Informationsrecht des Schülers über dessen Leistungsstand

Persönlichkeits- und Verhaltensbeurteilungen von Seiten des Lehrers (z.B. Zeugniskommentare)

2.

Grundbegriffe

2.1. Diagnostik

Diagnostik ist ein Teilbereich der Psychologie, der sich mit der Theorie, der Konstruktion und der Analyse von Diagnoseverfahren befasst. Diagnose ist dabei die Feststellung des Vorhandenseins oder der Ausprägung von psychologischen Merkmalen (Zimbardo, 1988).

Definition Diagnostik: „Diagnostik [ist] die Lehre von der sachgemäßen Durchführung der Diagnose; auch die Ausübung der Diagnose.“

„Psychologische Diagnostik ist die Bezeichnung für alle Methoden und deren Anwendung, welche zur Messung bzw. Beschreibung inter- und intraindividueller Unterschiede verwendet werden.“ (Dorsch, 1982).

Verschiedenste Methoden

Unterschiede innerhalb einer Person

Unterschiede zwischen mehreren Personen

Definition Pädagogische Diagnostik nutzt Konzepte und Methoden der psychologischen Diagnostik, um in systematischer und möglichst akkurater Weise Informationen über Personen zu sammeln, aufzubereiten und zu bewerten. Diese Informationen dienen als Grundlage für Entscheidungen in Bezug auf Einzelpersonen in pädagogischen Handlungsfeldern, in denen es um das Lernen, Lehren und Erziehen geht (Seidl & Krapp, 2014).

2.1 Diagnostik

Bei jeder Diagnostik geht es um Erkenntnis, also um die Feststellung von:

Sachverhalten Tatsachen

Bedingungen etc.

Eigenschaften oder Merkmalen

Im Gegensatz zu wissenschaftlicher Forschung ist die diagnostische Erkenntnisbemühung nicht auf Entdeckung allgemeiner Zusammenhänge gerichtet, sondern auf die nähere Kategorisierung oder Einordnung des Einzelfalls.

Diagnostik Erkenntnis Einzelfall (nicht allgemein!)

Es wird entweder nach dem Eintreffen

des Einzelergebnisses gefragt

entweder nach dem Eintreffen des Einzelergebnisses gefragt "Wie wird sich die Leistung des Schülers x
entweder nach dem Eintreffen des Einzelergebnisses gefragt "Wie wird sich die Leistung des Schülers x
entweder nach dem Eintreffen des Einzelergebnisses gefragt "Wie wird sich die Leistung des Schülers x
entweder nach dem Eintreffen des Einzelergebnisses gefragt "Wie wird sich die Leistung des Schülers x
entweder nach dem Eintreffen des Einzelergebnisses gefragt "Wie wird sich die Leistung des Schülers x

"Wie wird sich die Leistung des Schülers x entwickeln?"

Oder das Einzelergebnis ist gegeben

und soll erklärt werden

Oder das Einzelergebnis ist gegeben und soll erklärt werden "Warum hat ein Schüler x in bestimmten
Oder das Einzelergebnis ist gegeben und soll erklärt werden "Warum hat ein Schüler x in bestimmten
Oder das Einzelergebnis ist gegeben und soll erklärt werden "Warum hat ein Schüler x in bestimmten
Oder das Einzelergebnis ist gegeben und soll erklärt werden "Warum hat ein Schüler x in bestimmten
Oder das Einzelergebnis ist gegeben und soll erklärt werden "Warum hat ein Schüler x in bestimmten

"Warum hat ein Schüler x in bestimmten Leistungsbereichen versagt?"

Unter diagnostischer Tätigkeit wird dabei ein Vorgehen verstanden, in dem unter Beachtung wissenschaftlicher Gütekriterien beobachtet und befragt wird, die Beobachtungs- und Befragungsergebnisse interpretiert und mitgeteilt werden, um ein Verhalten zu beschreiben und/oder die Gründe für dieses Verhalten zu erläutern und/oder künftiges Verhalten vorherzusagen.

Prozessmodell pädagogisch-psychologischen Handelns (Krapp, 1979):

Das Modell beschreibt Komponenten und Ablaufschritte einer rational gesteuerten Handlung und markiert darin jene Stellen, die direkt oder indirekt mit diagnostischen Prozessen verbunden sind.

2.1 Diagnostik

2.1 Diagnostik In diesem Schema wird zunächst zwischen einer Vorbereitungsphase und einer praktischen Phase

In diesem Schema wird zunächst zwischen einer Vorbereitungsphase und einer praktischen Phase (Realisierungsphase) unterschieden.

a) Vorbereitungsphase (Treatment-vorbereitende Diagnostik):

Es ist notwendig jene Informationen zu gewinnen, die auf dem Hintergrund einer allgemeinen Problemstellung zu einer begründeten Entscheidung bezüglich der richtigen pädagogischen Maßnahme (Treatment) beitragen können.

Treatmentvorbereitende Diagnostik:

dient der Ziel- oder Mittel-(Treatment)Entscheidung z.B. Sonderschule? Ja/Nein

b) Realisierungsphase (Treatment-begleitende u. abschließende Diagnostik:

Es müssen Informationen gewonnen werden, die eine Einschätzung des Erfolges einer Maßnahme erlauben.

Treatmentbegleitende Diagnostik:

dient der Steuerung des Handlungsablaufes, ggf. Modifikation, Beobachtung von Nebenwirkungen. z.B. Lehrerin beobachtet Lernfortschritt bei einem bestimmten Förderkind „formative Evaluation“.

Schließlich werden Informationen erforderlich, die eine Bewertung des Handlungserfolges am Ende der Treatmentrealisierung gewährleisten.

2.1 Diagnostik

Treatmentabschließende Diagnostik:

dient der Bestimmung des Erfolgs einer Intervention/eines Treatments. Rückmeldung für Therapeut und Klient, Schülerin und Lehrerin. „summative Evaluation.“

Diagnostisches Handeln kann sich auf folgende Aspekte beziehen:

Aspekte diagnostischen Handelns nach Ingenkamp, 2005

Vergleich

Beschreibung eines Verhaltens

Analyse

Gründe für ein Verhalten finden (Warum tritt ein Verhalten auf?)

Prognose

Vorhersagen eines zukünftigen Verhaltens

Interpretation

Ordnen, Bewerten und Gewichten der diagnostischen Informationen

Mitteilung und Wirkungskontrolle

an die Eltern/Schüler, um durch Rückmeldung zukünftiges Verhalten zu beeinflussen (z.B. Zeugnis)

Psychologische Diagnostik wird oft als die Messung interindividueller Unterschiede bezeichnet, weil die meisten Beurteilungen angeben, inwieweit sich eine Person in Bezug auf bestimmte Dimensionen von anderen Personen unterscheidet oder ihnen gleicht.

Niveauebenen des Messens:

Nominalskala
Nominalskala

Bestimmung von Gleichheit und Verschiedenheit

z.B. Einteilung in Klassenstufen, männlich-weiblich

Ordinal- oder Rangskala
Ordinal- oder Rangskala

Bestimmung der Rangordnung (größer-kleiner) -> Reihenfolge

Zeigt nur Reihenfolge und Richtung des Ausprägungsgrades

z.B. Zensuren, Ranglisten beim Sportwettbewerb

Intervallskala

Gleiche Skalenabstände (Gleichheit von Intervallen), aber keine Aussage über Proportionen zwischen Skalenwerten, da der Nullpunkt willkürlich festgelegt ist

z.B. Temperaturskala

Verhältnis- oder Proportionalskala

Bestimmung der Gleichheit von Brüchen

Aussage über Proportionen möglich, da natürlicher Nullpunkt (=Messwert = 0) -> Aussage über Gleichheit von Verhältnissen

z.B. Längenmaße, Gewichtsmaße

Merke:

2.2 Arten von Diagnostik

Modalwert gibt den häufigsten Wert der Stichprobenergebnisse wieder
Modalwert
gibt den häufigsten
Wert der
Stichprobenergebnisse
wieder
Mittelwert oder das arithmetische Mittel wird berechnet als der Quotient aus der Summe der Ergebnisse
Mittelwert
oder das arithmetische
Mittel wird berechnet als
der Quotient aus der
Summe der Ergebnisse
und Umfang der
Stichprobe

Bsp.: Notenverteilung bei einer Klassenarbeit:

Median ist der in der Mitte liegende Wert der Rangliste
Median
ist der in der Mitte
liegende Wert der
Rangliste

Note

1

2

3

4

5

6

Anzahl

2

5

8

3

2

1

Modalwert: (häufigste Wert): m = 3 Mittelwert (Notendurchschnitt): 3,0 Median (Wert in der Mitte): 3 1, 1, 2, 2, 2, 2, 2, 3, 3, 3,

3
3

, 3, 3, 3, 3, 4, 4, 4, 5, 1

Bei 21 Werten liegt der 11. Wert in der Mitte

2.2. Arten von Diagnostik

Es gibt viele verschiedene Arten von Diagnostik (auch im medizinischen Sinn), hier sind nur einige unterschieden, die für folgende Kapitel bzw. für die Schule relevant sind.

2.2.1. Standardisierte und nicht-standardisierte Diagnostik

2.2.1.1. Standardisierte Diagnostik

Das Diagnoseverfahren wird auf alle Personen einer ausgewählten, genau beschriebenen Stichprobe in der gleichen Weise und unter vergleichbaren Bedingungen angewendet.

Schule: Standardisierte Test werden meist von Testverlagen vertrieben, große Stichproben von Schülern zur Bearbeitung vorgelegt und Gesamtpunktwert mit Normwert einer Eichstichprobe z.B. Gruppe gleichen Alters und Schulstufe (vgl. normorientierte Diagnostik) verglichen. ( Hohe Objektivität)

2.2.1.2. Nicht-standardisierte Diagnostik

2.2 Arten von Diagnostik

Genau das Gegenteil ist der Fall die Personen werden subjektiv bewertet (bspw. in mündlichen Prüfungen) und somit nicht in einer großen Gruppe in gleicher Weise und unter gleichen Bedingungen geprüft bzw. bewertet.

2.2.2. Norm- und kriteriumsorientierte Diagnostik

2.2.2.1. Normorientierte Diagnostik

„Unter normorientierter Diagnostik versteht man einen Untersuchungsansatz mit dem Ziel, das einzelne Untersuchungsergebnis im Hinblick auf statistische Bezugswerte, also relativ zur Verteilung der Testergebnisse in einer Bezugsgruppe (Eichstichprobe), auszudrücken und zu interpretieren.“ (Pawlik, 1982).

Bsp.: Aussage: „Die Fichte ist ziemlich groß.“ Zur Bewertung Vergleichsmaßstab heranziehen (durchschnittliche Höhe von Fichten)

Schule: Schüler hat 60% des Einmaleins richtig Etwas besser als der Klassendurchschnitt

2.2.2.2. Kriteriumsorientierte Diagnostik

Psychologische Diagnostik erfolgt kriteriumsorientiert, „wenn der verwendete Vergleichsmaßstab für das zu bewertende Charakteristikum eines Beurteilungssachverhaltes unabhängig festgelegt wird von Informationen über die Verteilung der Ausprägungsgrade dieses Charakteristikums bei einer Menge dieser Sachverhalte.“ (Petermann, 1995).

Bsp.: „Die Fichte ist ziemlich groß.“ Bewertung unabhängig von Verteilung der Höhe der Fichte, sondern z.B. nach Höhe des Wohnzimmers, in das der Baum passen soll (externer Standard), kein Vergleich mit anderen.

Schule: Schüler hat 60% richtig Das kleine Einmaleins sollte mit mind. 90%-iger Sicherheit beherrscht werden, also schneidet Schüler eher schlechter ab.

2.2.3. Individual- und Umweltdiagnostik

Individualdiagnostik: Einzelne Personen; Selbst- oder Fremddiagnostik

3.1 Überblick

Umweltdiagnostik: Soziales Verhalten; Gruppe. Die Umweltdiagnostik umfasst zudem Eltern- und Lehrerinterviews, Lehrerberichte, Unterrichtsbeobachtungen, Arbeitsplatzanalysen und den Einbezug anderer Bezugspersonen (z.B. Hausarzt, Verwandte oder Geschwister)

2.2.4.

Schulleistungsdiagnostik

Schulleistungsdiagnostik ist „die systematische Beschreibung und anschließende Bewertung eines aktuellen Wissens- oder Fähigkeitsstatus von Lernenden bzgl. eines umschriebenen Inhaltsbereiches“ (Langfeldt & Imhof, 1999).

Funktionen von Schulleistungsdiagnostik nach Heller (1984):

Didaktische Funktion:

Überprüfung unterrichtlicher Maßnahmen, Bewertung des Unterrichtserfolges, Erfassung von Lerngeschwindigkeiten, Überprüfung von Lernzielen Feedback für Lehrer (evtl. Unterrichtsoptimierung)

Evaluative Funktion:

Orientierung für Schüler/Eltern über Schulleistung (Schwächen, Stärken, Lernfortschritte), z.B. underachievement Feedback für Eltern/Schüler

Entscheidungsfunktion:

Schullaufbahnberatung (Selektion, Auslese) und beim Wechsel von Lerngruppen äußere/innere Differenzierung im Schulsystem

3.

Gütekriterien

3.1. Überblick

An die Genauigkeit und Verlässlichkeit von Messergebnissen in der Diagnostik werden Anforderungen gestellt. Man hat Kriterien entwickelt, die es möglich machen, die Qualität einer Messung zu beurteilen. Gütekriterien sind als Forderungen an die Methode bezüglich der:

Testdurchführung: Transparenz, Zumutbarkeit, Störanfälligkeit, Verfälschbarkeit

Testauswertung: Auswertungsobjektivität, Reliabilität, Validität, Bandbreite, Änderungssensitivität, Informationsausschöpfung

Testevaluation: Ökonomie, Fairness, Akzeptanz, Vergleichbarkeit, Bewährung

3.2 Objektivität

Objektivität
Objektivität
Durchführung, Auswertung, Interpretation
Durchführung,
Auswertung,
Interpretation
Wiederholungsreliabilität, Split-Half-Rel., Paralleltestsrel., Konsistenzanalyse
Wiederholungsreliabilität,
Split-Half-Rel.,
Paralleltestsrel.,
Konsistenzanalyse
Hauptgütekriterien Gütekriterien Nebengütekriterien
Hauptgütekriterien
Gütekriterien
Nebengütekriterien
Reliabilität
Reliabilität
Validität
Validität
Inhaltsvalidität, empirische Validität, Konstruktval., Testfairness
Inhaltsvalidität, empirische
Validität, Konstruktval.,
Testfairness
Normierung
Normierung
Zützlichkeit & Zumutbarkeit
Zützlichkeit &
Zumutbarkeit
Ökonomie
Ökonomie
Vergleichbarkeit
Vergleichbarkeit
Akzeptanz
Akzeptanz

Die Güte eines Verfahrens ist am größten, wenn diese hohe Objektivität, Reliabilität und Validität aufweist!

3.2. Objektivität

= Grad, in dem Ergebnisse unabhängig vom Untersucher sind

Ein Test wäre vollkommen objektiv, wenn verschiedene Untersucher bei denselben Probanden zu gleichen Ergebnissen gelangen (Lienert, 1967) (Interpersonelle Übereinstimmung der Untersucher.)

Beispiel für objektive Tests: Führerscheinprüfung oder Intelligenztests.

Objektivität ist (wie Reliabilität) ein formales Kriterium, es sagt nichts über den Inhalt aus!

3.2 Objektivität

3.2.1.

Durchführungsobjektivität
Durchführungsobjektivität
Interpretationsobjektivität
Interpretationsobjektivität
Auswertungsobjektivität
Auswertungsobjektivität
Arten von Objektivität
Arten von Objektivität

Durchführungsobjektivität

Gleiche Bedingung für alle Prüflinge und die Untersuchung soll unabhängig von zufälligen und systemischen Verhaltensvariationen des Untersuchers sein.

Ist das Maß dafür, inwieweit die Ergebnisse eines Tests von der Person des Versuchsleiters unabhängig sind. Für alle Getesteten gelten die gleichen Anforderungen unter den gleichen Bedingungen.

Man versucht zu sichern, dass alle Lernenden bzw. Probanden den gleichen Anforderungen unter gleichen Bedingungen ausgesetzt sind.

Situative Faktoren: Tageszeit, Hilfsmittel, Instruktion, Lärm …

Personale Faktoren: Ermüdung, vorherige Beschäftigung …

Herstellen von Durchführungsobjektivität:

Vereinheitlichung der Aufgabenstellung, der Bearbeitungszeit, der Erläuterung der Aufgabe, der zulässigen Hilfsmittel, usw.

Strikte Beachtung von Verfahrensregeln

Gleichheit der Instruktionen für alle Prüflinge (z.B. schriftlich oder mit Tonband)

Beispiel: Beim Diagnostischen Rechtschreibtest (DRT 3) werden genaue Anleitungen zur Aussprache eines Wortes, zum Zeitraum der Testdurchführung und der Zeitdauer gegeben. Außerdem wird festgelegt, wie der Test einzuführen ist, wie die Sätze zu diskutieren sind und wie oft ein Wort vorgelesen werden darf.

Positive Wirkung:

Der Testleiter ist eine vertraute Person

Positive und angenehme Atmosphäre

3.2 Objektivität

Schwierigkeiten:

Personale Faktoren nur schwer beeinflussbar (z.B. Prüfungsangst), nur durch Individualisierung ist Objektivität erreichbar

Verstehensprobleme bei formelhaftem Vortragen der Anweisung

Nicht alle Bedingungen der Testdurchführung lassen sich standardisieren, z.B. gesundheitliche Tagesverfassung der Probanden

Bei mündlichen Prüfungen ist Durchführungsobjektivität automatisch niedriger, da keine Gleichzeitigkeit gegeben ist.

3.2.2. Auswertungsobjektivität

Ergebnis unabhängig vom Untersucher.

Ist ein Maß dafür, inwieweit gleiches Verhalten einer Testperson stets auf die gleiche Weise ausgewertet wird.

Verschieden Beurteiler sollten zu gleichen Ergebnissen gelangen.

Die meisten Untersuchungen über die Schwächen der traditionellen Leistungsbeurteilung beziehen sich auf die mangelnde Auswertungsobjektivität (z.B., wenn verschiedene Lehrer Klassenarbeiten unterschiedlich bewerten)

Herstellung von Auswertungsobjektivität:

Beurteilungsverfahren mit festgelegten Kriterien für jede Aufgabe wird genau festgelegt, was mit wie vielen Punkten bewertet wird nur Auszählung (z.B. Diktatfehler, Ablesen der Größe einer Person am Maßband)

Beurteilungsverfahren mit geschlossenen Antwortformen (Erhebungsverfahren auf Multiple-Choice-Basis Auswertung mit Schablonen oder maschinell)

Kriterienkatalog nur Auszählung (z.B. Diktatfehler)

Schwierigkeit:

Bei Aufsätzen o.ä. ist die Auswertungsobjektivität eher negativ beeinträchtigt. Sie erfordern eine inhaltliche Klassifikation (auch mündliche Prüfungen).

3.2.3. Interpretationsobjektivität

3.2 Objektivität

Ist ein Maß dafür, inwieweit die Ergebnisse eines Tests von den interpretativen Schlüssen abhängen, die ein Diagnostiker vornimmt. Eine hohe Interpretationsobjektivität besteht, wenn verschiedene Diagnostiker gewonnene Befunde in gleicher Weise interpretieren.

Aus gleichen Ergebnissen sollten auch die gleichen diagnostischen Schlüsse gezogen werden (erst hier findet in der Schule Notengebung statt!) Interpretationsobjektivität ist schwieriger zu erreichen als Auswertungsobjektivität.

Mangelnde Interpretationsobjektivität:

Schüler hat 12 Punkte erreicht Ein Lehrer gibt Note 2, der andere Note 4

Ein Testergebnis kann grundsätzlich nach vorliegenden Normtabellen in die Leistungsverteilung oder in das erreichte Lernniveau eingeordnet werden, es kann aber auch notwendig sein, Ergebnisse abzuwägen, zu gewichten und zu bewerten.

Bsp.: Schulleiter entscheidet, ob Kind eingeschult werden kann oder Zusatzförderung braucht – nach ärztlichen Gutachten, Angaben der Eltern …

Herstellung von Interpretationsobjektivität:

Existenz von festen Regeln für diagnostische Schlussfolgerungen (z.B. normierte Leistungstests, Fragebögen, Rohwerte aus Tabellen ablesen …)

Einige Daumenregeln zur Notengebung:

o

Punktwerte so zusammenfassen, dass sich für die Noten eine Normalverteilung ergibt

o

Positive Bewertung ab der Hälfte der erreichten Punkte zu vier äquidistanten Klassen zusammenfassen (mit 50% Note 4)

Möglichst umfassende Dokumentation von Datenerhebungen und analysen

Schwierigkeit:

Je unterschiedlicher die zu verarbeitenden Informationen und je zahlreicher sie sind, desto schwieriger ist es sie objektiv, d.h. unter Ausschaltung intersubjektiver Einflüsse, zu interpretieren (z.B. bei Übertritt: Zusammenfassung außerleistungsmäßiger Faktoren wie Lernbereitschaft, Unterstützung der Eltern …)

Wenn Intuition und Erfahrung des Testleiters einen Schluss begründen

Insgesamt:

3.3 Reliabilität

Objektivität ist die notwenige Voraussetzung für die Zuverlässigkeit und Gültigkeit einer Messung bzw. eines Prüfsystems. Eine Messung, die nicht objektiv ist, kann auch nicht zuverlässig und gültig sein.

3.3. Reliabilität

Beschreibt die Zuverlässigkeit oder Präzision der Messung.

Unter Reliabilität eines Tests versteht man den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst (Lienert, 1967)

Reliabilität ist ein Maß für die Genauigkeit, mit dem ein Test ein zu messendes Merkmal erfasst.

Testergebnisse sind normalerweise mit Fehlern behaftet. Ein im Test beobachteter Wert setzt sich zusammen aus der Summe eines wahren Wertes (konstant, aber nicht messbar) und eines Fehlerwertes (labil, kann an Gegenstand, Messinstrument oder Beurteiler liegen Häufiges Messen nötig!)

Bei der Zuverlässigkeit einer Messung im sozialwissenschaftlichen Bereich muss bedacht werden, dass die Messung nicht zuverlässiger sein kann als die Stabilität des Merkmals (labiles Merkmal (z.B. Stimmung) ungenauer als stabiles (z.B. Rechtschreibkenntnisse)).

Weiterhin ist klarzustellen, dass die Reliabilität sich immer auf das Testverfahren bezieht und nicht auf den Probanden!

Reliabilität ist (wie Objektivität) ein formales Kriterium, es sagt nichts über den Inhalt aus!

Der Grad der Zuverlässigkeit einer Messung wird durch den Zuverlässigkeits- oder Reliabilitätskoeffizienten bestimmt.

Der Zuverlässigkeitskoeffizient r ist ein Korrelationskoeffizient der angibt, in welchem Maß unter gleichen Bedingungen gewonnene Messwerte über ein und denselben Probanden übereinstimmen, in welchem Maße das Testergebnis reproduzierbar ist (Lienert & Raatz,

1998).

Kurze Erklärung zum Korrelationskoeffizient:

3.3 Reliabilität

Statistische Hilfsmittel, um Zusammenhänge zwischen Werten zu messen bzw. zu überprüfen. Die Daten werden paarweise zusammengesetzt und mit einem Durchschnitt verglichen. Ergebnis ist ein Koeffizient zwischen -1 und +1

a) r = +.45 positive Korrelation: Je größer/kleiner Wert x, desto größer/kleiner ist Wert y. (z.B. Körpergröße Schuhgröße) .45: mittlerer Zusammenhang

– Schuhgröße) .45: mittlerer Zusammenhang b) r = 0 Kein Zusammenhang zwischen Wert x und y.

b) r = 0 Kein Zusammenhang zwischen Wert x und y.

b) r = 0 Kein Zusammenhang zwischen Wert x und y. c) r = - .80

c) r = - .80

Negative Korrelation: Je größer/kleiner Wert x, desto kleiner/größer Wert y. (z.B.

Anzahl Regentage Sonnentage, Leistung

Notenwert).

.80: hoher Zusammenhang

Leistung – Notenwert). .80: hoher Zusammenhang Korrelationen machen jedoch keine Aussagen über kausale

Korrelationen machen jedoch keine Aussagen über kausale Zusammenhänge!

Um den Grad der Genauigkeit (also die Reliabilität) eines Verfahrens zu optimieren, müssen Messfehler minimiert werden. Dazu unterscheidet man zunächst verschiedene Arten der Reliabilität, die im Folgenden beschrieben werden. Reliabilität wird geschätzt und nicht gemessen.

3.3 Reliabilität

Zeitliche Stabilität eines Merkmals Wiederholungsreliabilität Koeffizient der zeitlichen Stabilität
Zeitliche Stabilität eines
Merkmals
Wiederholungsreliabilität
Koeffizient der zeitlichen
Stabilität
Gleichwertigkeit von 2 Testhälften Split-half-Reliabilität Koeffizient der inneren Konsistenz
Gleichwertigkeit von 2
Testhälften
Split-half-Reliabilität
Koeffizient der inneren
Konsistenz
Gleichwertigkeit von 2 Paralleltests Paralleltest-Reliabilität Äquivalenz-koeffizient
Gleichwertigkeit von 2
Paralleltests
Paralleltest-Reliabilität
Äquivalenz-koeffizient
Homogenität von Testitems Konsistenz-Analyse Homogenitätskoeffizient
Homogenität von
Testitems
Konsistenz-Analyse
Homogenitätskoeffizient

3.3.1. Wiederholungsreliabilität (Test-Retest-Methode)

Erneute Messung nach einiger Zeit.

= zeitliche Stabilität eines Merkmals.

Die Messung wird wiederholt und mit den Ergebnissen der ersten Messung verglichen - dazu ist allerdings zeitliche Stabilität des Merkmals nötig.

Bsp.:

Mehrmaliges Abwiegen von 1 Liter Milch oder Messen der Größe einer Person durch wiederholtes Messen.

Wenn man nicht weiß, ob eine Waage genau misst, besteht eine Möglichkeit darin, die Messung zu wiederholen.

Bei der Wiederholungsreliabilität lässt man also die gleichen Aufgaben von den gleichen Versuchspersonen zu verschiedenen Zeiten bearbeiten.

Messwert:

3.3 Reliabilität

Koeffizient der zeitlichen Stabilität gibt an, wie konstant die Messwerte über die Zeit ausfallen

Schwierigkeit:

Wird bei der Leistungsmessung selten angewandt, da man bei Wiederholung mit Übungseffekten rechnen muss Verfälscht die Messung

Gedächtniseffekte: z.B. Erinnerung

Handelt es sich überhaupt um ein zeitlich stabiles Merkmal? (Es sollte zeitlich stabil sein, damit diese Methode genutzt werden soll) Bei Lernleistung handelt es sich nicht um ein stabiles Merkmal

Zeit zwischen den beiden Tests

3.3.2. Split-Half-Reliabilität (Testhalbierungsmethode)

Teilung der Testergebnisse im Nachhinein. (Nur ein Testdurchgang)

Um nicht wie oben die zeitliche Stabilität fordern zu müssen, wird bei der Split-Half- Methode die Aufgabenzusammenstellung halbiert und getrennt ausgewertet, es erfolgt also nur ein Testdurchgang.

Bsp.: 1 Liter Milch durch Abwiegen von 2 Hälften bestimmen, bzw. Leistung bei Aufgaben 1-10 und 11-20 vergleichen.

Danach lässt sich der Zusammenhang beider Testhälften berechnen (Koeffizient der internen Konsistenz gibt an, ob die jeweiligen Testhälften gleichwertig sind.)

Der Reliabilitätskoeffizient gibt an, ob die jeweiligen Testhälften gleichwertig sind.

Speed-Test: Hierbei kommt es nur auf die Geschwindigkeit an (z.B. bei Konzentrationstests). Mit einfachen Items; diese können von allen bearbeitet werden; Leistungsstärken lassen sich durch unterschiedliche Bearbeitungszeit erkennen. Testergebnisse werden nach der Testzeit geteilt und dann miteinander korreliert (erste Viertelstunde vs. zweite Viertelstunde).

Power-/Niveau-Test: Tests mit Aufgaben zu verschiedenem Schwierigkeitsgrad (z.B. Intelligenztests). Ergebnisse bei gradzahligen und ungradzahligen Items getrennt berechnen und miteinander korrelieren (Odd-even-Methode)

Messwert:

Koeffizient der internen Konsistenz: Im Grund wird hier überprüft, ob die beiden Testhälften einander gleichwertig sind.

3.3 Reliabilität

Schwierigkeit:

Funktioniert nur bei konsistenten Tests (keine Staffelung nach Schwierigkeit)

Aufmerksamkeitsschwankungen über einen längeren Zeitraum führen dazu, dass die Fehlerkomponenten beider Testhälften miteinander korrelieren (Widerspruch zu klassischen Testtheorie)

3.3.3. Paralleltestreliabilität

Verwendung mehrerer gleichartiger Testformen

Hierzu werden zwei oder mehrere verschiedene, aber gleichwertige (parallele) Aufgabensammlungen, die sich inhaltlich möglichst ähnlich sind verwendet. Sie werden gleichzeitig, unmittelbar nacheinander oder mit einigem zeitlichen Abstand bearbeitet.

Bsp.: 1 Liter Milch durch Abwiegen mit 2 Waagen bestimmen oder gleichwertige Aufgaben A und B in einer Schulaufgabe (z.B. Mathe: gleiche Rechenwege, verschiedene Zahlen)

Messwert:

Äquivalenzkoeffizient gibt an, wie gleichwertig die beiden Tests sind.

Schwierigkeit:

Gleichwertigkeit mehrerer verschiedener Tests ist kaum möglich (Behaltenseffekt)

3.3.4. Konsistenzanalyse

Zerlegung eines Tests in einzelne Items

Ein Test wird in seine einzelnen Items (Fragen, die die gleiche Fähigkeit messen) zerlegt und aus dem Zusammenhang zwischen den Itembeantwortungen wird auf die Messgenauigkeit rückgeschlossen.

Dies ist

sinnvoll, wenn ein diagnostisches Verfahren aus mehreren Items besteht, die alle dieselben Fähigkeiten messen.

nicht sinnvoll: wenn ein diagnostisches Verfahren aus strukturunähnlichen, heterogenen Items besteht.

3.3 Reliabilität

Bsp.: 1 Liter Milch durch Abwiegen von vielen kleinen Teilen bestimmen

Messwert:

Homogenitätskoeffizienten

Schwierigkeit:

Instrument muss homogen sein (keine unterschiedlichen Themen/Lernzielhierarchien)

3.3.5. Zusammenfassung

Aus diesen 4 Methoden können Koeffizienten berechnet werden, die zur Abschätzung des Messfehlers herangezogen werden. Die Reliabilität bzw. der Standardmessfehler sind wichtige Angaben für die Messgenauigkeit eines Verfahrens. (Es lässt sich ein Vertrauensintervall um das konkrete Testergebnis berechnen, in dem der unverfälschte Wert des Probanden liegt).

3.3.6. Herstellung von Reliabilität

Faktoren, die sich auf die Messgenauigkeit und somit auf die Reliabilität eines Tests negativ auswirken können:

Ungenauigkeit des Messinstruments (z.B. Stichprobenfehler, die bei der Auswahl der Testaufgaben entstehen können Vorteile/Nachteile bei bestimmten Aufgabentypen)

Umgebungsfaktoren (z.B. unzureichend gelüftete Räume, Lärmpegel, Beleuchtung, abgebrochene Bleistifte …) Diese Mängel sind vom Testleiter durch sorgfältige Planung auszuschalten!

Temporäre Veränderungen des Probanden (z.B. Krankheit, Müdigkeit, Desinteresse, Sorgen, Stimmungen …)

Ungenaue Durchführung und Auswertung durch den Versuchsleiter (z.B. ungenaue, nicht eindeutige Arbeitsanweisungen, unklar formulierte Aufgaben)

Diese Faktoren gilt es zu optimieren, um möglichst gute Reliabilität zu erreichen.

Es ist unmittelbar einleuchtend, dass Zuverlässigkeitskoeffizienten z.T. je etwas Anderes messen. Je größer der Zeitabstand zwischen den Messungen ist, desto stärker können sich Einflüsse auswirken (Motivierung, zwischenzeitliche Lernergebnisse, …), die nicht mangelnder Zuverlässigkeit des Messinstruments angelastet werden können.

3.4 Validität

Bei sonst gleicher Aufgabenzahl und qualität können wir daher nach der Split-Half- Methode die höchsten (r ≥ 0,90) und nach der Methode der zu verschiedenen Zeiten durchgeführten Parallelformen die niedrigsten (r ≥ 0,80) Zuverlässigkeitskoeffizienten erwarten.

Insgesamt: Die Reliabilität einer Messung sagt nur etwas darüber aus, wie genau gemessen wird, aber nicht, was gemessen wird. Aber sie ist Voraussetzung für die Gültigkeit des Verfahrens!

3.4. Validität

= Der Test misst das, was er messen soll

Die Validität eines Verfahrens sagt etwas darüber aus, ob tatsächlich das Gemessen wird, was man messen will und nicht irgendetwas anderes (Ingenkamp, 2008).

Beispiel: Misst ein Intelligenztest wirklich die Intelligenz?

Die Validität eines Tests gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll oder zu messen vorgibt, auch tatsächlich misst. Ein Test ist demnach vollkommen valide, wenn seine Ergebnisse einen unmittelbaren und fehlerfreien Rückschluss auf den Ausprägungsgrad des zu erfassenden Persönlichkeits- oder Verhaltensmerkmals zulassen, wenn also der individuelle Testpunktewert eines Probanden diesen auf der Merkmalskala eindeutig lokalisiert.“ (Lienert,

1967)

Validität ist keine generelle Eigenschaft, ein Test kann für einen bestimmten Zweck valide sein und für einen anderen nicht.

Validität ist (im Gegensatz zu Objektivität und Reliabilität) ein inhaltliches Kriterium!

Validität darf nicht mit Reliabilität verwechselt werden, z.B. Versuch, Intelligenz mit Meterstab zu messen Es ergibt sich mehrfach das gleiche Ergebnis (z.B. 90cm) Reliabilität ist gegeben! Aber natürlich kann Intelligenz so nicht gemessen werden!

Um festzustellen, ob man tatsächlich das gemessen hat, was man messen wollte, braucht man allerdings ein Kriterium. Je nach Art des Kriteriums unterscheidet man im Allgemeinen drei bzw. vier Arten von Validität in der Testmethodik:

3.4 Validität

Inhaltsvalidität Empirische Validität Konstruktvalidität Testfairness

3.4.1.

Inhaltsvalidität

Test (bzw. Items) repräsentiert das zu messende Merkmal optimal.

„Spricht man von inhaltlicher Validität, so nimmt man an, dass ein Test oder dessen Elemente so beschaffen sind, dass sie das in Frage stehende Persönlichkeitsmerkmal und dergleichen in optimaler Weise repräsentieren, dass also der Test selbst das optimale Kriterium für das Persönlichkeitsmerkmal ist.“ (Lukesch, 1998)

Inhaltsvalidität ist zentral in der Schule:

Ein valider Test muss eine repräsentative Stichprobe derjenigen Unterrichtsinhalte umfassen, deren Kenntnis es zu prüfen gilt. Der Lehrer muss vorher eine inhaltliche Analyse durchführen:

Diagnostiziert der Test, inwieweit Unterrichtsziele erreicht worden sind?

Werden Ziele durch Testaufgaben angemessen repräsentiert?

Beispiele:

Test über Groß- und Kleinschreibung von Verben Es dürfen keine Schwierigkeiten wie Schreibung von i, ie, ieh eingebaut sein.

Rechenaufgaben mit Text Es sollten keine zu hohen Anforderungen an Leseverständnis gestellt werden, um mathematische Fähigkeiten zu prüfen.

Überprüfung der Mathematikkenntnisse der 10. Klasse mit Aufgaben der Algebra Zur allgemeinen Überprüfung sollte Geometrie nicht fehlen!

Schwierigkeit:

Inhaltsvalidität ist schwer festzustellen.

3.4 Validität

3.4.2. Empirische Validität

Aus Ergebnissen kann Verhalten vorhergesagt werden.

Bei der Feststellung der empirischen Validität (auch Kriteriumsvalidität genannt) steht nicht im Vordergrund, welche Eigenschaften oder Strukturen durch den Test gemessen werden sollten, sondern ob aus dem Testverhalten ein bestimmtes Verhalten vorhergesagt werden kann. Sie ist rein auf das Empirische ausgerichtet (Lukesch, 1998).

(Vorhersagevalidität) und eine „concurrent validity“ (Gleichzeitgkeitsvalidität) unterteilt, je nachdem ob das Verhalten, auf das geschlossen wird, in der Zukunft liegt, oder gleichzeitig (außerhalb der Testsituation nachweisbar) ist.

Nach

Cronbach

(1970)

wir

die

empirische

Validität

in

eine

predictive

Nach Cronbach (1970) wir die empirische Validität in eine „ predictive validity “

validity

Nach Cronbach (1970) wir die empirische Validität in eine „ predictive validity “

Man spricht von

innerer Validität, wenn das Kriterium selbst wieder ein Test ist und von

äußerer Validität, wenn das Kriterium kein Test, sondern ein anderer Verhaltensaspekt ist.

Zusammengefasst:

sondern ein anderer Verhaltensaspekt ist. Zusammengefasst: Gleichzeitigkeitsvalidität: Das Verhalten, auf das

Gleichzeitigkeitsvalidität: Das Verhalten, auf das geschlossen wird, liegt in der Gegenwart

Vorhersagevalidität: Das Verhalten, auf das geschlossen wird, liegt in der Zukunft

Beispiele:

Gleichzeitigkeitsvalidität und innere Validität: Intelligenztest A sollte Ergebnisse von Intelligenztest B vorhersagen können.

3.4 Validität

Gleichzeitigkeitsvalidität und äußere Validität: Gültigkeit von Schultests wird mit dem Grad der Übereinstimmung ihrer Ergebnisse mit Schulnoten ermittelt. Vorgehen problematisch, da Schultests ja gerade aus Unzulänglichkeit der Schulnote verwendet werden sollen

Vorhersagevalidität: Test in der Grundschule (z.B. Empfehlung des Grundschullehrers, Intelligenztests) soll den Oberschulerfolg (z.B. Erfolg / Intelligenz in der 10. Klasse) vorhersagen.

Schwierigkeit:

Ein Test, der Verhalten zu 100% vorhersagen kann, ist kaum konstruierbar.

z.B.: Intelligenztestverfahren mit dem Ziel, eine Bewährungsprognose für die Schullaufbahn zu diagnostizieren:

o

am Ende der Grundschule: gute Validitätskoeffizienten, da hier eine Stichprobe aus der gesamten Schülerpopulation gezogen wurde

o

zu Beginn der Gymnasialzeit: keine guten Validitätskoeffizienten, aufgrund der Homogenität der Stichprobe (aufgrund der Gymnasialzuweisung)

3.4.3.

Konstruktvalidität

Es wird das Konstrukt gemessen, das man messen will.

Ein Konstrukt ist eine relativ stabile, theoretisch angenommene Eigenschaft, die nicht beobachtbar ist (z.B. Prüfungsangst, Intelligenz). Die Erfassung von Konstrukten ist nur durch die Erstellung von Theorien möglich, die festlegen, wodurch sich Konstrukte in der beobachtbaren Ebene zeigen.

Beispiel: Intelligenz

Durch die Erhebung von messbaren Fähigkeiten (z.B. mentales Rotieren, Ängstlichkeit, …) und die darauffolgende Einbettung der Ergebnisse in ein Netzwerk von konstruktspezifischen Theorien („nomologisches Netzwerk“ lassen sich Konstrukte nachweisen.)

3.4 Validität

3.4 Validität Man kann nur beobachtbare Fähigkeiten messen und daraus auf die Ausprägung der Intelligenz schließen.

Man kann nur beobachtbare Fähigkeiten messen und daraus auf die Ausprägung der Intelligenz schließen.

Beispiel: Prüfungsangst – Wir können z.B. mit einem Fragebogen „Prüfungsangst“ messen. Ob sie valide gemessen wurde, können wir nur abschätzen, wenn wir überprüfen, ob sich theoretisch erwartete positive oder negative Beziehungen nachweisen lassen.

Fällt z.B. bei einem Probanden mit hoher Prüfungsangst unter Zeitdruck der Leistungserfolg besonders stark ab, reagieren intelligente Prüfungsängstliche anders als weniger intelligente, lassen sich körperliche Begleiterscheinungen (wie Schwitzen oder Zittern) nachweisen?

Das Instrument ist dann konstruktvalide, wenn die tatsächlich gefundenen Beziehungen mit dem theoretischen Merkmal hohe Übereinstimmung zeigen.

Schwierigkeit:

Da Konstrukte nicht direkt beobachtbar sind, kann nur schwer festgestellt werden, welche beobachtbaren Kennzeichen für sie typisch sind.

Verfälschungstendenzen (individuelle Kontrolle der Probanden über die Testantworten):

o

Soziale Erwünschtheit: jeder Proband versucht, ein sozial erwünschtes Bild von sich zu abzugeben (Intervention durch Lügenskalen, Itempaare, welche das gleiche Konstrukt erfassen)

o

Eigenschaften des Messinstrumentes: wenn eine andere Präsentation der Inhalte zu anderen Antworten führt (z.B. unklare Formulierungen Tendenz, eher „Ja“ zu sagen

o

Simulationen: Bewusste Vortäuschung von Symptomen (z.B. mit Absicht Rechtschreibfehler machen, um die Vorteile von LRS zu erhalten)

3.4 Validität

3.4.4. Testfairness

„Darunter ist die Forderung zu verstehen, dass die Testitems keinen Probanden oder keine Probandengruppe benachteiligen dürfen (Lukesch, 1998).

Weiterhin sollte bei diagnostischen Verfahren auf Testfairness geachtet werden. Testitems dürfen keine Probanden oder keine Probandengruppen benachteiligen.

Beispiele:

Benachteiligung von ausländischen Personen bei sprachgebundenen Intelligenztests

Kulturgebundenheit von Intelligenztests (cultur fair tests: möglichst unabhängig von Kultur, Bildungsgrad und verbaler Kompetenz)

Schwierigkeit:

Kulturunabhängigkeit nur schwer möglich.

3.4.5. Herstellung von Validität

Um hohe Validität herzustellen, sollten folgende Punkte beachtet bzw. eingehalten werden:

Übereinstimmung von Testinhalt und Unterrichtsinhalt

Eindeutige Arbeitsanweisung und klar formulierte Aufgaben

Operationalisierung der Lernziele (genau Angaben über die notwendige Lehrtätigkeit, die Inhaltsbeschreibung, das angestrebte Endverhalten mit den Bedingungen, unter denen es gezeigt werden soll, und den Maßstab, an dem es gemessen werden soll)

Lehrer sollte inhaltliche Analyse durchführen (Diagnostiziert der Test, inwieweit die von ihm ausgewählten Unterrichtsziele erreicht worden sind? Werden diese Ziele durch die Testaufgaben angemessen repräsentiert?)

Genaue Festlegung, welches Verhalten als Kriterium fungieren soll Validitätsfrage des Tests auf Validitätsfrage des Kriteriums

nicht direkt auf Verhalten schließen, sondern auf eine Eigenschaft, die sich in verschiedenen, aber funktionell ähnlicher Weise im Verhalten äußern kann

Insgesamt:

Die Validität ist das einzige inhaltliche Kriterium und macht eine Aussage darüber, ob gemessen wird, was gemessen werden soll. Sie ist ein sehr wichtiges Kriterium für die Güte einer diagnostischen Messung.

3.5 Nebengütekriterien

3.5. Nebengütekriterien

Neben den drei großen Hauptgütekriterien Objektivität, Reliabilität und Validität sollte ein guter Test auch die weniger wichtigen Nebengütekriterien möglichst gut erfüllen:

Normierung

Ökonomie

Vergleichbarkeit

Akzeptanz

Nützlichkeit und Zumutbarkeit

Die Erfüllung der Nebengütekriterien ist nicht notwendig, aber wünschenswert.

3.5.1. Normierung

Einordnung der Ergebnisse in ein Bezugssystem

Diagnostische Ergebnisse sind nicht aus sich selbst heraus interpretierbar, d.h. Schlüsse können nur durch Vergleich mit anderen Ergebnissen gezogen werden. Dazu stehen drei Bezugsgruppen zur Verfügung:

Individuelle (intraindividuelle) Bezugsnorm: Vergleich mit früheren Leistungen derselben Person. (z.B. Leistungsentwicklung)

Soziale (interindividuelle) Bezugsnorm: Vergleich mit Vergleichsgruppen (z.B. normorientierte Schulleistungstests …)

Kriteriale (ideale, objektive, lehrzielorientierte) Bezugsnorm: Vergleich mit gesetztem Kriterium (z.B. Vergleich mit den Anforderungen eines Lernziels)

Genaueres siehe Testnormierung bzw. Bezugsnormen

3.5.2. Nützlichkeit und Zumutbarkeit

Bestehendes Bedürfnis für das Verfahren

3.5 Nebengütekriterien

Ein Test ist nützlich, wenn er ein Persönlichkeitsmerkmal misst, für dessen Untersuchung ein praktisches Bedürfnis besteht. Hohe Nützlichkeit = kein anderer Test misst dasselbe ebenso gut (Lienert, 1967).

Die Zumutbarkeit ist ein subjektives Merkmal- sie ist das Ausmaß, in dem ein Test die
Die Zumutbarkeit ist ein subjektives Merkmal- sie ist das Ausmaß, in dem ein Test die
getestete
Person
in
zeitlicher,
psychischer
sowie
körperlicher
Hinsicht
beansprucht
(Testkuratorium, 1986).

3.5.3. Ökonomie

Einfach und schnelle Handhabung

Nach Lienert (1967) ist ein Test nur dann ökonomisch, wenn er:

a) eine kurze Durchführungszeit beansprucht

b) wenig Material braucht

c) einfach zu handhaben ist

d) als Gruppentest durchführbar ist

e) schnell und bequem auswertbar ist

3.5.4. Vergleichbarkeit

Übereinstimmung mit ähnlichen Verfahren lässt sich untersuchen

Ein Test ist vergleichbar, wenn

1)

eine oder mehrere Paralleltestformen vorhanden sind oder

2)

validitätsähnliche Tests verfügbar sind (überprüfen ähnlicher Merkmale)

Vergleichbarkeit dient der Reliabilität und Validität, ist jedoch nicht zwingend notwendig.

3.5.5. Akzeptanz

Verfahren von der Öffentlichkeit anerkannt.

Die Güte eines Tests wird auch von der Öffentlichkeit beeinflusst.

4.1 Testmethoden

Akzeptanz = Ausmaß, in dem subjektive Meinungen, Bewertungen oder gesellschaftspolitische Überzeugungen gegen einen Test angeführt werden.

Bsp.: Absinken der Verkaufszahlen von formellen Schulleistungstests in den 90ern.

4. Methoden der Pädagogischen Diagnostik

in den 90ern. 4. Methoden der Pädagogischen Diagnostik 4.1. Testmethoden Allgemeine Definition: Ein Test ist ein

4.1. Testmethoden

Allgemeine Definition:

Ein Test ist ein nach bestimmten Methoden entwickeltes und nach bestimmten Regeln durchzuführendes Untersuchungsverfahren (Ingenkamp & Lissmann, 2008).

„Als Test lassen sich allgemein alle kontrollierten Situationen bezeichnen, in denen

1. Ein diagnostisch relevantes Verhalten durch standardisierte Reize ausgelöst wird und für die

2. eine Interpretationsvorschrift besteht, die den beabsichtigten Rückschluss von beobachteten Verhalten auf die Existenz und Ausprägung von Fähigkeiten, Eigenschaften usw. der Persönlichkeit ermöglicht (Wieczerkowski & Schümann, 1982).

Genauer gefasste Definition für den Bezug zur Pädagogischen Diagnostik:

„Tests sind Verfahren der Pädagogischen Diagnostik, mit deren Hilfe eine Verhaltensstichprobe, die
„Tests
sind
Verfahren
der
Pädagogischen
Diagnostik,
mit
deren
Hilfe
eine
Verhaltensstichprobe, die Voraussetzungen für oder Ergebnisse von Lernprozessen
repräsentieren soll, möglichst vergleichbar, objektiv, zuverlässig und gültig gemessen und

4.1 Testmethoden

durch Lehrer oder Erzieher ausgewertet, interpretiert und für ihr pädagogisches Handeln nutzbar gemacht werden kann (Ingenkamp & Lissmann, 2008).

4.1.1. Klassifikation von Tests:

Unterscheidung von Tests nach:

(1) Testmaterial: Papier- oder Bleistifttests, Manipulationstests, Materialbearbeitungstests, Bildtests, apparative Tests (2) Verwendung der Sprache: verbale und nichtverbale Tests (3) Einzel- oder Gruppentests (4) Ein- oder mehrdimensionales Verfahren (ein Test aus einem oder mehreren Subtests) (5) Art des provozierten Verhaltens: Test, die zu typischen oder maximalen Verhalten führen (6) Strukturiertheitsgrad: Hoch- oder niedrigstrukturierte Tests (7) Geschwindigkeits- und Niveautests (8) Gebundene und frei Antworttypen (9) Inhaltlichen Gesichtspunkten: Intelligenz- oder Persönlichkeitstests

(10)

Testprinzip: projektive oder psychometrische Verfahren

(11)

Aptitude Tests oder achievement Tests

(12)

objektive und subjektive Tests

(13)

prüfende oder entfaltende Verfahren

(14)

Schulleistungstests

a. Zielsetzung: summative oder formative Evaluation

b. Art der Normierung: (sozial-)normbezogen oder kriteriumsbezogene Schulleistungstests

c. Inhaltliche Unterscheidung:

i.

Schulleistungstests

ii.

Einschulungs- und Entwicklungstests

iii.

Intelligenztests

iv.

Kreativitätstests

v.

Konzentrationstests

vi.

Persönlichkeitstests

vii.

Tests zur Erfassung der Sozialbeziehung in der Schule

Im pädagogischen Bereich werden vor alle Schulleistungs- und Intelligenztests, Entwicklungs- und Einschulungstests, Eignungs-, Konzentrations- und Aufmerksamkeitstests, sowie Sozialtests eingesetzt.

4.1.2. Klassische Testtheorie

4.1 Testmethoden

Zentrale Frage: Das Ausmaß von verfälschenden Anteilen bei Messungen. Daher wird sie auch oft als Messfehlertheorie bezeichnet.

4.1.2.1. Zentrale Fragen der Testtheorie

(nach Langfeldt, 1984)

Fragen konzipiert anhand eines Beispiels eines Schülers, der im Rechtschreibtest 26 von 40 Punkten erreicht hat:

1. Frage nach Reliabilität: Kam der Testwert durch zufällige Einflüsse oder aufgrund einer überdauernden Fähigkeit der Schüler zustande?

2. Frage nach Validität: Sagt der Testwert etwas über die Rechtschreib-Fähigkeit des Schülers aus?

3. Frage nach der Objektivität: Kam der Testwert aufgrund vergleichbarer, kontrollierter Umstände zustande?

4.1.2.2. Grundannahmen der klassischen Testtheorie

(nach Heller, 1984)

1) Existenzaxiom: Zu jedem beobachteten (gemessenen) Wert existiert ein „wahrer“ Wert im Sinne einer bestimmten individuellen Merkmalsausprägung (z.B. Höher der Schulleistung). Diese wird als Konstante wenigstens über einen gewissen Zeitraum hinweg angenommen.

2) Fehleraxiom: Der Messfehler einer Messung ist eine Zufallsvariable. Für diese gilt, dass die Summe bzw. das arithmetische Mittel der Fehlerwerte den Wert Null ergibt

3) Verknüpfungsaxiom: Der beobachtbare Wert (Messwert) setzt sich additiv aus wahrem Wert und Fehlerwert zusammen

Beschrieben werden die aus diesen Axiomen der klassischen Testtheorie abgeleiteten Formeln, Regeln und Vorschriften unter Objektivität, Rentabilität und Validität. Genauere Beschreibung siehe Gütekriterien

4.1.3.

Item-Response-Theorie

Bezeichnung im deutschsprachigen Raum als probabilistische Testtheorie.

4.2 Beobachtungsverfahren

Bietet zahlreiche Neuerungen im Rahmen

 

o

des populationsunabhängigen Messens

o

des computerbasierten adaptiven Testens und

o

der Veränderungsmessung

Dadurch, dass Testergebnisse trotz unterschiedlicher Aufgabenauswahl miteinander verglichen werden können, ergeben sich für die Diagnostik sowie die Erforschung Lernvoraussetzungen und -ergbnissen neue Möglichkeiten

In der Praxis konnte sich dieses Verfahren jedoch noch nicht durchsetzen

4.2. Beobachtungsverfahren

Beobachtung

Sozialwissenschaften und der Erziehungswissenschaften (Roth, 2001).

ist

das

grundlegende

Verfahren

der

empirisch

forschenden

Bei allen Beobachtungsverfahren ist der Beobachter das „Messinstrument“ seine Wahrnehmung ist stark durch Erfahrungen, Bedürfnisse oder Einstellungen beeinflusst. Es wird zwischen naiver und wissenschaftlicher Beobachtung unterschieden.

Vorbemerkung:

Nicht jedes Verhalten lässt sich in einer Testsituation provozieren

Nicht jeder möchte sich testen lassen

Nicht jeden kann man testen (Kinder, Behinderte)

Testung zu aufwändig, Datenschutzgründe, Persönlichkeitsrechte

Für viele Verhaltensbereiche keine Tests entwickelt man muss auf weniger überprüfte Verfahren umsteigen

Aus diesen Gründen ist ein Test nicht immer möglich und deshalb ist die Beobachtung die wichtigste Methode der Pädagogischen Diagnostik

Mit ihrer Hilfe können Informationen erlangt werden, die sonst nicht oder nur schwer erfasst werden können. Vor allem ist man in einer alltäglichen Situation von Zustimmung und Kooperation der Beobachteten weitgehend abhängig.

Beobachtung ist die absichtliche, aufmerksame Art des Wahrnehmens, die ganz bestimmte Aspekte auf Kosten der Bestimmtheit von anderen betrachtet“ (Graumann, Heller, Nickel

1978).

4.2 Beobachtungsverfahren

Bei allen Beobachtungsverfahren ist der Beobachter das „Messinstrument“, seine Wahrnehmung ist stark durch Erfahrungen, Bedürfnisse oder Einstellungen beeinflusst.

Unbestimmte Reize werden von verschiedenen Personen ganz unterschiedlich interpretiert. So sagen solche „Beobachtungsergebnisse“ oft mehr über den Beobachter, als über das Beobachtete aus.

4.2.1. Abgrenzung Beobachtung

Um die wissenschaftliche Methode des Beobachtens von der alltäglichen Beobachtung unterscheiden zu können haben Greve & Wentura (1997) folgende Merkmale wissenschaftlicher Beobachtung erarbeitet:

Unterscheidung alltägliche Beobachatung von einfacher Wahrnehmung

Absicht, Annahmen zu überprüfen

systematische Selektion bestimmter Aspekte

4.2.2. Arten der Beobachtung

Kennzeichen wissenschaftlicher Beobachtung

beabsichtigte Auswertung

erhobener Daten Kriterien der Replizierbarkeit und Objektivität

naiv vs. systematisch teilnehmend vs. nicht- teilnehmend fremd vs. selbst Feld vs. Labor offen (wissentlich)
naiv vs. systematisch
teilnehmend vs. nicht-
teilnehmend
fremd vs. selbst
Feld vs. Labor
offen (wissentlich) vs.
verdeckt (unwissentlich)
kontinuierlich vs.
diskontinuierlich
technisch vermittelt vs.
technisch unvermittelt
Arten der Beobachtung

4.2 Beobachtungsverfahren

4.2.2.1. Naive vs. systematische Beobachtung

Naiv

4.2.2.1. Naive vs. systematische Beobachtung Naiv frei, unsystematisch ungesichertes "Zuschauen", d.h.
4.2.2.1. Naive vs. systematische Beobachtung Naiv frei, unsystematisch ungesichertes "Zuschauen", d.h.
4.2.2.1. Naive vs. systematische Beobachtung Naiv frei, unsystematisch ungesichertes "Zuschauen", d.h.
4.2.2.1. Naive vs. systematische Beobachtung Naiv frei, unsystematisch ungesichertes "Zuschauen", d.h.

frei, unsystematisch4.2.2.1. Naive vs. systematische Beobachtung Naiv ungesichertes "Zuschauen", d.h. ohne klare

ungesichertes "Zuschauen", d.h. ohne klare Zielsetzung, Gelegenheitsbeobachtungvs. systematische Beobachtung Naiv frei, unsystematisch Problem: subjektive Verzerrung Systematisch strukturiert

Problem: subjektive Verzerrung subjektive Verzerrung

Systematisch

Problem: subjektive Verzerrung Systematisch strukturiert Klärung des Ziels, des Zeitpunktes, der
Problem: subjektive Verzerrung Systematisch strukturiert Klärung des Ziels, des Zeitpunktes, der
Problem: subjektive Verzerrung Systematisch strukturiert Klärung des Ziels, des Zeitpunktes, der
Problem: subjektive Verzerrung Systematisch strukturiert Klärung des Ziels, des Zeitpunktes, der

strukturiertProblem: subjektive Verzerrung Systematisch Klärung des Ziels, des Zeitpunktes, der Methode, des

Klärung des Ziels, des Zeitpunktes, der Methode, des Instruments, etc.Problem: subjektive Verzerrung Systematisch strukturiert erleichtert die Vergleichbarkeit und die Qualifizierung der

erleichtert die Vergleichbarkeit und die Qualifizierung der InformationenZiels, des Zeitpunktes, der Methode, des Instruments, etc. Problem: erfasst nur Ausschnitt des Gesamtverhaltens

Problem: erfasst nur Ausschnitt des Gesamtverhaltens erfasst nur Ausschnitt des Gesamtverhaltens

4.2.2.2. Teilnehmende vs. nicht-teilnehmende Beobachtung

teilnehmend

nicht-teilnehmend

Versuchsleiter ist involviert in Geschehen und interagiert mit den Versuchspersonen (Vpn)

Wahrung einer kritischen Distanz zum Geschehen

Problem: u.U. mangelnde Distanz

Problem: Vpn fühlen sich beobachtet und zeigen u.U. nicht das gewünschte Verhalten

Aber: Verhalten der Vpn soll durch das Gefühl der Beobachtung nicht gestört werden.

Lösung: Beobachter gibt sich z.B. als Gruppenmitglied aus („Under cover“) Problem: objektiver Status ist gefährdet, späte Protokollierung, vgl. verdeckte Beobachtung

4.2.2.3. Offene vs. verdeckte Beobachtung

offen

wissenschaftlich

Vpn weiß, dass sie beobachtet wird

Problem: u.U. wird gewünschtes Verhalten unterdrückt

verdeckt

unwissenschaftlich

Vpn weiß nicht, dass sie beobachtet wird

Problem: ethische Bedenken

4.2 Beobachtungsverfahren

4.2.2.4. Technisch vermittelte vs. technisch unvermittelte Beobachtung

Einsatz von Videokameras, Tonbändern etc.

Vorteil: wiederholtes Betrachten des Materials möglich (Reliabilität), keine Überforderung des Beobachters, dokumentarischer Wert

Nachteil: subjektive Kamera (Bildauswahl durch Kameramann), evtl. schlechte Qualität

technisch vermittelt
technisch
vermittelt
technisch vermittelt
technisch vermittelt

ohne technische Hilfsmittel

4.2.2.5. Kontinuierliche vs. diskontinuierliche Beobachtung

Kontinuierlich

Diskontinuierlich

Dauerbeobachtung

Zeitstichprobenpläne

Problem: Überforderung des Beobachters, in Schule kaum möglich

Problem: erfasst u.U. seltenes oder unauffälliges Verhalten nicht

4.2.2.6. Feld- vs. Laborbeobachtung

Feldbeobachtung

nicht 4.2.2.6. Feld- vs. Laborbeobachtung Feldbeobachtung Alltagssituation Problem: u.U Störbedingungen
nicht 4.2.2.6. Feld- vs. Laborbeobachtung Feldbeobachtung Alltagssituation Problem: u.U Störbedingungen
nicht 4.2.2.6. Feld- vs. Laborbeobachtung Feldbeobachtung Alltagssituation Problem: u.U Störbedingungen
nicht 4.2.2.6. Feld- vs. Laborbeobachtung Feldbeobachtung Alltagssituation Problem: u.U Störbedingungen

Alltagssituationnicht 4.2.2.6. Feld- vs. Laborbeobachtung Feldbeobachtung Problem: u.U Störbedingungen Laborbeobachtung künstliche

Problem: u.U StörbedingungenFeld- vs. Laborbeobachtung Feldbeobachtung Alltagssituation Laborbeobachtung künstliche Situation Vorteil: Schaffung

Laborbeobachtung

Problem: u.U Störbedingungen Laborbeobachtung künstliche Situation Vorteil: Schaffung optimaler
Problem: u.U Störbedingungen Laborbeobachtung künstliche Situation Vorteil: Schaffung optimaler
Problem: u.U Störbedingungen Laborbeobachtung künstliche Situation Vorteil: Schaffung optimaler
Problem: u.U Störbedingungen Laborbeobachtung künstliche Situation Vorteil: Schaffung optimaler

künstliche SituationProblem: u.U Störbedingungen Laborbeobachtung Vorteil: Schaffung optimaler Beobachtungsbedingungen

Vorteil: Schaffung optimaler u.U Störbedingungen Laborbeobachtung künstliche Situation Beobachtungsbedingungen (Kontrolle der Störbedingungen)

Beobachtungsbedingungen (Kontrolle der Störbedingungen) Problem der externen Validität (Übertragbarkeit auf

Alltagssituationen), Verhaltensänderung wegen Beobachtung/neue UmgebungBeobachtungsbedingungen (Kontrolle der Störbedingungen) Problem der externen Validität (Übertragbarkeit auf 33

4.2 Beobachtungsverfahren

4.2.2.7. Fremd- vs. Selbstbeobachtung

Fremdbeobachtung

Problem: kein direkter Zugang zum "Innenleben"

Selbstbeobachtung

z.B. Befragung, Tagebücher

Problem: Verzerrung

4.2.2.8. Fazit

Hinsichtlich der Gütekriterien erzielen folgende Beobachtungsverfahren die besten Ergebnisse:

systematische

teilnehmende und

verdeckte Beobachtungen

Aber: Pädagogen werden in ihrer Praxis meist auf:

naive

teilnehmende und

diskontinuierliche Beobachtungen zurückgreifen müssen

4.2.3. Unterrichtsbeobachtung und Interaktionsdiagnostik

„Der Begriff Interaktion bezeichnet sowohl

- direkte (konkrete, face-to-face, vis-à-vis) Begegnungen als auch

- indirekte (abstrakte, anonyme, vermittelte) soziale Beziehungen von Individuen,

in denen diese Handlungen wechselseitig aufeinander abstimmen []“ (Merkens & Seiler,

1978)

Nach Lukesch (1998) sind Interaktionsanalysen alltägliche und wissenschaftliche Versuche, Informationen über zwischenmenschliche Beziehungen (Interaktionen) unter spezifischer Fragestellung zu gewinnen und zu verarbeiten.

Beispiele für Beobachtungskategorien für den schulischen Unterricht:

4.2 Beobachtungsverfahren

Sprachzeiten Lehrer/Schüler: Nach Claus, 1954: 80% Lehrer Schüler: 20% aller sprachlichen Interaktionen

Wartezeiten auf Schülerantworten

Impulse des Lehrers: Häufigkeit. offene Fragen, Suggestivfragen, Provokationsfragen, Lehrerecho (41-88 Lehrerfragen/pro Stunde)

Einsatz von Verstärkern: Häufigkeit: positive/negative Verstärkung, Ignorieren …

Standort des Lehrers: Dauer: am Pult, an der Tafel, bei dem einzelnen Schüler …

Arbeitsformen bzgl. didaktischer Vorgaben: Dauer: Lehrervortrag, Gruppenarbeit

4.2.4.

Beobachtungssysteme/Interaktions-Analyse-Systeme

Unter einem Beobachtungssystem oder Kodierschema versteht man eine Menge von Regeln, die spezifizieren, welche Verhaltensaspekte jeweils beachtet und registriert werden müssen (Krohne & Hock, 2007).

4.2.4.1. Entwicklung von Beobachtungssystemen

Entwicklungsschritte nach Medley & Mitzel, 1963:

a)

Abgrenzung des Beobachtungszieles und des interessierenden Verhaltensbereiches

b)

Entwurf eines vorläufigen Kategoriensystems, das durch Experten, … auf seine inhaltliche Validität überprüft wird

c)

Beobachtungsitems positiv formulieren, im Präsens und in der Einzahl. Festlegen, ob die Intensität eines Verhaltens oder die Häufigkeit des Vorkommens beurteilt werden soll

d)

Plan über Ablauf der Beobachtung anfertigen

e)

Beobachtungstraining

f)

Pretest, Prüfung der intersubjektiven Übereinstimmung

g)

Durchführung der Beobachtung, Bestimmung der Validität

Nach Mees (1977) kann man die Beobachtungssysteme unterscheiden in Verfahren der:

Isomorphen Deskription: möglichst vollständig und unveränderte Wiedergabe des Beobachteten faktisch unmöglich, da Verhalten immer unterschiedlich

4.2 Beobachtungsverfahren

kategorisiert werden kann und

Reduktiven Deskription: Beschränkung auf interessierende Verhaltensklassen

o Weitere Differenzierung nach Cranach & Frenz (1969):

Zeichensysteme: Ein oder mehrere Ereignisse werden nach der Häufigkeit ihres Auftretens festgehalten Kategoriesysteme: Jede auftretende Verhaltensweise wird einer Kategorie zugeordnet Schätzskalen: Verhalten wird nach einem bestimmten Merkmal in quantitativer Weise beurteilt

4.2.4.2.

Kategoriesysteme

unterteilen den jeweils interessierenden Verhaltensbereich erschöpfend in einander ausschließende Klassen

für jedes Auftretende Verhalten ist ein Kode vorgesehen

man erhält vollständiges Protokoll des Geschehens

4.2.4.2.1. FIAC Interaktions-Analyse-System: Flanders Interaction Analysis Categories (FIAC) (Flanders,

1970)

Ist das bekannteste Kategoriesystem

abgeleitet aus dem allgemeinen IPA von Bales

eigens zur Beobachtung im schulischen Raum konzipiert

es wird sowohl Schüler, als auch Lehrerverhalten analysiert

Beschränkt sich auf verbale Verhaltensweisen im Unterricht (kein nonverbales Verhalten!)

Alle 3 Sekunden soll eine Verhaltensweise kodiert werden

4.2.4.2.1.1.

Aufbau

Unterscheidung zwischen Antworten (passive Handlungsweisen) und Initiativen (aktive Handlungsweise):

Kategorien nach Flanders (1970):

   

Antwort (indirekter Einfluss)

Initiative (direkter Einfluss)

Lehrer

1.

Akzeptiert Gefühle: Akzeptiert und

5. Lehrervortrag: Gibt Fakten oder Meinungen über Inhalt oder

klärt eine Haltung oder den Gefühlston

4.2 Beobachtungsverfahren

 

eines Schülers in nicht-bedrohlicher Weise. Gefühle können positiv oder negativ sein. Gefühle sind in dieser Kategorie enthalten

Vorgehen; drückt seine eigenen Ideen aus, gibt seine eigene Erklärung, oder beruft sich auf eine andere Autorität als einen Schüler

2.

Lobt und ermutigt: Lobt oder

6.

Gibt Anweisungen:

ermutigt eine Schüler-Aktivität oder Verhalten. Witze, die Spannung abbauen, jedoch nicht auf Kosten eines anderen Individuums; Kopfnicken oder Aussagen wie Hm? oder „Mach weiter“ sind in dieser Kategorie enthalten.

Anweisungen oder Befehle, von denen erwartet wird, dass sich ein Schüler an sie hält

3.

Akzeptiert oder verwendet Schüler-

7.

Kritisiert oder rechtfertigt

Ideen: Klärung, Aufbau oder Weiterentwicklung von Ideen, die von einem Schüler vorgeschlagen wurden. Lehrerseitiges Ausbauen von Schüler- Ideen ist in dieser Kategorie enthalten, aber wenn mehr eigene Lehrer-Ideen eingebracht werden, wechsle zu Kategorie 5

Autorität: Aussagen, deren Ziel es it, Schülerverhaltensmuster von nicht- akzeptabel zu akzeptabel zu ändern; jemandem ernste Vorwürfe machen; sagen, warum der Lehrer das tut, was er tut; extreme Selbstreferenz

4.

Stellt Fragen: Das Stellen einer Frage bzgl. Inhalt oder Vorgehen, basierend

auf Lehrer-Ideen, mit der Absicht, dass ein Schüler antwortet

Schüler

8. Schüler-Rede: Antwort: Schüler- Rede in Antwort auf den Lehrer. Der Lehrer initiiert den Kontakt, erbittet eine Aussage vom Schüler oder strukturiert die Situation. Die Freiheit, eigene Ideen auszudrücken, ist eingeschränkt

9.

Schüler-Rede: Initiierung:

Schüler-Rede, die von ihnen initiiert wird. Ausdruck eigener Ideen; Anregung eines neuen Themas; Freiheit, Meinungen und einen Argumentationsausgang zu entwickeln, z.B. durch das Stellen durchdachter Fragen; über die existierende Struktur hinausgehen

10. Stille und Verwirrung: Pausen, kurze Zeiträume der Stille und Zeiträume der Verwirrung, in denen die Kommunikation vom Beobachter nicht verstanden wird.

4.2.4.2.1.2.

Auswertung

Alle drei Sekunden Kodierung einer Verhaltensweise, d.h. die Beobachtungseinheit ist zeitlich definiert und nicht nach abgeschlossenen Verhaltenssequenzen.

Beispiel einer Kodierung über 60 Sekunden:

4.2 Beobachtungsverfahren

Der Lehrer stellt eine Frage (4) Schüleräußerung-Antwort (8) Lehrer akzeptiert oder verwendet Gedanken der Schüler (3) Lehrervortrag (5)

Gedanken der Schüler (3) Lehrervortrag (5) … Diese Kodierungen werden, wie bei IPA in eine 10x10

Diese Kodierungen werden, wie bei IPA in eine 10x10 Matrix eingetragen:

Durch die Matrix können dann Zeilen- und Spaltensummen sowie Übergangswahrscheinlichkeiten bestimmt werden

Bei der Auswertung in einer 10x10 Matrix wird jede vorhergehende Kategorie mit einer nachfolgenden in eine Matrix eingetragen

Erstes Glied: Zeile

Zweites Glied: Spalte LEHRER SCHÜLER SCHÜLER LEHRER
Zweites Glied: Spalte
LEHRER
SCHÜLER
SCHÜLER
LEHRER

Fragen bei der Auswertung können sein:

? Spricht der Lehrer zu viel

? Wie reagiert Lehrer auf Einfälle der Schüler

? Ist der Lehrer in seinem Verhalten eher „direkt“ oder „indirekt“

4.2.4.2.1.3.

Kritik

Ungleichgewicht zwischen Lehrer- und Schülerkategorien

Verhaltenskategorien sind z.T. recht global formuliert keine individuenspezifische Auswertung

4.2 Beobachtungsverfahren

Gutes System um Rückmeldung über Unterricht zu erhalten, aber hierfür werden geschulte Beobachter benötigt

4.2.4.3.

Zeichensysteme

Annahme: bestimmte beobachtbare Verhaltensweisen sind für einen ganzen Verhaltensbereich symptomatisch

Verhaltensäußerungen werden im Voraus beschrieben

Die Häufigkeit des Auftretens des Verhaltens wird von einem Beobachter aufgezeichnet

Es kann eine große Anzahl spezifischer Verhaltensäußerungen (50 bis 70) aufgeführt werden, die der Beobachter dann in einem bestimmten Zeitabschnitt beobachtet und abstrichelt

Zeiteinheiten für eine Beobachtungsphase meist relativ kurz (3 5 Minuten)

Wichtig bei Indexsystemen:

o

Kategorien können mehrmals auftreten

o

Es müssen nicht alle Kategorien vorkommen

4.2.4.3.1. BASYS (Beobachtungssystem zur Analyse aggressiven Verhaltens in schulischen Settings) (nach Wettstein, 2008)

Mappe mit Manual

Kategorienheft

2 CDs zum Beobachtungstraining

Auswertung

Plakat „erwünschtes Zielverhalten“

Beobachtung ist zweigeteilt:

o

Version für Lehrkräfte

o

Version für Fremdbeobachter

8 Kategorien werden unterschieden für den Lehrerbeobachtungsbogen:

1) Oppositionelles Verhalten gegen die Lehrkraft (z.B. dazwischenrufen) 2) Aktiv gegen Fremdperson, offen-direkt (z.B. beschimpfen) 3) Aktiv gegen Fremdperson, verdeckt-hinterhältig (z.B. falsche Anschuldigung) 4) Aggression gegen Gegenstände (z.B. Türknallen) 5) Partei ergreifen gegen Fremdperson; offen-direkt (z.B. höhnisch Lachen) 6) Partei ergreifen gegen Fremdperson; verdeckt-hinterhältig (z.B. verst. Grinsen) 7) Unkodierbar: Restkategorie (nicht zu 1-6 zuordenbares Verhalten)

4.2 Beobachtungsverfahren

8) Unkodierbar: Unsichtbar (nicht klar erkennbares Verhalten)

Kategorien für Fremdbeobachterbogen:

Es werden dieselben acht Kategorien verwendet wie beim Lehrerbeobachtungsbogen Zusätzlich:

o

Unterrichtliches Setting (7 Möglichkeiten)

o

Funktion für die Schüler (7 Möglichkeiten: z.B. Abwehr, Überforderung…)

o

Reaktion der Lehrkraft (5 Möglichkeiten, z.B. neutral, strafandrohend, …)

Gütekriterien:

1) Objektivität: Prozentsatz der richtig kodierten Ereignisse:

a. Lehrkräfte: 82%

b. Fremdbeobachter: 92%

4.2.4.4.

Schätzskalen/Ratingskalen

Eigentlich eher eine Form von Beurteilungsverfahren Häufigkeit und Intensität(Grad) meist theoretisch beschriebener Verhaltensausschnitte werden auf einer Skala eingeschätzt

4.2.4.4.1. Schätzskala für das Ausmaß von Wertschätzung/Geringschätzung im Verhalten von Lehrern gegenüber Schülern

(nach Tausch & Tausch, 1971)

Dient der Beurteilung von Lehreräußerungen Skala: von -3 (beleidigend) bis 3 (warmherzig) 7 Stufen

Einschätzung für z.B. eine ganze Unterrichtsstunde vornehmen (z.B. Skala 2 wählen)

Nur Fremdbeobachtung

4.2.5. Probleme bei der Beobachtung

Beobachtungsfehler die auftreten können sind nach Atteslander (1975) folgende:

Aufmerksamkeits- und Ermüdungsprobleme

Zu frühe Wertung

Identifizierung mit den Autoren

4.3 Beurteilung

Verfälschung durch kognitive Vorgänge

Missachten von Hinweisen

Nicht repräsentative Auswahl der Beobachtungsperiode, usw.

4.2.6. Gütekriterien bei Beobachtungsverfahren

Geringe Objektivität

Haloeffekt: überdurchschnittlich hohe Korrelation der Urteile eines Beobachters zwischen verschiedenen Merkmalen einer Person

Keine Reliabilität, da meist keine Parallelverfahren existieren

Meist Validität gegeben, da sich Beobachtung nur auf ein konkrete Verhalten bezieht

4.2.7. Beobachtungsfehler

 

1.

Aufmerksamkeit/Ermüdung

schlechtere Beobachtung

 

2.

Zu frühe Wertung

Kategorisierung

 

3.

Beobachtungsbericht als Fehlerquelle

Bericht vermittelt ein unzutreffendes Bild von beobachteter Person, z.B. durch Verkürzungen und Kontrastierungen

4.

Identifizierung mit den Akteuren

Aspekte werden anders beobachtet

 

5.

Missachtung von Hinweisen

Bei der Bearbeitung bspw. Des Beobachtungsbogens

6.

Nicht repräsentative Auswahl der Beobachtungsperiode

Zu kurze Beobachtungsdauer, Beobachtung in einer außergewöhnlichen Unterrichtssituation, …

4.3. Beurteilung

4.3.1. Abgrenzung von Beobachtung & Beurteilung

Def. Beurteilung: Beurteilung ist die abstrahierende Beschreibung des Verhaltens mit anschließender Deutung des Verhaltens, wobei ein Vergleich der Beobachtungseinflüsse mit Milieueinflüssen und Lebenslaufdaten stattfindet.

4.3 Beurteilung

Beobachtung

Beurteilung

niedriger Inferenzgrad

hoher Inferenzgrad

Bsp.: Registrieren der Meldung eines Schülers in einer Unterrichtsstunde

Bsp.: Ist das Verhalten des Schülers als Meldung zu interpretieren oder hat er sich nur gestreckt? Meldet sich dieser Schüler viel oder wenig?

Beobachten und Beurteilen stehen in einem engen Zusammenhang zueinander, da Beurteilen Beobachten voraussetzt; dennoch ist beides klar zu trennen!

Beispiel Unterscheidung Beobachtung vs. Beurteilung:

BEOBACHTUNG

BEURTEILUNG

„Der Klient hat während des 20-minütigen Gesprächs den Therapeuten zweimal für jeweils eine halbe Sekunde angeschaut“

„Der Klient zeigt eine extreme Blickaversion gegenüber dem Therapeuten“

Nach den Vorstellungen des deutschen Bildungsrates (1970) umfassen die Aufgaben von Lehrern das Lehren (Vermittlung von Kenntnissen), das Beurteilen (Feststellen von Lernerfolg und misserfolg), das Beraten (Bildungs-, Berufsberatung …), das Erziehen (Weitergabe von Wert- und Normvorstellungen) und das Innovieren (eigenverantwortliches Erarbeiten und Verarbeiten fördern und fordern).

Schülerbeurteilung ist ein zentrales Problem, aber ein wichtiger Bestandteil des Schulsystems.

„Nicht was Schüler lernen, bestimmt ihren Schulerfolg, ihre Lebenschancen, sondern wie sie zensiert werden.“ (Ingenkamp, 1962)

4.3.2. Beurteilungsverfahren

Jede Beurteilung setzt eine Beobachtung voraus, deshalb sind diese beiden Bereich eng miteinander verknüpft.

Es gibt mehrere Möglichkeiten und Arten der Beurteilung (z.B. Selbst- oder Fremdbeurteilung)

4.3.3. Beurteilung im Unterricht/Urteilsfehler

4.3 Beurteilung

Beurteilungsfehler, Beobachtungsfehler und Fehler bei mündlichen (und schriftlichen) Prüfungen überschneiden sich in allen Bereichen.

4.3.4.