Sie sind auf Seite 1von 607

Kohlhammer Standards Psychologie

Begründet von
Theo W. Herrmann (†)
Werner H. Tack
Franz E. Weinert (†)

Herausgegeben von
Marcus Hasselhorn
Herbert Heuer
Silvia Schneider
Heinz Walter Krohne
Michael Hock

Psychologische Diagnostik

Grundlagen und Anwendungsfelder

2., überarbeitete und


erweiterte Auflage

Verlag W. Kohlhammer
Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwendung außerhalb
der engen Grenzen des Urheberrechts ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt
insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und für die Einspeicherung und
Verarbeitung in elektronischen Systemen.
Die Wiedergabe von Warenbezeichnungen, Handelsnamen oder sonstigen Kennzeichen in diesem Buch
berechtigt nicht zu der Annahme, dass diese von jedermann frei benutzt werden dürfen. Vielmehr kann es
sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich geschützte Kennzeichen handeln,
wenn sie nicht eigens als solche gekennzeichnet sind.
Es konnten nicht alle Rechtsinhaber von Abbildungen ermittelt werden. Sollte dem Verlag gegenüber
der Nachweis der Rechtsinhaberschaft geführt werden, wird das branchenübliche Honorar nachträglich
gezahlt.

2., überarbeitete und erweiterte Auflage 2015

Alle Rechte vorbehalten


© 2007/2015 W. Kohlhammer GmbH Stuttgart
Umschlag: Gestaltungskonzept Peter Horlacher
Gesamtherstellung:
W. Kohlhammer GmbH, Stuttgart

Print:
ISBN 978-3-17-025255-4
E-Book-Formate:
pdf: ISBN 978-3-17-025256-1
epub: ISBN 978-3-17-025257-8
kindle: ISBN 978-3-17-025258-5
Inhaltsverzeichnis

Vorwort und Organisation des Buches XIII

I Allgemeine Grundlagen 1
1 Definition der Psychologischen Diagnostik 3
1.1 Merkmale der Diagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Beziehungen zu anderen Feldern der Psychologie . . . . . . . . . . . . . . . 6
1.3 Objekte und Sachverhalte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Entwicklungslinien des wissenschaftlichen Diagnostizierens 12


2.1 Frühe Überlegungen und praktische Lösungen . . . . . . . . . . . . . . . . . 12
2.2 Die allgemeine Messung psychischer Merkmale . . . . . . . . . . . . . . . . 14
2.3 Galton und die 1. Periode der Diagnostik . . . . . . . . . . . . . . . . . . . . 15
2.4 Die 2. Periode der Diagnostik: Ebbinghaus, Binet . . . . . . . . . . . . . . . 17
2.5 Der Beginn der Persönlichkeitsdiagnostik . . . . . . . . . . . . . . . . . . . 21

II Konstruktion und Überprüfung von Testverfahren 25


3 Merkmale und Gütekriterien psychologischer Tests 27
3.1 Merkmale psychologischer Testverfahren . . . . . . . . . . . . . . . . . . . 28
3.1.1 Definition von Tests . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Aktuelles Verhalten und Persönlichkeitsmerkmale . . . . . . . . . . 31
3.1.3 Typisches und „maximales“ Verhalten . . . . . . . . . . . . . . . . . 34
3.1.4 Illustrative Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.5 Testwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Zusammenstellung von Items . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1 Konstruktdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2 Erstellung der Itemmenge . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3 Itemformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.4 Antwortformate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

V
INHALTSVERZEICHNIS

3.3 Itemkennwerte und Testwertverteilung . . . . . . . . . . . . . . . . . . . . . 48


3.3.1 Schwierigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.3 Trennschärfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.4 Verteilung der Testwerte . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4 Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.1 Wahrer Wert und Fehler . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.2 Reliabilität und Standardfehler der Messung . . . . . . . . . . . . . . 56
3.4.3 Verfahren zur Reliabilitätsbestimmung . . . . . . . . . . . . . . . . . 61
3.4.4 Bewertung der Reliabilität . . . . . . . . . . . . . . . . . . . . . . . 68
3.5 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1 Inhaltsvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.2 Kriteriumsvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.3 Konstruktvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.6 Normen und Bezugssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6.1 Normorientierte Vergleiche . . . . . . . . . . . . . . . . . . . . . . . 76
3.6.2 Kriteriumsorientierte Vergleiche . . . . . . . . . . . . . . . . . . . . 82
3.6.3 Individuelle und ipsative Vergleiche . . . . . . . . . . . . . . . . . . 83
3.7 Testbewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4 Modelle psychologischen Testens 86


4.1 Faktorenanalytische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.1.2 Ein-Faktor-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1.3 Mehr-Faktoren-Modelle . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2 Item-Response-Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.1 Probleme linearer Modelle . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.2 Logistische Testmodelle . . . . . . . . . . . . . . . . . . . . . . . . 111
4.2.3 1PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.2.4 2PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.2.5 3PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.2.6 Lokale Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.2.7 Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.2.8 Informationsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 126

III Diagnostische Urteile und Entscheidungen 131


5 Der Prozess der diagnostischen Urteilsbildung 133
5.1 Klinische und statistische Urteilsbildung . . . . . . . . . . . . . . . . . . . . 134

VI
INHALTSVERZEICHNIS

5.1.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134


5.1.2 Statistische Vorhersage . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.1.3 Empirische Befunde . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.1.4 Kritik und Antikritik . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.2 Paramorphe Modelle des Diagnostizierens . . . . . . . . . . . . . . . . . . . 147
5.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
5.2.2 Erstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5.2.3 Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.2.4 Konfigurationsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.3 Vorteile expliziter Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.4 Nutzung der klinischen Inferenz . . . . . . . . . . . . . . . . . . . . . . . . 158
5.5 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

6 Entscheidungstheoretische Modelle und antwortabhängiges Testen 163


6.1 Ein Rahmenmodell des diagnostischen Entscheidungsprozesses . . . . . . . . 164
6.2 Arten diagnostischer Entscheidungen . . . . . . . . . . . . . . . . . . . . . . 166
6.3 Selektionsentscheidungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.1 Variablenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.2 Variablenkombination . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.3 Entscheidungsgüte . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.3.4 Entscheidungsnutzen . . . . . . . . . . . . . . . . . . . . . . . . . . 174
6.3.5 Entscheidungen außerhalb der Personalselektion . . . . . . . . . . . 177
6.4 Sequenzielle Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.5 Das Bandbreiten-Fidelitätsdilemma . . . . . . . . . . . . . . . . . . . . . . 180
6.6 Aptitude-Treatment-Interaktionen . . . . . . . . . . . . . . . . . . . . . . . 181
6.7 Antwortabhängiges Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.7.1 Sequenzielle Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.7.2 Adaptive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

7 Handlungstheoretische Modelle 191


7.1 Grundbegriffe der Handlungstheorie . . . . . . . . . . . . . . . . . . . . . . 191
7.2 Eine Handlungstheorie psychologischer Diagnostik . . . . . . . . . . . . . . 192
7.2.1 Ausgangspunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.2.2 Ein Modell des Arbeitsflusses in der diagnostischen Praxis . . . . . . 193
7.2.3 Implikationen des Modells . . . . . . . . . . . . . . . . . . . . . . . 196
7.2.4 Konkretisierung des Modells . . . . . . . . . . . . . . . . . . . . . . 198
7.2.5 Analyse spezifischer Aspekte des Modells . . . . . . . . . . . . . . . 200
7.2.6 Strategische und taktische Planung . . . . . . . . . . . . . . . . . . . 205
7.2.7 Einzelfallorientierte und institutionelle Diagnostik . . . . . . . . . . 208

VII
INHALTSVERZEICHNIS

7.3 Bewertung des Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

IV Beschaffung und Integration diagnostischer Daten 213


8 Das Interview 215
8.1 Begriffsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
8.2 Der Prozess der Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
8.3 Strukturiertheitsgrad des Interviews . . . . . . . . . . . . . . . . . . . . . . 219
8.4 Gütekriterien des Interviews . . . . . . . . . . . . . . . . . . . . . . . . . . 220
8.5 Arten von Interviews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
8.6 Bewertung der Datenerhebungsmethode Interview . . . . . . . . . . . . . . . 223

9 Verfahren zur Beschaffung von L-Daten 226


9.1 Verhaltensbeobachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
9.1.1 Einteilungsgesichtspunkte . . . . . . . . . . . . . . . . . . . . . . . 228
9.1.2 Stichprobenplan und Beobachtungssystem . . . . . . . . . . . . . . . 230
9.1.3 Segmentierung des Verhaltensstroms . . . . . . . . . . . . . . . . . 231
9.1.4 Klassifikation des Verhaltens . . . . . . . . . . . . . . . . . . . . . . 233
9.1.5 Ratingverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
9.1.6 Sequenzielle Analysen . . . . . . . . . . . . . . . . . . . . . . . . . 236
9.2 Verhaltensbeurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
9.2.1 Beobachtung und Beurteilung . . . . . . . . . . . . . . . . . . . . . 240
9.2.2 Formen systematischer Verhaltensbeurteilung . . . . . . . . . . . . . 240
9.3 Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
9.3.1 Fehlerquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
9.3.2 Objektivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
9.3.3 Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
9.3.4 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
9.4 Beitrag zu praktisch-diagnostischen Fragen . . . . . . . . . . . . . . . . . . 250

10 Verfahren zur Beschaffung von subjektiven (Q-) Daten 252


10.1 Formaler Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
10.2 Persönlichkeitsinventare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
10.2.1 Intuitive Fragebogenkonstruktion . . . . . . . . . . . . . . . . . . . 254
10.2.2 Internal-induktive Fragebogenkonstruktion . . . . . . . . . . . . . . 254
10.2.3 Theoriegeleitet-deduktive Fragebogenkonstruktion . . . . . . . . . . 260
10.2.4 External-kriteriumsbezogene Fragebogenkonstruktion . . . . . . . . 263
10.2.5 Kombinierte Konstruktionsstrategien . . . . . . . . . . . . . . . . . 268
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale . . . . . . . . 270

VIII
INHALTSVERZEICHNIS

10.3.1 Kontrollüberzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . 270


10.3.2 Leistungsmotiviertheit . . . . . . . . . . . . . . . . . . . . . . . . . 272
10.3.3 Ärger und Ärgerausdruck . . . . . . . . . . . . . . . . . . . . . . . . 273
10.3.4 Ängstlichkeit und Angstbewältigung . . . . . . . . . . . . . . . . . . 275
10.4 Interessen und Einstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . 285
10.4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
10.4.2 Die Diagnose von Interessen . . . . . . . . . . . . . . . . . . . . . . 285
10.4.3 Einstellungsmessung . . . . . . . . . . . . . . . . . . . . . . . . . . 288
10.5 Die Erfassung von Zuständen . . . . . . . . . . . . . . . . . . . . . . . . . . 291
10.6 Einflüsse auf das Antwortverhalten bei Selbstberichten . . . . . . . . . . . . 294
10.7 Bewertung subjektiver Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 304

11 Verfahren zur Beschaffung von objektiven (T-) Daten 306


11.1 Definition von T-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
11.2 Grundlagen objektiver Tests . . . . . . . . . . . . . . . . . . . . . . . . . . 308
11.3 In Gesamtsystemen der Persönlichkeit fundierte objektive Tests . . . . . . . . 308
11.3.1 Cattell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
11.3.2 Eysenck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
11.4 Objektive Tests zu einzelnen Konstrukten . . . . . . . . . . . . . . . . . . . 314
11.4.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
11.4.2 Kognitive Stile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
11.5 Projektive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
11.5.1 Definition und Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 325
11.5.2 Einteilungsgesichtspunkte . . . . . . . . . . . . . . . . . . . . . . . 326
11.5.3 Der Rorschach-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
11.5.4 Der Thematische Apperzeptionstest . . . . . . . . . . . . . . . . . . 329
11.5.5 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
11.6 Kognitiv-experimentelle (implizite) Verfahren . . . . . . . . . . . . . . . . . 334
11.6.1 Verfahren zur Messung spezifischer Prozessmerkmale . . . . . . . . 335
11.6.2 Impliziter Assoziationstest . . . . . . . . . . . . . . . . . . . . . . . 338
11.7 Bewertung objektiver Testverfahren . . . . . . . . . . . . . . . . . . . . . . 342

12 Fähigkeits- und Leistungstests 345


12.1 Leistungsmaßstäbe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
12.2 Einteilung von Fähigkeits- und Leistungstests . . . . . . . . . . . . . . . . . 347
12.3 Grundlagen der Intelligenzdiagnostik . . . . . . . . . . . . . . . . . . . . . . 349
12.3.1 Klassifikation von Fähigkeitsunterschieden . . . . . . . . . . . . . . 349
12.3.2 Faktoren intellektueller Leistungen . . . . . . . . . . . . . . . . . . 352
12.4 Intelligenztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358

IX
INHALTSVERZEICHNIS

12.4.1 Wechsler-Intelligenztests . . . . . . . . . . . . . . . . . . . . . . . . 358


12.4.2 Adaptives Intelligenz Diagnostikum . . . . . . . . . . . . . . . . . . 362
12.4.3 Berliner Intelligenzstruktur-Test . . . . . . . . . . . . . . . . . . . . 365
12.4.4 Intelligenz-Struktur-Test . . . . . . . . . . . . . . . . . . . . . . . . 368
12.4.5 Nonverbale Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
12.4.6 Interpretation von Intelligenztestwerten . . . . . . . . . . . . . . . . 373
12.4.7 Probleme und Perspektiven . . . . . . . . . . . . . . . . . . . . . . . 375
12.5 Konzentration und Vigilanz . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
12.5.1 Konzentrationstests . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
12.5.2 Vigilanztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
12.5.3 Interpretation von Aufmerksamkeitsleistungen . . . . . . . . . . . . 381

13 Integration diagnostischer Befunde und Gutachtenerstellung 384


13.1 Definition der diagnostischen Begutachtung . . . . . . . . . . . . . . . . . . 384
13.2 Allgemeine Merkmale der Begutachtung . . . . . . . . . . . . . . . . . . . . 385
13.3 Arten diagnostischer Gutachten . . . . . . . . . . . . . . . . . . . . . . . . . 387
13.4 Aufbau eines psychologischen Gutachtens . . . . . . . . . . . . . . . . . . . 387
13.4.1 Vorüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
13.4.2 Die Abschnitte eines Gutachtens . . . . . . . . . . . . . . . . . . . . 388

V Anwendungsfelder der Diagnostik 395


14 Arbeits- und organisationspsychologische Diagnostik 397
14.1 Diagnostische Tätigkeiten in Organisationen . . . . . . . . . . . . . . . . . . 398
14.2 Arbeits- und Anforderungsanalyse . . . . . . . . . . . . . . . . . . . . . . . 398
14.3 Diagnostik bei der Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
14.3.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
14.3.2 Eigenschaftsorientierte Verfahren . . . . . . . . . . . . . . . . . . . 406
14.3.3 Simulationsorientierte Verfahren . . . . . . . . . . . . . . . . . . . . 419
14.3.4 Das Assessment Center . . . . . . . . . . . . . . . . . . . . . . . . . 424
14.3.5 Biographieorientierte Verfahren . . . . . . . . . . . . . . . . . . . . 431
14.4 Leistungsbeurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
14.4.1 Funktionen der Leistungsbeurteilung . . . . . . . . . . . . . . . . . 436
14.4.2 Kriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
14.4.3 Dimensionen beruflicher Leistung . . . . . . . . . . . . . . . . . . . 438
14.4.4 Quellen und Verfahren der Leistungsbeurteilung . . . . . . . . . . . 438
14.4.5 Beurteilungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 440
14.4.6 Ausblick: Formale Systeme der Leistungsbeurteilung . . . . . . . . . 441
14.5 Diagnostik bei der Situation . . . . . . . . . . . . . . . . . . . . . . . . . . 441

X
INHALTSVERZEICHNIS

14.5.1 Diagnostik bei der Arbeitsgruppe . . . . . . . . . . . . . . . . . . . 441


14.5.2 Führungsdiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
14.5.3 Diagnostik bei der Organisation . . . . . . . . . . . . . . . . . . . . 454
14.6 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455

15 Klinische und gesundheitspsychologische Diagnostik 458


15.1 Aufgaben der Klinischen Psychologie und der Gesundheitspsychologie . . . 458
15.2 Klinisch-psychologische Diagnostik . . . . . . . . . . . . . . . . . . . . . . 459
15.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
15.2.2 Systematisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
15.2.3 Das klinische Interview . . . . . . . . . . . . . . . . . . . . . . . . . 462
15.2.4 Klinische Diagnostik auf der Basis von L-Daten . . . . . . . . . . . 463
15.2.5 Klinische Diagnostik auf der Basis von Q-Daten . . . . . . . . . . . 467
15.2.6 Klinische Diagnostik auf der Basis von T-Daten . . . . . . . . . . . . 476
15.2.7 Systeme zur Klassifikation psychischer Störungen . . . . . . . . . . 478
15.3 Gesundheitspsychologische Diagnostik . . . . . . . . . . . . . . . . . . . . 486
15.3.1 Fragestellungen der Gesundheitspsychologie . . . . . . . . . . . . . 486
15.3.2 Ziele und Bereiche der gesundheitspsychologischen Diagnostik . . . 487
15.3.3 Evaluation gesundheitspsychologischer Maßnahmen . . . . . . . . . 504

16 Pädagogisch-psychologische und Erziehungsdiagnostik 506


16.1 Diagnostik individueller Merkmale . . . . . . . . . . . . . . . . . . . . . . . 508
16.1.1 Kognitive Lernvoraussetzungen . . . . . . . . . . . . . . . . . . . . 508
16.1.2 Emotionale und motivationale Merkmale . . . . . . . . . . . . . . . 514
16.1.3 Arbeitsverhalten und Lernstrategien . . . . . . . . . . . . . . . . . . 520
16.2 Lernresultate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
16.2.1 Prüfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
16.2.2 Schulleistungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . 523
16.2.3 Erfassung des Erreichens von Lehrzielen . . . . . . . . . . . . . . . 524
16.3 Diagnostik bei der Schullaufbahnberatung . . . . . . . . . . . . . . . . . . . 527
16.3.1 Schuleintritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
16.3.2 Sonderpädagogischer Förderbedarf . . . . . . . . . . . . . . . . . . 529
16.3.3 Übertritt in weiterführende Schulen . . . . . . . . . . . . . . . . . . 530
16.4 Diagnostik von Umwelt- und Systemmerkmalen . . . . . . . . . . . . . . . . 531
16.4.1 Schul- und Klassenklima . . . . . . . . . . . . . . . . . . . . . . . . 531
16.4.2 Lehrerverhalten und Lehrer-Schüler-Interaktion . . . . . . . . . . . . 532
16.4.3 Beziehungen unter den Schülern . . . . . . . . . . . . . . . . . . . . 535
16.5 Familiale Interaktion und Erziehungsverhalten . . . . . . . . . . . . . . . . . 537
16.5.1 Klassifikation des Erziehungsverhaltens . . . . . . . . . . . . . . . . 537

XI
INHALTSVERZEICHNIS

16.5.2 Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538


16.5.3 Probleme und Perspektiven . . . . . . . . . . . . . . . . . . . . . . . 544

Literaturverzeichnis 547

Index 581

XII
Vorwort und Organisation des Buches

Dieser Band behandelt mit der für ein Lehr- Konstruktion, Auswahl, Darbietung und In-
buch gebotenen Differenziertheit die Konzep- terpretation psychologischer Tests. Aber Dia-
te, methodischen Grundlagen, Vorgehenswei- gnostik beschränkt sich nicht auf diesen Be-
sen und Materialien der Psychologischen Dia- reich. Auch Fragen der Planung und Durchfüh-
gnostik. Wie in jedem anwendungsorientierten rung einer Untersuchung, der Gewinnung dia-
Text liegt der Schwerpunkt auf den Methoden gnostischer Information ohne die Darbietung
und Verfahren. Die Theorien des Diagnostizie- von Tests (z. B. über Interviews, Verhaltens-
rens sowie die Konzepte, die mit psychologi- beobachtung und -beurteilung oder die Aus-
scher Diagnostik verbunden sind, werden aber wertung biographischer Daten) sowie der In-
ebenfalls eingehend behandelt. tegration dieser Informationen in Form eines
Gutachtens sind für diese Personen wichtig
und werden entsprechend in diesem Buch aus-
führlich behandelt.
Leserkreis
Die zweite Gruppe umfasst viele Berufe: Er-
zieher und Ärzte müssen sich häufig mit psy-
Das Buch wendet sich an Studierende der Psy- chologischen Befunden befassen und diese an-
chologie sowie der Nachbardisziplinen, ins- gemessen bewerten können. Vor Gericht spie-
besondere der Erziehungs-, Sozial- und Wirt- len die Ergebnisse psychologischer Untersu-
schaftswissenschaften. Bei der Konzeption chungen bei der Anklage, Verteidigung und
der Inhalte war für uns ausschlaggebend, al- schließlich Urteilsfindung eine zunehmend be-
le grundlegenden Themen der Diagnostik zu deutsame Rolle. Dementsprechend müssen die
behandeln, die für Bachelor- und Masterstu- Verfahrensbeteiligten in die Lage versetzt wer-
dierende der Psychologie wichtig sind. den, den Weg nachzuvollziehen, auf dem die
ihnen vorgelegten Befunde zustande gekom-
Darüber hinaus wendet sich das Buch auch an
men sind. In der Wirtschaft schließlich basie-
Personen, die berufsmäßig psychologische Un-
ren immer mehr personen- wie auch arbeits-
tersuchungen durchführen, und an Menschen,
und organisationsbezogene Entscheidungen
die aufgrund ihrer beruflichen Position mit
auch auf den Ergebnissen psychologisch-
den Ergebnissen derartiger Untersuchungen
diagnostischer Untersuchungen.
befasst sind. Schließlich ist dieses Buch auch
für alle diejenigen geschrieben, die allgemein
an Fragen der Diagnose menschlicher Eigen- Die dritte Gruppe schließlich besteht aus Men-
schaften, Fähigkeiten sowie Erlebens- und Ver- schen, die erkannt haben, dass die Ergebnis-
haltensweisen interessiert sind. se diagnostischer Untersuchungen ihr eigenes
Leben (z. B. als Bewerber um eine Stelle) wie
Studierende und Personen, die beruflich psy- auch das der sie umgebenden sozialen Institu-
chologische Diagnostik ausüben, interessieren tionen (z. B. Schulen, Kliniken) beeinflussen.
sich natürlich in besonderem Maße für die Sie wollen deshalb in der Lage sein, sich ein

XIII
Vorwort und Organisation

eigenes Urteil zu bilden, wenn etwa in der Öf- (u. a. Ebbinghaus, Binet für die Intelligenzdia-
fentlichkeit Kontroversen ausgetragen werden gnostik; Woodworth für die Persönlichkeits-
über den Einsatz bestimmter diagnostischer diagnostik) bemühten sich um eine möglichst
Methoden, z. B. zur Eignungsfeststellung. praxisnahe Gestaltung des diagnostischen In-
strumentariums.

Psychologische Tests liefern einen wesentli-


Organisation und Überblick
chen Teil der Information, auf die sich die
diagnostische Tätigkeit stützt. Im zweiten Teil
Die hier skizzierten und viele weitere Themen des Buches werden daher die Grundlagen der
werden in diesem Lehrbuch behandelt. Der Konstruktion und Überprüfung von Testver-
Band gliedert sich dabei in fünf Teile, die im fahren erläutert. Dabei beschreiben wir in
Folgenden kurz vorgestellt werden sollen. I Kap. 3 zunächst die wichtigsten allgemei-
nen Eigenschaften sowie die zentralen Gütekri-
Der erste Teil des Buchs befasst sich mit der
terien (Objektivität, Reliabilität und Validität)
Systematik der Psychologischen Diagnostik
psychologischer Tests. Darüber hinaus wer-
und ihrer Entwicklung bis hin zum heutigen
den die wichtigsten Gesichtspunkte für die Zu-
Stand. In I Kap. 1 werden zunächst die Merk-
sammenstellung von Testaufgaben und -fragen
male der Diagnostik beschrieben. Hierbei wer-
(sog. Items), zentrale Begriffe der Item- und
den als erstes diejenigen Aspekte vorgestellt,
Testanalyse sowie Bezugssysteme zur Einord-
die für die traditionelle, in der Differentiel-
nung und Interpretation von Testergebnissen
len Psychologie fundierten, Diagnostik gül-
behandelt. Die Darstellung orientiert sich da-
tig waren. Moderne Diagnostik dient jedoch
bei an Konzepten, die im Rahmen der sog.
zunehmend Zielsetzungen, die sich aus ver-
Klassischen Testtheorie ausgearbeitet wurden,
änderungsbezogenen Interventionen, z. B. im
welche die Grundlage für die Konstruktion der
Rahmen einer Therapie, ergeben. Diese Um-
meisten psychologischen Tests liefert.
orientierung hat auch das Merkmalsprofil der
Diagnostik beeinflusst. Auf der Grundlage die-
In I Kap. 4 werden neuere Ansätze des Tes-
ser veränderten Praxisanforderungen an die
tens beschrieben. Faktorenanalytische Model-
Diagnostik werden deshalb im zweiten Teil
le sind besonders zur Untersuchung der Struk-
des Kapitels die Beziehungen der Diagnostik
tur eines Tests geeignet. Mit ihrer Hilfe las-
zu anderen Feldern der Psychologie herausge-
sen sich z. B. Items in homogene (jeweils ein
arbeitet.
Merkmal erfassende) Gruppen ordnen. Außer-
Das I Kap. 2 skizziert die Entwicklung der dem können sie zur Bestimmung der Messprä-
Diagnostik von ihren Anfängen im Altertum zision eines Verfahrens eingesetzt werden. An-
bis zur Etablierung der modernen Diagnostik schließend skizzieren wir basale Modelle der
in den ersten Jahrzehnten des 20. Jahrhunderts. Item-Response-Theorie. Die Item-Response-
Dabei werden zwei Entwicklungslinien aufge- Theorie stellt gewissermaßen den „state of the
zeigt: Eine erste Linie entstammt den Labors art“ der Testkonstruktion dar. Mit ihrer Hil-
der Experimentalpsychologen. Ihre Vertreter fe ist es möglich, den Zusammenhang zwi-
(u. a. Galton, McKeen Cattell) fassten psy- schen psychologischen Merkmalen und Ant-
chologisches Testen als einen Spezialfall des worten auf die Items eines Tests genauer zu be-
psychologischen Experimentierens auf. Eine schreiben als dies im Rahmen der Klassischen
zweite Linie hatte ihren Ursprung in den An- Testtheorie möglich ist. Die Item-Response-
forderungen der (insbesondere psychiatrisch- Theorie liefert die Grundlage für viele fortge-
en und pädagogischen) Praxis. Ihre Vertreter schrittene diagnostische Methoden, z. B. das

XIV
Vorwort und Organisation

adaptive Testen, bei dem die Auswahl der Auf- Modelle der Urteilsbildung, mit deren Hilfe
gaben an das Fähigkeitsniveau einer Person sich die Beziehung zwischen diagnostischen
angepasst wird. Daten und Entscheidungen in formeller Weise
repräsentieren lässt.
Im dritten Teil wird der Prozess analysiert, in
dem diagnostische Urteile und Entscheidun-
In der nächsten Phase wurde versucht, an-
gen gewonnen werden. Der Urteilsprozess in
stelle der Isolierung von Einzelkomponenten
der Diagnostik lässt sich als eine Leistung be-
allgemeine Modelle der diagnostischen Beur-
schreiben, die aus der Gewinnung von Daten,
teilung zu erarbeiten. Grundlage für derarti-
deren Bewertung im Einzelnen, ihrer Kombi-
ge Modelle bildeten Ergebnisse der Konflikt-,
nation bzw. Integration sowie einer Entschei-
Entscheidungs- und Problemlöseforschung so-
dung aufgrund der so gewonnenen Ergebnisse
wie handlungstheoretische Vorstellungen. Die-
besteht. Diagnostische Daten sind Informatio-
se Ansätze werden in I Kap. 6 (Entschei-
nen, die mit psychologischen Untersuchungs-
dungstheorie) und I Kap. 7 (Handlungstheo-
methoden über Personen, Gruppen oder Orga-
rie) dargestellt.
nisationen sowie Situationen gewonnen wer-
den. Diese Informationen müssen derart be-
Im vierten Teil wird ein Überblick über ver-
wertet werden, dass eine zusammenhängende
schiedene Ansätze und Verfahren zur Beschaf-
Aussage, also ein Urteil möglich ist. Auf des-
fung diagnostischer Information gegeben. In
sen Grundlage werden dann Entscheidungen
I Kap. 8 wird das Interview besprochen, bei
getroffen. Dies kann sowohl zum Zwecke der
dem eine Vielzahl von Daten, wenn auch häu-
psychologischen Beratung und Behandlung
fig in nicht sehr standardisierter Form, aus un-
im Einzelfall geschehen, etwa bei der Indika-
terschiedlichen Quellen (Selbstauskünfte, Ver-
tionsstellung und der Evaluation im Rahmen
haltensbeobachtung) gewonnen werden. Die
modifikatorischer Interventionen, als auch im
weiteren Methoden werden nach den beiden
Rahmen institutioneller Entscheidungen, z. B.
großen Klassen der Verfahren zur Erfassung
bei der Personalauslese.
typischen Verhaltens bzw. zur Messung maxi-
Die Folgen diagnostischer Entscheidungen maler Leistung differenziert. Dabei wird bei
sind für betroffene Personen wie auch Insti- der Erfassung typischen Verhaltens noch ein-
tutionen oft sehr schwerwiegend. Deshalb ist mal nach Verfahren zur Erhebung von Beob-
es wichtig, sich mit den Variablen, die einen achtungsdaten, Selbstauskünften und objekti-
Einfluss auf den diagnostischen Prozess besit- ven Testdaten unterschieden.
zen, sowie mit dem Ablauf dieses Prozesses
zu befassen. Das Interesse diagnostischer For- In I Kap. 9 werden Verfahren zur Beschaf-
schung war zunächst auf Qualitätsmerkmale fung sog. L-Daten (life record data) vorgestellt.
diagnostischer Urteile gerichtet, also auf die Im Zentrum stehen hier die Methoden der Ver-
Aspekte Richtigkeit bzw. Genauigkeit einer haltensbeobachtung und -beurteilung. Diese
Diagnose oder Prognose. Ein Beispiel hierfür Methoden besitzen nicht nur erhebliche Re-
ist die Kontroverse über die Frage, ob sog. „kli- levanz für die Forschung, sondern werden in
nische“ oder „statistische“ Urteile bessere Vor- zunehmendem Maße auch von der psycholo-
hersagen liefern. In I Kap. 5 werden Überle- gischen Praxis (speziell der Klinischen, Schul-
gungen und Argumente aus dieser Kontroverse und Organisationspsychologie) als wichtige
dargestellt. Im Zentrum stehen hier zwei Arten Quellen der Gewinnung diagnostischer Infor-
der Datenkombination, die bei professionellen mation angesehen. Der Schwerpunkt der Dar-
Diagnosen benutzt werden. Diese Kontrover- stellung liegt dabei auf der systematischen Ver-
se führte u. a. zur Formulierung paramorpher haltensbeobachtung, deren Systeme und Me-

XV
Vorwort und Organisation

thoden der Quantifizierung beschrieben wer- Im fünften Teil werden die wesentlichen An-
den. wendungsfelder der psychologischen Diagnos-
tik vorgestellt. Diese Übersicht konzentriert
I Kap. 10 stellt die verschiedenen Tests zur sich auf die Felder der arbeits- und organisati-
Erfassung von Q-Daten (questionnaire data) onspsychologischen Diagnostik einerseits und
vor. Im Zentrum dieses Zugangs zur Erhe- der klinischen, gesundheitspsychologischen
bung subjektiver diagnostischer Information sowie pädagogisch-psychologischen Diagnos-
steht der Fragebogen. Nach einer Übersicht tik andererseits. Diese Differenzierung folgt
über unterschiedliche Konstruktionsprinzipien der Überlegung, dass die Diagnostik inner-
werden Fragebogen zur Messung von Persön- halb der Arbeitswelt stärker als etwa eine kli-
lichkeitsmerkmalen, Interessen, Einstellungen nisch-psychologische Diagnostik die Aspekte
und Zuständen beschrieben. Ausführlich wird des Kontextes, also des Arbeitsplatzes und der
abschließend über mögliche verzerrende Ein- Organisation, bei der Datenerhebung mit zu
flüsse auf das Antwortverhalten bei Selbstbe- berücksichtigen hat. Ausgeklammert bleiben
richten eingegangen. enger umschriebene Felder der Diagnostik wie
etwa die forensische oder die verkehrspsycho-
Die Verfahren zur Erfassung von T-Daten
logische Diagnostik.
(test data) bilden eine sehr heterogene Gruppe.
I Kap. 11 stellt zunächst die klassischen ob- Gegenstand der in I Kap. 14 behandelten
jektiven Testbatterien dar. Anschließend wer- arbeits- und organisationspsychologischen
den Tests zur Erfassung verschiedener kogniti- Diagnostik ist das Erleben und Verhalten von
ver Stile, projektive Verfahren sowie neuere – Menschen in Arbeit, Beruf und Organisation.
auf kognitiv-experimentellen Paradigmen ba- Charakteristisch für dieses Feld der Diagnostik
sierende – Ansätze besprochen. Während da- ist die Verschränkung von diagnoserelevanten
bei die projektiven Verfahren hinsichtlich ih- Merkmalen der Situation und korrespondieren-
rer Brauchbarkeit für praktisch-diagnostische den Eigenschaften der Person. Diesen unter-
Zwecke eher als unzulänglich eingeordnet wer- schiedlichen Perspektiven folgend beginnt das
den, wird in neueren sog. „impliziten“ Ansät- Kapitel mit der Analyse von Anforderungen,
zen (etwa dem Impliziten Assoziationstest) ei- die durch Arbeitsaufgabe und Arbeitsplatz an
ne vielversprechende Ergänzung zur Erhebung Personen gestellt werden. Darauf folgt eine
von Merkmalen über Selbstberichte gesehen. Darstellung der Methoden für die Diagnostik
bei der Person. Im Zentrum steht dabei die
Thema von I Kap. 12 ist die Fähigkeits- und Eignungsdiagnostik für Zwecke der Personal-
Leistungsdiagnostik. Hier werden nicht nur auswahl. Hieran schließt sich die Beurteilung
der derzeitige Entwicklungsstand der „klas- der Leistungen an, die Mitarbeiter in den Or-
sischen“ Intelligenztests dokumentiert, son- ganisationen erbracht haben. Nach der Einzel-
dern auch Neuentwicklungen wie das Adapti- person werden größere Einheiten hinsichtlich
ve Intelligenz Diagnostikum oder der Berliner ihrer diagnostischen Möglichkeiten betrachtet:
Intelligenzstruktur-Test vorgestellt. Ein weite- die Arbeitsgruppe, die Führung und – als um-
rer Schwerpunkt der Darstellung liegt auf der fassendste Einheit – die Organisation selbst.
Messung der Konzentrationsleistung.
I Kap. 15 beschreibt Ansätze und Verfahren
Das diesen Teil abschließende I Kap. 13 be- im Rahmen der klinischen und der gesund-
schreibt, über welche Schritte und nach wel- heitspsychologischen Diagnostik. Klinisch-
chen Regeln die mit Hilfe diagnostischer Ver- psychologische Diagnostik hat dabei die fol-
fahren erhobenen Daten zu einem Gutachten genden Aufgaben: Sie beschreibt psychische
integriert werden. Störungen qualitativ und quantitativ, ordnet

XVI
Vorwort und Organisation

sie ggf. zum Zweck der Indikation bestimmten Statistische Kennwerte. In den Kapiteln 3 und
Klassen zu, klärt ihre Entstehungsgeschichte 4, in denen Grundlagen der Testtheorie be-
und die Bedingungen ihres aktuellen Auftre- handelt werden, benutzen wir für statistische
tens, gibt Empfehlungen für den Therapiever- Kennwerte eine ausführliche Notation, schrei-
lauf, begleitet diesen und liefert schließlichben also z. B. Kor(X,Y ) für die Korrelatio-
Information über den Behandlungserfolg. nen zweier Variablen X und Y . Wir denken,
dass dies die Darstellung leichter nachvollzieh-
Im Zentrum gesundheitspsychologischer Dia-
bar macht. Die folgende Aufstellung zeigt die
gnostik stehen demgegenüber Persönlichkeits-
wichtigsten Abkürzungen und gängige Alter-
merkmale, Kognitionen und Verhaltensweisen,
nativen.
die sich auf den physischen Gesundheitsstatus
bzw. körperliche Erkrankungen beziehen. Dia- Erwartungswert: Erw(X), MX
gnostisch interessieren hier etwa Kognitionen Varianz: Var(X), s2X
über Gesundheit und Krankheit, Lebensstile, Standardabweichung: Std(X), SD , s
X X
Gesundheitspraktiken und Gesundheitsverhal-
Kovarianz: Cov(X,Y ), sXY
ten, relevante Persönlichkeitsmerkmale (z. B.
Typ A), psychische Prozesse während Erkran- Korrelation: Kor(X,Y ), rXY
kung, Erholung und Rehabilitation sowie die Geschlechtsbezogener Sprachgebrauch. Um
Nutzung von Gesundheitsinformationen und den Text einfacher lesbar zu halten, verzichten
-diensten. wir darauf, weibliche und männliche Person-
Im abschließenden I Kap. 16 werden Verfah- bezeichnungen zu benutzen. Statt dessen ver-
ren behandelt, die für pädagogische und er- wenden wir durchgängig die männliche Form,
ziehungspsychologische Fragen relevant sind. die hier generisch gemeint ist.
Wir konzentrieren uns dabei auf die Bereiche
des schulischen Lernens und der familialen Er-
ziehung. Behandelt werden die Diagnostik in- Danksagung
dividueller Merkmale, die für schulisches Ler-
nen bedeutsam sind, die Erfassung von Lern-
Die Autoren haben vielen für ihren Beitrag zur
resultaten sowie die Feststellung von Umwelt-
Fertigstellung des Buches zu danken. Oliver
und Systemmerkmalen (z. B. Beziehungen un-
Daum, Boris Egloff, Johannes Heer, Simone
ter den Schülern). Schließlich werden Metho-
Henn, Volker Hodapp, Carl-Walter Kohlmann,
den zur Beschreibung des Erziehungsverhal-
Lothar Laux, Jan Hendrik Peters, Andrea Retz-
tens und der Beziehungen unter den Mitglie-
bach, Paul Schaffner, Stefan Schmukle, An-
dern einer Familie an Beispielen illustriert.
dreas Schwerdtfeger und Natalie Steinbrecher
haben zu einzelnen Kapiteln kritische Rück-
meldungen und wichtige Anregungen gegeben.
Hinweise zum Lesen des Buches An der technischen Bearbeitung des Textes ha-
ben Sabine Otte und Viktoria Staab wesentlich
Dezimalpunkt. In der psychologischen Litera-
mitgewirkt. Ihnen allen sei an dieser Stelle
tur ist es üblich, für die Kennzeichnung der
herzlich gedankt.
Dezimalstelle einer Zahl einen Punkt (kein
Komma) zu verwenden. Außerdem wird bei
Kennwerten, die nur zwischen −1 und +1 va- Mainz und Bamberg, im Februar 2015
riieren können (z. B. Korrelation), die führen-
de Null häufig weggelassen. Diese Konventio- Heinz Walter Krohne
nen behalten wir hier bei. Michael Hock

XVII
I Allgemeine Grundlagen
1 Definition der Psychologischen Diagnostik

1.1 Merkmale der Diagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3


1.2 Beziehungen zu anderen Feldern der Psychologie . . . . . . . . . . . . . . . 6
1.3 Objekte und Sachverhalte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1 Merkmale der Diagnostik passenden Schulzweigs zu beraten, gesund-


heitsrelevante Einstellungen einer Person zu
erheben, um evtl. ein Programm zur Modifi-
Psychologische Diagnostik ist eine Methoden- kation ungünstiger Einstellungen einzuleiten,
lehre innerhalb der Psychologie, bildet damit oder zu bestimmen, ob bei einem Klienten
also einen Bereich z. B. mit der Statistik oder eine behandlungsbedürftige Ausprägung von
der Versuchsplanung. Anders als diese beiden Depression vorliegt (I Kap. 13).
Disziplinen stellt sie jedoch primär ein System
von Verfahrensweisen im Dienste der Ange- Diagnostizieren als eine von der alltäglich ab-
wandten Psychologie dar. Neben dieser pri- laufenden Menschenbeurteilung abgehobene
mären Funktion erfüllt Diagnostik aber auch wissenschaftliche Tätigkeit ist Qualitätskrite-
Aufgaben für die Grundlagendisziplinen der rien unterworfen, insbesondere auch dem der
Psychologie, insbesondere die Differentielle Objektivität (I Kap. 3). Diese wissenschaftli-
Psychologie. che Tätigkeit hat sich herausgebildet, als Per-
sonen, die wichtige Entscheidungen hinsicht-
Beim psychologischen Diagnostizieren geht lich anderer Menschen zu treffen hatten, er-
es damit also nicht, wie der psychologische kannten, dass die von der Praxis geforderten
Laie vielleicht meinen könnte, um das Erken- Urteile ohne die Zuhilfenahme diagnostischer
nen des „Wesens“ eines Menschen, sondern Verfahren, also quasi nur mit dem „unbewaff-
um das Erfüllen eines praktischen (und damit neten Blick des Menschenkenners“ (Hörmann,
eingegrenzten Auftrags). Tatsächlich ist Dia- 1964), weder mit der erforderlichen Zuverläs-
gnostizieren nicht primär ein Erkenntnisvor- sigkeit noch mit der notwendigen Differen-
gang (im Alltagsverständnis dieses Begriffs), ziertheit abgegeben werden konnten. Diagnos-
sondern, wie wir noch genauer zeigen wer- tik als Wissenschaft etablierte sich, als man
den (I Kap. 6 und 7), ein Handlungs- und begann, diagnostische Aussagen an der Reali-
Entscheidungsprozess (Hörmann, 1964; Ka- tät zu überprüfen.
minski, 1970). In einen Entscheidungsprozess
mündende Aufträge könnten etwa darin be- Der Einsatz diagnostischer Verfahren zur Lö-
stehen, unter mehreren Bewerbern den für ei- sung praktischer Probleme hat eine lange Tra-
ne bestimmte Position geeignetsten herauszu- dition. Auf diese Vorgeschichte der Diagnos-
finden, Eltern hinsichtlich des für ihr Kind tik wird im nächsten Kapitel näher eingegan-

3
1 Definition der Psychologischen Diagnostik

gen. Was die Entwicklung der wissenschaftli- der Diagnostik lassen sich, wie schon ange-
chen Diagnostik betrifft, so hatte der Wundt- deutet, in den vielen Praxisfeldern der Ange-
Schüler James McKeen Cattell am Ende des wandten Psychologie finden, etwa in der Kli-
19. Jahrhunderts nicht nur den Begriff „mental nischen Psychologie, der Gesundheitspsycho-
test“ geprägt, sondern auch, basierend auf ex- logie, der Forensischen Psychologie oder der
perimentellen Studien, ein Paradigma für die Organisations-, Arbeits- oder Schulpsycholo-
Entwicklung der Psychologischen Diagnostik gie.
vorgestellt (Cattell, 1890):
Zur Erreichung der genannten Zielsetzung ste-
hen der Diagnostik verschiedene Methoden of-
Die Bestimmung der individuellen psychi- fen: Alle Methoden implizieren eine Interpre-
schen Eigenart durch exakte Beobachtung tation, oder genauer: den Schluss von einem
und Messung interindividueller Differen- Index auf etwas Indiziertes. Hiermit ist ge-
zen in psychologischen Merkmalen. meint, dass von einem begrenzten manifesten
Kennzeichen (dem Index) auf ein umfassende-
Diese Begründung der Diagnostik in der Dif- res latentes Merkmal (das Indizierte) geschlos-
ferentiellen Psychologie war bis in die zwei- sen wird. Man bezeichnet diesen Schluss als
te Hälfte des 20. Jahrhunderts unangefochten den diagnostischen Schluss.
und wurde erst in den 1970er Jahren in Frage
Die Idee des Schließens impliziert, dass beim
gestellt, und zwar zunächst durch die Klini-
psychologischen Diagnostizieren über die un-
sche Psychologie mit ihrer zentralen Aufgabe
mittelbar verfügbare Information hinausge-
der Messung intraindividueller Veränderungen
gangen wird (Hörmann, 1964). Damit kom-
als Folge von Interventionen (vgl. u. a. Cron-
men wir zu einem weiteren Merkmal der tra-
bach & Furby, 1970; Schulte, 1976). Solange
ditionellen Diagnostik: Aufgrund eines rela-
die Diagnostik ausschließlich in der Differen-
tiv kleinen Verhaltensausschnitts, einer Ver-
tiellen Psychologie fundiert war, konnte sie
haltensstichprobe (das können verbale oder
nur eine Art praktischer Fragen beantworten:
motorische Reaktionen wie auch physiologi-
„Worin und in welchem Grad unterscheidet
sche Daten sein), wird auf das umfassendere
sich dieser Mensch von anderen?“ (Hörmann,
Verhalten oder Befinden (z. B. die momenta-
1964). Die traditionelle, in der Differentiel-
ne Zustandsangst) bzw. auf grundlegendere
len Psychologie fundierte, Diagnostik befasste
Eigenschaften (z. B. den Grad der Ängstlich-
sich also mit der Feststellung der individuellen
keit) einer Person rückgeschlossen. Hieraus
Eigenart von Personen bezüglich bestimmter
wird deutlich, dass die Güte eines diagnosti-
Merkmale.
schen Schlusses immer auch ein Stichproben-
Diese Bestimmung beruht auf der Vorausset- problem ist.
zung, dass sich Menschen habituell unterschei-
Wir können somit anhand der bisher genann-
den, und dass diese Unterschiede feststellbar
ten Merkmale die traditionelle Diagnostik,
sind. Die theoretische und empirische Siche-
wie sie bis vor wenigen Jahrzehnten fast aus-
rung dieser Voraussetzung ist jedoch nicht
schließlich betrieben wurde, wie folgt bestim-
Problem der Diagnostik, sondern Gegenstand
men (Hörmann, 1964, S. 8):
der Differentiellen Psychologie und Persön-
lichkeitsforschung. Ziel der traditionellen Dia-
gnostik war es dagegen immer, ganz praktisch Diagnostizieren steht primär im Dienste der
zu erfahren, worin und in welchem Ausmaß Angewandten Psychologie, ist aber auch
sich ein bestimmter Mensch von anderen unter- ein Forschungsmittel der Differentiellen
scheidet. Beispiele für derartige Zielsetzungen Psychologie. Es richtet sich auf Unterschie-

4
1.1 Merkmale der Diagnostik

de zwischen Menschen und involviert ein Menschen (also über den sog. „Status“ von
Hinausgehen über die unmittelbar gegebe- Individuen) zu erfahren, sondern auch Verän-
ne Information. derungen an einem Individuum über die Zeit
(z. B. als Konsequenz einer Therapie) reliabel
Diese Merkmale haben die Methodenentwick- und valide zu messen (I Kap. 15). Von der
lung in der Psychologischen Diagnostik we- Organisationspsychologie wurde besonders
sentlich bestimmt. Der Methodenentwicklung der Entscheidungscharakter des Diagnostizie-
lag dabei der generelle Anspruch zugrunde, rens (etwa bei der Personalauswahl) betont
systematische interindividuelle Differenzen in (I Kap. 14). Diagnostische Verfahren dürfen
möglichst vielen Verhaltensbereichen immer hiernach nicht nur im Hinblick auf eine mög-
genauer metrisch zu beschreiben (I Kap. 3 lichst hohe Reliabilität und Validität optimiert
und 4). Im Einzelnen wurden anhand der ge- werden, sondern müssen auch hinsichtlich des,
nannten Merkmale drei diagnostische Leitzie- nicht in diesen beiden Testgütekriterien auf-
le für die Methodenentwicklung innerhalb der gehenden, Kriteriums der Entscheidungsgüte
traditionellen Diagnostik formuliert (Pawlik, ausgewiesen sein (Cronbach & Gleser, 1965;
1988, S. 148): I Kap. 6). Dieser erweiterte Anspruch an die
Diagnostik hat zur Formulierung dreier alter-
1. Das Eigenschaftsmodell: Diagnostik ist auf
nativer Leitziele des Diagnostizierens geführt
(manifeste oder latente) Merkmale gerichtet,
(Pawlik, 1988, S. 148):
in denen sich systematische interindividuel-
le Unterschiede im Erleben oder Verhalten 1. Das Modifikationsmodell: Diagnostik ist
abbilden. Diese Unterschiede sollen relativ auf (manifeste oder latente) Variablen ge-
zeit- und situationsstabil sein. Pawlik (1976) richtet, die mit der Indikation (d. h. Ange-
nennt diese Zielsetzung Statusdiagnostik. messenheit) und Evaluation (Effizienz) mo-
2. Die Varianzausschöpfung: Eine diagnosti- difikatorischer Interventionen im Einzelfall
sche Variable ist unter sonst gleichen Be- zusammenhängen. Pawlik (1976) nennt die-
dingungen praktisch um so brauchbarer, se Zielsetzung Prozessdiagnostik.
je mehr interindividuelle Varianz sie aus- 2. Die Entscheidungsrelevanz: Eine diagnosti-
schöpft und je größer ihre Kovarianz mit sche Variable ist unter sonst gleichen Bedin-
interessierenden Kriterien ist. Dies ist die gungen um so brauchbarer, je nützlicher sie
dem Reliabilitäts- und Validitätskonzept der für Indikations- und Evaluationsentschei-
Klassischen Testtheorie zugrunde liegende dungen im Rahmen psychologischer Inter-
Idee (I Kap. 3). ventionen ist.
3. Das Stichprobenmodell: Zur Konstrukti- 3. Das Ausschöpfungsmodell: Die Erstellung
on eines diagnostischen Verfahrens wird einer Stichprobe von Items zur Konstruk-
eine Stichprobe von Verhaltenselementen tion eines diagnostischen Verfahrens muss
(Items) erstellt, um die interessierende Ge- darauf zielen, das Universum von Merkma-
samtheit individueller Verhaltensweisen re- len auszuschöpfen, in denen sich der Inter-
präsentativ abzubilden. ventionsbedarf eines Individuums und das
Die Kritik an den Leitzielen der traditionel- Interventionsziel abbilden.
len Diagnostik wurde insbesondere von zwei Die Spannweite des modernen Diagnostizie-
Seiten vorgetragen, von der Klinischen Psy- rens lässt sich damit anhand dieser drei alter-
chologie und der Organisationspsychologie. nativen Leitziele bestimmen:
Von Seiten der Klinischen Psychologie wurde
auf die praktische Notwendigkeit hingewiesen, • Eigenschaftsmodell vs. Modifikationsmo-
nicht nur etwas über Unterschiede zwischen dell,

5
1 Definition der Psychologischen Diagnostik

• Varianzausschöpfung vs. Entscheidungsre- Psychologie haben demgegenüber die Voraus-


levanz, setzungen für eine eher am Modifikationsmo-
• Stichprobenmodell vs. Ausschöpfungsmo- dell orientierte Diagnostik geschaffen. Pawlik
dell. (1988) nennt diese Fragestellungen und An-
wendungen prozessbezogen bzw. systemanaly-
Aus der Ortsbestimmung der traditionellen
tisch.
wie auch aus den Leitzielen der modernen Dia-
gnostik haben wir gesehen, dass die Entwick-
lung in der Psychologischen Diagnostik eng
zusammenhängt mit der Entwicklung in ande- 1.2 Beziehungen zu anderen
ren Bereichen der Psychologie. So haben, wie Feldern der Psychologie
erwähnt, Veränderungen der Aufgabenstellun-
gen in den verschiedenen Feldern der Ange-
Die Beziehungen zwischen der Diagnostik
wandten Psychologie die Diagnostik immer
und den Feldern der Allgemeinen, der Diffe-
wieder zur Entwicklung neuer methodischer
rentiellen und der Angewandten Psychologie
Ansätze veranlasst. Theoriebildung und empi-
sind im Sinne einer reziproken Beeinflussung
rische Ergebnisse der Differentiellen Psycho-
zu sehen. Der Fortschritt in jedem dieser Be-
logie und Persönlichkeitsforschung wiederum
reiche hängt auch von den Fortschritten der
lieferten zunächst die wissenschaftlichen Vor-
Konzeptbildung in den anderen Feldern ab.
aussetzungen für eine am Eigenschaftsmodell
So ist beispielsweise der Fortschritt der Dif-
ausgerichtete diagnostische Tätigkeit (Cattell,
ferentiellen Psychologie und Persönlichkeits-
1950; Eysenck, 1947).
forschung (etwa fort vom reinen Eigenschafts-
In den letzten Jahrzehnten wurden diese eigen- modell hin zu interaktionistischen Modellen)
schaftszentrierten Ansätze durch Modelle der auch mit determiniert worden von veränderten
sog. Person x Situations-Interaktion ergänzt Fragestellungen der Praxis und von den jewei-
(siehe u. a. Endler & Magnusson, 1976). Die- ligen Methoden, die die Diagnostik zu deren
se Ansätze haben eine systematische Unter- Beantwortung entwickelt hat.
scheidung von relativ zeitstabilen Eigenschaf-
Psychologische Diagnostik kann in ihren
ten (Traits) und zeitlich eher variablen Zu-
Grundannahmen (z. B. den Annahmen der
ständen (States) eingeführt und teststatistische
Klassischen Testtheorie; I Kap. 3) also nicht
Verfahren zur separaten Bestimmung stabiler
verstanden werden, wenn man nicht auch et-
bzw. variabler Merkmale entwickelt (Steyer,
was über die Grundannahmen der anderen ge-
Schmitt & Eid, 1999). Im Rahmen dieser inter-
nannten Bereiche weiß. Wir wollen uns des-
aktiven Betrachtung erhob sich dann auch die
halb unter diesem Aspekt zunächst einige zen-
Forderung, Parameter zu bestimmen und dia-
trale Annahmen der Angewandten Psycholo-
gnostisch umzusetzen, auf denen Situationen
gie anschauen.
variieren, die Veränderungen von Zuständen
beeinflussen. Ein in diesem Zusammenhang Angewandte Psychologie ist über weite Stre-
häufig untersuchtes Merkmal ist der Stress- cken gleichbedeutend mit dem Bemühen um
gehalt einer Situation (etwa im Hinblick auf eine Optimierung praktischer Problemlösun-
die Auslösung emotionaler Erregung). Pawlik gen im Hinblick auf psychologische Kriterien
(1988) spricht bei einer am Eigenschaftsmo- für die Angemessenheit derartiger Lösungen
dell orientierten Diagnostik von strukturbe- (Pawlik, 1976). Psychologische Kriterien der
zogenen bzw. psychometrischen Fragestellun- Lösungsangemessenheit wären beispielswei-
gen und Anwendungen. Theoretische Konzep- se psychische Gesundheit, sicheres Verkehrs-
te und empirische Befunde der Allgemeinen verhalten, schulische und berufliche Leistung

6
1.2 Beziehungen zu anderen Feldern der Psychologie

Tab. 1.1 Formen praktischer Intervention

Interventionsstrategie
Interventionsrichtung Auswahl Modifikation
Person Personenauswahl Verhaltensmodifikation
Situation Bedingungsauswahl Bedingungsmodifikation

oder Arbeitszufriedenheit. (Ein nichtpsycholo- oder nicht. Beispiele hierfür wären die Per-
gisches Kriterium für eine praktische Problem- sonalauswahl oder die pädagogische Selek-
lösung wäre dagegen beispielsweise die Errei- tion in Form einer Aufnahmeprüfung.
chung bestimmter ökonomischer Vorgaben bei 2. Bedingungsauswahl: Hier sind Personen
betrieblichen Rationalisierungsmaßnahmen.) vorgegeben, z. B. Schulabgänger, und es
wird für jede Person nach der geeigneten
Die angewandt-psychologischen Aufgaben- Bedingung im Hinblick auf ein Optimie-
stellungen unterscheiden sich u. a. nach der rungskriterium, z. B. beruflichen Erfolg, ge-
Strategie, über die jeweils eine Optimierung sucht. Beispiele hierfür wären die Berufs-
der Problemlösung bzw. eine Entscheidungs- beratung oder die Beratung hinsichtlich der
optimierung angestrebt wird. Da praktisches Kurswahl in der gymnasialen Oberstufe.
Handeln immer auch Eingreifen bedeutet,
spricht man hier von Interventionsstrategien. Bei einer Modifikationsstrategie wird die Opti-
mierung gesucht durch Veränderung des Erle-
Die verschiedenen Strategien lassen sich auf bens und Verhaltens oder der Bedingungen.
einem Kontinuum von der reinen Auswahl- Ziel ist hier also die Veränderung im Hin-
zur reinen Modifikationsstrategie anordnen. blick auf das gewählte Optimierungskriterium
Derartige Strategien können sich entweder auf (z. B. berufliche Leistung). Auch hier lassen
Personen beziehen, unter denen ausgewählt sich wieder je nach Implementierungsrichtung
bzw. die verändert werden sollen, oder auf Be- zwei Formen unterscheiden:
dingungen, denen diese Personen ausgesetzt 1. Verhaltensmodifikation: Hier wird die Op-
sind (I Tab. 1.1). timierung durch Veränderungen an der Per-
son gesucht, etwa indem man sie einem Aus-
Bei einer Auswahlstrategie wird die Optimie-
bildungsprogramm oder einer Psychothera-
rung gesucht durch Selektion von geeigneten
pie unterzieht.
Personen oder Bedingungen. Ziel ist es, für
2. Bedingungsmodifikation: Hier wird eine
jede Person jene Bedingung zu finden (z. B.
Optimierung durch Veränderungen der Be-
einen bestimmten Arbeitsplatz), in der das
dingungen, denen eine Person ausgesetzt ist,
gewählte Optimierungskriterium (z. B. beruf-
angestrebt, etwa indem der Arbeitsplatz neu
liche Leistung) den für sie höchstmöglichen
gestaltet oder neue didaktische Maßnahmen
Wert erreicht. Mit Pawlik (1976) lassen sich
und Materialien entwickelt werden.
nach der Richtung der Implementierung von
Auswahlstrategien zwei Formen unterschei- In der Praxis kommen reine Auswahl- oder
den: Modifikationsstrategien nur selten vor, in der
Regel finden wir vielmehr Mischstrategien.
1. Personenauswahl: Hier sind Bedingungen So werden z. B. häufig Personen nach einem
vorgegeben, z. B. das Qualifikationsmerk- bestimmten Auswahlkriterium platziert, dann
mal, und die Personen werden danach aus- jedoch einem individuell angepassten Schu-
gewählt, ob sie der Bedingung entsprechen lungsprogramm unterzogen.

7
1 Definition der Psychologischen Diagnostik

Beide Strategieformen gehen von impliziten len. Eine solche Annahme war für die genann-
Annahmen über die Natur des Problems aus, ten praktischen Aufgaben auch notwendig, da
für das die Lösungsoptimierung gesucht wird eine Auswahl von Personen im Hinblick auf
(Pawlik 1976). Für Auswahlstrategien wird ein Optimierungskriterium natürlich nur an-
vorausgesetzt, dass die geeigneten Personen hand relativ zeitstabiler Merkmale sinnvoll ist.
bzw. die geeigneten Bedingungen, denen die
vorgegebenen Bedingungen bzw. Personen zu- Theoretische Voraussetzungen für die Annah-
geordnet werden sollen, bereits vorliegen. Es me der Stabilität von Persönlichkeitsmerkma-
geht also nur noch um die Zuordnung. Deshalb len wurden in der traditionellen Persönlich-
ist hier auch nur der Einsatz geeigneter dia- keitsforschung bzw. Differentiellen Psycho-
gnostischer Verfahren gefordert. Für Modifi- logie geschaffen. Deren Grundannahme war,
kationsstrategien wird vorausgesetzt, dass die dass interindividuelle Unterschiede im Verhal-
Methoden der Verhaltens- bzw. Bedingungs- ten und Erleben auf eine begrenzte Anzahl von
modifikation für alle behandelten Personen zeitlich stabilen, latenten Variablen, die Per-
bzw. Bedingungen die jeweils bestmögliche sönlichkeitseigenschaften, zurückgehen, z. B.
Lösung liefern. So wird etwa erwartet, dass Intelligenzfaktoren (I Kap. 12), Persönlich-
nach Abschluss einer bestimmten Therapie je- keitsdimensionen, Motive (I Kap. 10) usw.
de behandelte Person weniger Angst hat. Der- Diese Grundannahme fand ihre Umsetzung in
artige Interventionen setzen also sowohl den der Entwicklung sehr einflussreicher Struktur-
Einsatz diagnostischer Verfahren (für die Indi- theorien der Persönlichkeit, wie sie etwa von
kationsstellung, die Überprüfung des Modifi- Cattell, Guilford, Thurstone, Eysenck oder in
kationsverlaufs und die Evaluation des Modi- neuerer Zeit mit dem Fünf-Faktoren-Modell
fikationserfolgs) als auch von Techniken der vorgelegt wurden (für Übersichten vgl. u. a.
Modifikation voraus. Stemmler, Hagemann, Amelang & Bartussek,
2011; I Kap. 10 und 12).
Wenn man einmal analysiert, wie sich die Ent-
wicklung in der Diagnostik auf die in der Diese strukturanalytischen Grundannahmen
Angewandten Psychologie bezieht, so stellt der traditionellen Persönlichkeitsforschung
man fest, dass zunächst praktische Aufgaben waren Ausgangspunkt der Kriterien der Klas-
der Auswahl und damit des Einsatzes entspre- sischen Testtheorie (I Kap. 3). Für das Kri-
chender diagnostischer Verfahren vorherrsch- terium der Reliabilität (Zuverlässigkeit) las-
ten. So gingen die auf den Arbeiten Binets sen sich alle Koeffizienten, die auf dem Kon-
beruhende Intelligenzdiagnostik ebenso wie zept der Paralleltestung aufbauen (also Trenn-
die frühe Persönlichkeitsdiagnostik von prak- schärfe, interne Konsistenz, Split-half- oder
tischen Auswahlproblemen aus (I Kap. 2). Paralleltest-Reliabilität) auf die Vorstellung
Die Rückwirkungen dieser Aufgabenstellun- der transsituativen (also situationsübergreifen-
gen auf die Diagnostik lagen aber nicht nur den) Konsistenz eigenschaftsbezogenen Ver-
in der Entwicklung bestimmter Testverfahren haltens zurückführen. Das Verhalten in einer
(etwa des Binet-Intelligenztests oder einzel- Situation (auf ein Item hin) sollte ebenso Indi-
ner Fragebogen), sondern auch in der Her- kator eines latenten Persönlichkeitsmerkmals
ausarbeitung zentraler Bestimmungsstücke ei- (z. B. Ängstlichkeit) sein, wie das Verhalten
ner Diagnostiktheorie. Die Gütekriterien der auf eine andere Situation (ein weiteres Item)
Klassischen Testtheorie, z. B. das der Stabi- hin. Demgegenüber basiert das Konzept der
lität (I Kap. 3), gehen von einem statischen Retest-Reliabilität auf der Vorstellung der zeit-
Eigenschaftsbegriff aus, d. h. von der relativen lichen Stabilität eigenschaftsbezogenen Ver-
Dauerhaftigkeit von Persönlichkeitsmerkma- haltens.

8
1.2 Beziehungen zu anderen Feldern der Psychologie

Für die Bestimmung der Validität (Gültigkeit) spielsweise das Stressbewältigungsverhalten


gingen die meisten Verfahren sowohl von Vor- eines prüfungsängstlichen Studenten verän-
stellungen der transsituativen als auch der tran- dert werden soll, so muss man wissen, über
stemporalen Konsistenz des Verhaltens aus. welches Repertoire von Verhaltensstrategien
Die Validität eines Verfahrens wird in der Re- und -akten ein Mensch verfügen muss, um mit
gel über das Eintreffen einer Vorhersage be- einer Prüfungssituation relativ angstfrei um-
stimmt. Entsprechend galt lange Zeit der Satz gehen zu können. Eine derartige Zielsetzung
„jede Diagnose ist eine Prognose“. Es wur- erfordert eine verstärkte Hinwendung zu allge-
de also erwartet, dass ein Merkmal nicht nur meinpsychologischen Konzepten.
zeitlich stabil ist, sondern sich auch in unter-
Eine Fundierung der Diagnostik in der All-
schiedlichen Situationen manifestiert, da die
gemeinen Psychologie wurde vor allem im
Diagnose- bzw. Prognosesituation ja in der
Hinblick auf den Bereich des Problemlösens
Regel nicht identisch ist mit der Kriteriumssi-
gefordert (Spada & Reimann, 1988). Dieser
tuation. So ist z. B. die Situation der Diagno-
Ansatz stützt sich auf Prozessmodelle von
se der Berufseignung im Allgemeinen nicht
Denkvorgängen (d. h. auf Modelle der Infor-
identisch mit Situationen, in denen sich diese
mationsverarbeitung; vgl. u. a. Dörner, 1987)
Eignung dann tatsächlich manifestieren soll.
und könnte für die Diagnose von Fähigkei-
In jüngster Zeit sind jedoch, wie bereits an- ten eine Alternative, zumindest aber eine Er-
gedeutet, aus der Angewandten Psychologie gänzung, zu den klassischen strukturanaly-
Aufgaben an die Diagnostik herangetragen tisch orientierten Verfahren der Intelligenz-
worden, die stärker von Problemen der Mo- diagnostik bilden (I Kap. 12). Ein in dieser
difikation ausgehen. Derartige Interventionen Hinsicht wichtiges neueres Intelligenzmodell
erfordern andersartige grundwissenschaftliche stellt die Komponenten-Subtheorie im Rah-
Fundierungen als Selektionsaufgaben. Neben men der triarchischen Intelligenztheorie Stern-
Veränderungen im Bereich persönlichkeitspsy- bergs (1984, 1998) dar. Auch für die Erfassung
chologischer Konzepte, fort von rein eigen- der Veränderung psychischer Probleme (etwa
schaftszentrierten Vorstellungen hin zu Model- als Folge einer Therapie) ist eine Fundierung
len, die Wechselwirkungen (auch reziproker in allgemeinpsychologischen Konzepten ge-
Natur) zwischen Person und Situation themati- fordert, hier insbesondere in Ansätzen aus den
sieren, wird hier zusätzlich eine allgemeinpsy- Bereichen der Emotionspsychologie (z. B. bei
chologisch fundierte Diagnostik gefordert. Für der Erfassung von Veränderungen der emotio-
den Bereich der Diagnostiktheorie folgt dar- nalen Erregung bei der Konfrontation mit be-
aus die Notwendigkeit, die mit der Erfassung stimmten Stressoren; Krohne, 2010) und der
von Veränderungen verbundenen besonderen Kognitionsforschung (etwa für die Verände-
Messprobleme zu lösen (Rost, 2004). rung von Gedankeninhalten und -prozessen
als Konsequenz einer kognitiv orientierten De-
Anders als bei der am persönlichkeitspsy-
pressionstherapie; I Kap. 15).
chologischen Eigenschaftsmodell und an der
praktisch-psychologischen Aufgabe der Aus- In stärkerem Maße als bei den eher statisch
wahl orientierten Strukturanalyse geht es bei ausgerichteten Strukturanalysen ergibt sich
der auf die Lösung von Modifikationsproble- aus Prozessanalyse die Forderung, Variatio-
men gerichteten Prozessanalyse des Verhal- nen des Erlebens und Verhaltens nicht nur un-
tens darum, Elemente, sog. „Prozesskompo- ter testmäßig standardisierten Bedingungen,
nenten“, zu ermitteln, die für das Zustande- sondern in alltäglichen, sog. „natürlichen“ Le-
kommen eines bestimmten aktuellen Verhal- benssituationen zu untersuchen („Ambulantes
tens kritisch sind (Pawlik, 1988). Wenn bei- Assessment“; Fahrenberg, Myrtek, Pawlik &

9
1 Definition der Psychologischen Diagnostik

Tab. 1.2 Objekte und Sachverhalte des Diagnostizierens

Sachverhalte
Objekte Stabile Merkmale Zustände Veränderungen
Individuen 1 4 7
Gruppen 2 5 8
Situationen 3 6 9
Anmerkung. 1, 2, ... Beispiele siehe Text.

Perrez, 2007). Hier müssten also die traditio-für aktuelle Prozesse bei Gruppen und sozialen
nellen allgemein- und persönlichkeitspsycho- Systemen ist die Analyse der Kommunikation
logischen Vorstellungen, die ja weitgehend aufzwischen Vorgesetzten und Mitarbeitern in ei-
Ergebnissen der Laborforschung beruhen, um ner Organisation. (6) Auf Situationen bezogen
eine ökopsychologische Perspektive erweitert könnte hier etwa die Analyse von Stressoren
werden (Kaminski, 1988). am Arbeitsplatz, z. B. Lärm, von Interesse sein.
Die Registrierung von Veränderungen zeitlich
länger erstreckter Merkmale spielt überall dort
1.3 Objekte und Sachverhalte eine Rolle, wo Programme zur Modifikation
dieser Merkmale eingesetzt werden, also et-
wa (7) im Rahmen der Psychotherapie, (8) der
Objekt diagnostischer Intervention ist in der
Organisationsentwicklung, z. B. Erhöhung der
Mehrzahl der Fälle die Einzelperson. Aller-
Arbeitszufriedenheit, oder (9) der Beseitigung
dings ist auch die Diagnose von Gruppen und
ungünstiger Arbeitsbedingungen.
sozialen Systemen sowie von Situationen ei-
ne wichtige Aufgabe der Diagnostik. Dies
ist insbesondere bei der arbeits- und organi-
sationspsychologischen sowie der pädagogi- Weiterführende Literatur
schen und Erziehungsdiagnostik offenkundig
(I Kap. 14 und 16). An diesen Objekten kön-
nen stabile Merkmale, Zustände und aktuel- Wichtige Überlegungen zur Ortsbestimmung
le Prozesse sowie Veränderungen zeitlich län- der Psychologischen Diagnostik finden sich in
ger erstreckter Merkmale registriert werden. Hörmann (1964) sowie Pawlik (1976, 1988).
Kreuzklassifiziert man diese beiden Aspekte,
so kommt man zu neun unterschiedlichen Auf-
gabenstellungen (I Tab. 1.2):
Fragen zur Wissenskontrolle
(1) Ein Beispiel für die Registrierung eines sta-
bilen Merkmals am Individuum wäre die Intel-
ligenzdiagnostik. (2) Stabile Beziehungsmerk- 1. Wie lässt sich nach Hörmann (1964) der Ort
male in sozialen Systemen lassen sich etwa in der traditionellen Diagnostik bestimmen?
Familien erheben. (3) Stabile Situationsmerk- 2. Anhand welcher alternativer Leitziele be-
male finden sich etwa am betrieblichen Ar- schreibt Pawlik (1988) die Spannweite der
beitsplatz, aber auch im Klassenraum. (4) Zu- modernen Diagnostik?
stände und aktuelle Prozesse am Individuum 3. Über welche Interventionsstrategien wer-
(z. B. Emotionen) sind besonders für die klini- den in der Psychologie praktische Problem-
sche Diagnostik interessant. (5) Ein Beispiel lösungen angestrebt?

10
1.3 Objekte und Sachverhalte

4. Welche Formen diagnostisch abzusichern-


der Interventionen resultieren, wenn man
Interventionsstrategien entweder auf Perso-
nen oder auf Situationen bezieht?
5. Geben Sie ein Beispiel für die Diagnose
eines stabilen Merkmals in einem sozialen
System.

11
2 Entwicklungslinien des wissenschaftlichen
Diagnostizierens

2.1 Frühe Überlegungen und praktische Lösungen . . . . . . . . . . . . . . . . 12


2.2 Die allgemeine Messung psychischer Merkmale . . . . . . . . . . . . . . . . 14
2.3 Galton und die 1. Periode der Diagnostik . . . . . . . . . . . . . . . . . . . . 15
2.4 Die 2. Periode der Diagnostik: Ebbinghaus, Binet . . . . . . . . . . . . . . . 17
2.5 Der Beginn der Persönlichkeitsdiagnostik . . . . . . . . . . . . . . . . . . . 21

Psychologische Diagnostik erhält ihre Aufga- 2.1 Frühe Überlegungen und


benstellung weitgehend aus der Angewandten praktische Lösungen
Psychologie. Am Anfang der Entwicklung dia-
gnostischer Verfahren steht also das Bemühen
um eine Optimierung praktischer Problemlö- Das erste ausgearbeitete Testprogramm für die
sungen im Hinblick auf psychologische Krite- Aufnahme in den öffentlichen Dienst wie auch
rien der Lösungsangemessenheit. für regelmäßige Leistungskontrollen wurde
in China um das Jahr 300 v. u. Z. eingeführt,
Gewöhnlich wird der Anfang der Psychologi- geht aber auf Vorläufer zurück, die vor etwa
schen Diagnostik in den Testentwicklungen ex- 3000 bis 4000 Jahren entwickelt wurden. Es
perimentell arbeitender Psychologen am Aus- wurde im Laufe der Jahrhunderte mehrmals
gang des 19. Jahrhunderts gesehen, insbeson- modifiziert, blieb aber in seiner Grundstruk-
dere in den Arbeiten von Galton und Ebbing- tur bis zum Jahr 1905 im Gebrauch. Es wur-
haus. Diese Auffassung ist jedoch unzutref- den Leistungsprüfungen vorgenommen, um
fend. Am Beginn der Entwicklung standen Bewerber für gehobene Posten auszuwählen.
praktische Fragen der Eignungsdiagnose. Da- Das Programm bestand aus einem schriftli-
bei ging es darum, das Verhalten in Bewäh- chen Teil, in dem Aufgaben aus den Bereichen
rungssituationen vorherzusagen, für welche Recht, militärische Angelegenheiten, Land-
die im Alltag anfallenden Beobachtungsmög- wirtschaft, Finanzen, Geographie und Litera-
lichkeiten nicht ausreichten. Vor derartigen tur sowie Rechnen gestellt wurden. Ein zwei-
Fragestellungen standen schon die Menschen ter, handlungsbezogener, Teil erhob Verhal-
des Altertums, wobei als Bewährungssituatio- tensstichproben aus den Feldern Reiten, Mu-
nen in erster Linie der militärische Einsatz sizieren und Bogenschießen. Ab dem 7. Jahr-
und die Ausübung eines wichtigen öffentli- hundert unserer Zeit und dann insbesondere
chen Amtes in Frage kamen. während der Song-Dynastie (960–1279) und

12
2.1 Frühe Überlegungen und praktische Lösungen

der Ming-Dynastie (1368–1644) wurde daraus seits angenommen wurde, dass sie zur mili-
ein objektives, mehrstufiges, landesweit durch- tärischen Eignung in Beziehung ständen. Be-
geführtes Selektionsprogramm entwickelt. Die merkenswert ist dabei, dass die diagnostische
Bewerber wurden zunächst lokal in eigens da- Situation nicht identisch war mit der späteren
für eingerichteten Testzentren geprüft. Etwa Bewährungssituation. (Für die Beschreibung
4 % der Kandidaten wurden anschließend in moderner sequenzieller Strategien zur Perso-
die Provinzhauptstadt geschickt und dort Tests nalauslese I Kap. 6 und 14.)
einer höheren Schwierigkeitsstufe unterzogen.
Im antiken Griechenland hatte Plato bereits
Die ca. 5 % besten Kandidaten dieser Stufe
feste Vorstellungen über interindividuelle Dif-
wurden sodann in der Hauptstadt nochmals
ferenzen, wobei er zu deren Registrierung ins-
getestet. Etwa 3 % dieser letzten Stufe wurden
besondere Beobachtungsverfahren vorschlug.
zum öffentlichen Dienst zugelassen.
Aus seinen Überlegungen zog er die prakti-
Den Chinesen war dabei die Notwendigkeit sche Schlussfolgerung, dass sich für bestimm-
einer objektiven Auswertung der Testdaten be- te Berufe nur Menschen mit je spezifischen
reits bewusst. Deshalb wurden alle schriftli- Eigenschaften eignen. In seinem Dialog Poli-
chen Produkte der Kandidaten kopiert und von teia (vom Staat, III. Buch) schlug er deshalb
zwei unabhängigen Beurteilern bewertet. Das ein Testprogramm für eine selektive Zuwei-
chinesische Testsystem wurde im 19. Jahrhun- sung von Menschen zu verschiedenen Funk-
dert von den Engländern für die Auswahl von tionen vor. Als diagnostisches Vorgehen emp-
Mitarbeitern für die East India Company über- fahl er dabei die Verhaltensbeobachtung in
nommen. Von dort wurde es mit Modifikatio- kritischen Situationen, Menschen sollten also
nen ins Heimatland gebracht und führte 1855 in Situationen beobachtet werden, in denen
zur Einführung eines kompetitiven Prüfungs- Merkmale realisiert werden mussten, die für
systems für den öffentlichen Dienst in Groß- eine bestimmte Funktion als wesentlich erach-
britannien. Dieses System diente Deutschen, tet wurden. So sollten Wächter beispielsweise
Franzosen und Amerikanern als Vorbild für in Situationen beobachtet werden, in denen
die Entwicklung ähnlicher Prüfungssysteme Mut, Selbstdisziplin und Unbestechlichkeit re-
(DuBois, 1970). levant sind.
Auch im Alten Testament und in der griechi- Dieses Wissen ist mit dem Untergang der anti-
schen Antike finden sich Hinweise auf eine ken Welt weitgehend verschüttet worden und
elaboriertere Eignungsdiagnostik. So wird im hat deshalb nicht zur Entwicklung einer aus-
Buch der Richter (7. Kapitel, 1–8) eine durch- gearbeiteten Diagnostik geführt. Das christli-
aus modern anmutende sequenzielle Strate- che Mittelalter und hier insbesondere die scho-
gie zur Auswahl geeigneter Krieger aus ei- lastische Tradition kannte kaum die Vorstel-
ner großen Anzahl von Rekruten vorgestellt. lung individueller Differenzen. Die scholas-
Am Anfang der Sequenz stand zunächst ei- tischen Philosophen interessierten nicht Dif-
ne Selbsteinschätzung hinsichtlich Intelligenz ferenzen innerhalb einer Art, sondern, wenn
und Tapferkeit. („Wer blöde und verzagt ist, überhaupt, Unterschiede zwischen den Ar-
der kehre um ...“.) Die verbliebenen Rekru- ten. Diese Unterschiede wurden jedoch teleo-
ten wurden sodann einer Verhaltensbeobach- logisch durch Rückgriff auf einen Schöpfer-
tung in einer definierten Situation hinsichtlich gott erklärt, der die Lebewesen jeder Art für
bestimmter Verhaltensmerkmale unterzogen, die spezifischen Anforderungen ihrer Umwelt
wobei diese Merkmale Aufschluss über Ei- zweckmäßig ausgerüstet haben sollte. In ei-
genschaften wie Selbstbeherrschung und Auf- ner solchen Sichtweise entzieht sich das In-
merksamkeit liefern sollten, von denen ihrer- dividuum weitgehend einer theoretischen wie

13
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

auch diagnostischen Erfassung. Aber selbst 2.2 Die allgemeine Messung


wenn die einzelne Person betrachtet wurde, so psychischer Merkmale
wurde sie weniger als Individuum bestimmt,
sondern nahezu vollständig in Begriffen der
Gruppe beschrieben, der sie angehörte (z. B. Am Anfang der Entwicklung der modernen
Stand, Zunft und natürlich vor allem die kirch- Diagnostik standen jedoch nicht Versuche zur
liche Gemeinde). Erfassung interindividueller Differenzen, son-
Erneut aufgegriffen wurden die Überlegun- dern Bemühungen um die generelle Messung
gen und Erkenntnisse der Antike dann in der psychischer Merkmale. Man suchte also nicht
Renaissance. So gab der spanische Arzt Juan nach Unterschieden zwischen Menschen, son-
Huarte (1520–1598) in seinem Buch „Prüfung dern nach allgemeinen Gesetzmäßigkeiten.
der Köpfe zu den Wissenschaften“ (Huarte, Bahnbrechend ist hier Fechners Werk „Ele-
1575/1968) Eltern Ratschläge für die Studien- mente der Psychophysik“ aus dem Jahr 1860.
und Berufswahl ihrer Söhne, wobei er sich an Aufbauend auf den Arbeiten des Physiologen
der antiken Temperamentenlehre des Hippo- Weber aus dem Jahr 1846, beeinflusst auch
krates orientierte. Eine starke Blüte erlebten durch den Physiologen Johannes Müller und
persönlichkeitspsychologische und diagnosti- den Physiker Helmholtz, zeigte Fechner, wie
sche Betrachtungen dann im 18. Jahrhundert. man seelische Größen messen kann und wie
Als wichtigste Vertreter sind dabei Lavater, sich psychische Größen zu physikalischen ver-
Gall, Tetens und Knigge zu nennen (Lück & halten. Resultat war die bekannte „Fundamen-
Guski-Leinwand, 2014). talformel“, S = k · log R. Die Sinnesempfin-
dung S ist eine logarithmische Funktion der
Während die persönlichkeitspsychologischen Reizstärke R, d. h. nimmt die Reizstärke linear
und diagnostischen Aussagen dieser Autoren zu, so steigt die Empfindung nur analog zum
jedoch stark spekulativ und wissenschaftlich Logarithmus der Reizstärke.
überwiegend unbegründet waren, verdankt die
heutige Idee interindividueller Differenzen ih- Das Aufstellen und empirische Begründen die-
re wissenschaftliche Ausarbeitung den in den ser Formel war insofern eine herausragende
letzten Jahrhunderten aufblühenden Naturwis- wissenschaftliche Leistung, als über der ge-
senschaften. Physik, Mathematik und Physio- samten Psychologie des frühen 19. Jahrhun-
logie lieferten die ersten Messmodelle, die Bio- derts das Verdikt Kants stand, dass Psycholo-
logie, und hier besonders die Evolutionstheo- gie niemals Wissenschaft werden könne, da
rie Charles Darwins (1809–1882), stellte den Wissenschaft Experiment und Messung erfor-
Begriff der Unterschiede zwischen Organis- dere, psychische Vorgänge aber nicht quanti-
men ins Zentrum der Betrachtung. Für den in fizierbar seien (Kant, 1786/1963). Der Wider-
Darwins Evolutionstheorie zentralen Gedan- legung dieser bei Laien auch heute noch po-
ken der Selektion ist die Vorstellung individu- pulären Auffassung war ein wesentlicher Teil
eller Differenzen eine unverzichtbare Voraus- der Arbeiten der Psychologen des 19. Jahrhun-
setzung, da individuelle Differenzen innerhalb derts gewidmet, ausgehend von Herbart über
einer Art das einzige Material darstellen, an Fechner zu Wundt. Sie konnten sich dabei in
dem die Selektion systematisch ansetzen kann. ihren Bemühungen auf den großen Naturwis-
Durch Einführung des Prinzips der Selekti- senschaftler Galilei berufen, der bereits etwa
on kann Darwin die Vielfalt der Arten, ihre 250 Jahre vor ihnen gefordert hatte: „Miss das
Angepasstheit und Entwicklungsfähigkeit oh- Messbare und versuche, das Nicht-Messbare
ne Rückgriff auf einen Schöpfergott erklären messbar zu machen“ (vgl. hierzu auch Hör-
(Merz, 1984). mann, 1964). Entsprechend der physikalischen

14
2.3 Galton und die 1. Periode der Diagnostik

bzw. physiologischen Orientierung von For- Unterschieden. Dementsprechend entwickelte


schern wie Fechner oder Wundt arbeitete man Galton eine Vielzahl psychometrischer Ver-
dabei zunächst mit sehr einfachen Untersu- fahren. Dabei sah er die Psychometrie nur als
chungsparadigmen, insbesondere Reaktions- Spezialfall der von ihm professionell betriebe-
zeitmessungen. nen Anthropometrie an.
Der Idee einer biologischen Fundierung kogni-
tiver Fähigkeiten folgend, verwandte Galton
2.3 Galton und die 1. Periode der sehr elementare Maße zur Bestimmung der In-
Diagnostik telligenz, insbesondere Reaktionszeitmessun-
gen. Darüber hinaus waren für ihn Schärfe und
Unterscheidungsfähigkeit der Sinne ein Indi-
Der Beginn der Erforschung von systemati-
kator kognitiver Fähigkeit. So entwickelte er
schen Unterschieden zwischen Menschen ist
Tests zur Prüfung des Farbsehens, zur Feststel-
in den Arbeiten Francis Galtons (1822–1911)
lung der Diskriminationsfähigkeit im visuel-
in seinem anthropometrischen Laboratorium
len, akustischen und kinästhetischen Bereich,
zu sehen. Galton, ein Verwandter Darwins,
außerdem Gedächtnistests und Fragebogen zur
stand weniger der Physik und Physiologie als
Messung individueller Ausprägungen von Vor-
vielmehr der Biologie nahe und war dabei ins-
stellungsbildern (Galton, 1883). Um die Ergeb-
besondere von der Evolutionstheorie beein-
nisse seiner Messungen weiterzuverarbeiten,
flusst. Entsprechend der zentralen Idee Dar-
entwickelte Galton einen „Index of Correla-
wins, dass es die Unterschiede zwischen Indi-
tion“, der später (1896) von seinem Schüler
viduen sind, die nach dem Prinzip vom „Über-
Karl Pearson zum Korrelationskoeffizienten
leben des Angepasstesten“ die Entwicklung
und zur Regressionsrechnung erweitert wur-
der Arten vorangetrieben haben, interessierte
de. Korrelation und Regression stellen wohl
sich Galton besonders für die Erfassung der
die wichtigsten Erträge dieser frühen Phase
Fähigkeiten des Menschen. 1869 schrieb er
der Differentiellen Psychologie und Diagnos-
sein Buch „Hereditary genius“, das als Beginn
tik dar.
der systematischen Erforschung interindividu-
eller Unterschiede angesehen werden kann. Bereits 1809 hatte Gauß (1777–1855) die ma-
thematische Gleichung für die Normalvertei-
Wie nach seiner biologischen Orientierung zu
lung hergeleitet, d. h. für die Verteilung der
erwarten, ging Galton davon aus, dass Intel-
Messfehler, wenn viele Messungen durchge-
ligenz zu einem hohen Anteil vererbt ist. Zu-
führt werden und der Gegenstand der Messung
gleich, und auch dies wird durch die biologi-
von vielen zufälligen, voneinander unabhängi-
sche Begründung von Fähigkeiten nahegelegt,
gen und additiv wirkenden Faktoren bestimmt
favorisierte er das Konzept der Intelligenz als
ist. Im Jahr 1835 hatte der belgische Mathe-
einer allgemeinen kognitiven Fähigkeit, die
matiker Quételet diese Normalverteilung auf
den Erfolg eines Individuums bei nahezu jeder
biologische Sachverhalte wie Größe oder Kör-
Art kognitiver Aufgaben bestimmt.
pergewicht angewandt. Entsprechend seiner
Galtons Untersuchungen über die Unterschie- Grundannahme, dass psychische Merkmale
de zwischen Menschen hinsichtlich verschie- eine biologische Grundlage haben, nahm Gal-
dener Fähigkeiten dienten dabei der Klärung ton diese Verteilung auch für kognitive Fähig-
der Frage nach den Gesetzmäßigkeiten der keiten an. Dabei konnte er zeigen, dass sich
Vererbung dieser allgemeinen kognitiven Fä- intellektuelle Hochleistungen sowie Spezial-
higkeit. Diese Intention erforderte die Ent- begabungen überzufällig häufig auf bestimmte
wicklung von Methoden zur Erfassung von Familien konzentrieren, was für ihn ein Beleg

15
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

der Vererbbarkeit der Intelligenz war. Galtons hoch untereinander korrelierten, assoziiert wa-
Arbeit ist ein Beispiel für die Entwicklung der ren.
Diagnostik aus einer experimentell betriebe-
nen Differentiellen Psychologie. Er hat dabei Nach Wisslers Studie hat man die von Gal-
dem Experiment in der Psychologie die spezi- ton vorgezeichnete Linie der Entwicklung von
elle Wendung der Testform gegeben. Intelligenztests vielleicht etwas zu früh verlas-
sen. Was Wissler bei seinen Berechnungen
Ähnliche Wege wie Galton ging der Wundt- u. a. nicht berücksichtigt hatte, war die ge-
Schüler James McKeen Cattell, der sich be- ringe Zuverlässigkeit der Mental Tests. Die
reits in seiner Dissertation mit individuellen Möglichkeit, die Zuverlässigkeit von Tests zu
Unterschieden der Reaktionszeit befasste. Er bestimmen, wurde erst 1910 von Spearman
behandelte dabei aber individuelle Differen- geschaffen. Hätte man die Zuverlässigkeit ver-
zen zunächst, ganz im Sinne der Wundtschen bessert, so wären die Korrelationskoeffizienten
Tradition, als Störfaktoren. Später untersuchte für die Mental Tests wahrscheinlich höher aus-
er sie dann systematisch. Er war es auch, der gefallen. Eysenck und Eysenck (1985) haben
1890 das Wort „Mental Test“ einführte. Cat- darüber hinaus Wisslers Studie weitere gravie-
tell schuf, ähnlich wie Galton, Testbatterien, rende methodische Fehler nachgewiesen. So
bestehend aus zehn Einzeltests, die von sog. wurde das individuelle Reaktionszeitmaß nicht
„Physical Tests“ zur Prüfung einfachster Funk- durch Mittelung sehr vieler (etwa 100) Mes-
tionen (z. B. Ermittlung der physischen Kraft sungen gebildet, sondern basierte nur auf drei
mittels eines Dynamometers) bis zur „Mental bis fünf Messungen, war damit also höchst
Tests“ zur Prüfung höherer geistiger Fähigkei- instabil. Ferner wurden die Mental Tests über-
ten reichten (z. B. Reaktionszeiten, Größenbe- haupt nicht mit anderen (damals bereits ansatz-
urteilungen, Reproduktion einer Anzahl von weise vorliegenden) Intelligenztests korreliert,
Buchstaben nach einmaligen Hören). Cattell sondern mit Lehrerurteilen und Zeugnisnoten,
stellte auch als erster die Forderung nach Ver- also eher schwachen Indikatoren kognitiver
gleichbarkeit der Testergebnisse auf, die er Fähigkeiten. Schließlich dienten als Proban-
durch genaue Einhaltung der Untersuchungssi- den nur Studenten einer renommierten ameri-
tuation, also durch Standardisierung, erfüllen kanischen Privatuniversität, was die Varianz
wollte. der einzelnen Intelligenzvariablen natürlich
stark einschränkte.
Mit McKeen Cattell endet die sog. „erste Peri-
ode“ der Testentwicklung (Hylla, 1927). Nach- Eysenck und Eysenck (1985) fragen sich, wie
dem bereits in den 1890er Jahren des 19. Jahr- eine einzige und zudem methodisch fehlerhaf-
hunderts Zweifel an der Brauchbarkeit der te Arbeit eine ganze, bereits über ein Viertel-
„Mental Tests“ zur Erfassung der Intelligenz jahrhundert intensiv betriebene, Forschungs-
geäußert worden waren (Binet & Henri, 1895), richtung ins Abseits stellen konnte. Sie ma-
beendete eine umfassende Korrelationsstudie chen hierfür den insbesondere seinerzeit in den
Wisslers aus dem Jahr 1901 diese Periode. Die- Vereinigten Staaten herrschenden „Zeitgeist“
se Studie zeigte, dass die sog. Mental Tests verantwortlich, der einer biologischen Inter-
nur geringe Interkorrelationen aufwiesen, die pretation individueller Intelligenzunterschiede
Physical Tests zwar gute Interkorrelationen ablehnend gegenüberstand.
zeigten, jedoch nicht mit den Mental Tests kor-
relierten und schließlich die Mental Tests nicht Wenn diese erste Periode auch wenig zur Ent-
mit Außenkriterien der Intelligenz wie Zeug- wicklung brauchbarer Tests beigetragen hat, so
nisnoten und Lehrerbeurteilungen, die aber schuf sie doch wesentliche Voraussetzungen

16
2.4 Die 2. Periode der Diagnostik: Ebbinghaus, Binet

für die systematische Behandlung individuel- Grade der intellektuellen Minderleistung un-
ler Differenzen, insbesondere für die statisti- terschieden. Esquirol differenzierte dabei zwi-
sche Berechnung von Testergebnissen. Dabei schen angeborener Idiotie und erworbener De-
ist besonders Galtons Leistung hervorzuheben, menz. Nach Esquirol (1838) sollten sich die
da er als erster eine Klassifikation der Intelli-
Unterschiede der intellektuellen Minderleis-
genz anhand der Normalverteilung vornahm. tung in einer unterschiedlichen Beherrschung
Nach ihm liegen „Idioten“ soweit unter dem der Sprache manifestieren. Man kann dies als
Durchschnitt der Verteilung wie „Genies“ dar- den Beginn der auch heute noch in der Intelli-
über. Als entscheidende Rechengröße erkann- genzforschung wichtigen Wortschatztests an-
te er dabei die Abweichung eines individuel- sehen. Esquirols Leistung liegt darin, dass er
len Messwertes vom Mittelwert der Verteilung. bereits Gradunterschiede der Intelligenz kann-
Dies bildete die Voraussetzung für die Korre- te und Methoden vorschlug, diese an bestimm-
lationsrechnung und führte direkt zur Entwick- ten Leistungen zu erkennen. Erst ein halb-
lung der Faktorenanalyse durch Charles Spear- es Jahrhundert später wurden ähnliche Ansät-
man (1904). Tatsächlich war es dann Spear- ze in der deutschen Psychiatrie durch Rieger
man, welcher der Diagnostik die spezifisch (1888), Kraepelin (1896) und Ziehen (1897)
mathematisch-statistische Form gab, die wir entwickelt. Ziehen reduzierte dabei die bis
heute als selbstverständlich ansehen. dahin sehr umfangreichen Untersuchungspro-
gramme auf die Erfassung des Gedächtnisses,
der Abstraktion sowie kombinatorischer Fä-
higkeiten. Von ihm wurden auch bereits erste
2.4 Die 2. Periode der Diagnostik: Überlegungen zum Konzept der Trennschär-
Ebbinghaus, Binet fe (I Kap. 3.3.3) von Items angestellt, ohne
dass jedoch Vorschläge für deren Berechnung
gemacht wurden. Immerhin zeigten alle diese
Entwickelte sich die Psychologische Diagnos- Tests eine wesentlich größere Nähe zu prak-
tik der ersten Phase in den Forschungslabors tischen Erfordernissen als die Tests Galtons
der Experimentalpsychologen, d. h. auch in ei- oder McKeen Cattells.
ner relativ großen Ferne zur Problemen des
Anwendungsbereichs, so standen am Beginn Auch Ebbinghaus (1850–1909), Experimen-
der 2. Periode der Diagnostik eher praktische talpsychologe wie Wundt und berühmt gewor-
Problemstellungen, insbesondere aus der Psy- den durch seine Gedächtnisuntersuchungen
chiatrie und der Pädagogik. So wie die Dia- (1885), entwickelte seinen bekannten Intel-
gnostik der 1. Periode in Francis Galton ihre ligenztest, den Lückentest (1897), aus einer
überragende Gestalt besaß, hat die eher prak- praktischen Problemstellung heraus. Er hatte
tisch orientierte Diagnostik der 2. Periode ih- von der Stadt Breslau den Auftrag erhalten,
ren hervorragenden Vertreter in Alfred Binet. zu bestimmen, ob der Vor- oder der Nach-
Auch Binet hatte, ähnlich wie Galton, frühe mittagsunterricht mit einer größeren Ermü-
Vorläufer, insbesondere Psychiater, die sich dung der Schüler verbunden sei. Er führte zur
mit dem Problem der Messung verschiedener Beantwortung dieser Frage u. a. in den ver-
Grade des „Schwachsinns“, also der intellek- schiedenen Stufen des Gymnasiums Gruppen-
tuellen Minderleistung, befassten. Intelligenzuntersuchungen durch mit einer Re-
chenmethode, einer Gedächtnismethode (Zah-
Bereits in der ersten Hälfte des 19. Jahrhun- len reproduzieren) und einer Kombinations-
derts hatten der französische Psychiater Es- methode (dem Lückentest) und registrierte da-
quirol und sein Schüler Séguin verschiedene bei eine deutliche Steigerung der Leistungen

17
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

mit dem Alter sowie eine positive Beziehung Platzierungsaufgabe (I Kap. 1) gegeben, de-
zwischen Test- und Schulleistung. Nach Gal- ren Lösung jedoch nicht den Lehrern überlas-
ton und noch vor Binet waren dies wohl die sen werden sollte. Man strebte einerseits an,
ersten praktisch verwendbaren Tests, die dem dass wirklich nur die sehr gering Leistungsfä-
Problem der Quantifizierung der Intelligenz higen ausgesucht würden, nicht aber auch die
sehr nahe kamen (Groffmann, 1983; vgl. auch „schwierigen“ Schüler, welche die Lehrer gern
Wiersma, 1902). Die Arbeiten hatten einen abgegeben hätten. Andererseits wollte man
direkten Einfluss auf Binet, der verschiedene aber auch möglichst alle schlechten Lerner er-
Ebbinghaus-Aufgaben für seinen Intelligenz- fassen, d. h. auch die Stillen und Unauffälligen
test übernahm. oder die Kinder aus wohlhabenderen Familien.
Ferner wollte man innerhalb der schlechten
Der französische Mediziner und Pädagoge Al- Lerner nochmals diejenigen auslesen, die im
fred Binet (1857–1911) hatte schon relativ Grunde nicht schulfähig waren. Binet erhielt
früh Versuche kritisiert, Intelligenz über die den Auftrag, entsprechende Auswahlmetho-
Messung einfacher sensorischer Funktionen den zu entwickeln. Seine Aufgabe war es da-
zu erfassen (Binet & Henri, 1895). Für ihn bei, eine präzise Klassifikation der Intelligenz,
spielten sich die entscheidenden geistigen Pro- zumindest im unteren Bereich, zu erreichen.
zesse, wie sie für das Problemlösen im All-
tag von Bedeutung sind, z. B. Beurteilen oder Aufbauend auf seinen Vorarbeiten und in Zu-
Schlussfolgern, auf einem höheren Komple- sammenarbeit mit dem Arzt Théophile Simon
xitätsniveau ab als die bislang untersuchten konnte er bereits ein Jahr später einen brauch-
Sinnesfunktionen; entsprechend hatten auch baren Intelligenztest vorlegen (Binet & Simon,
die Intelligenztests komplexer und vielfältiger 1905, 1908). Das Jahr 1905 stellt also mit der
zu sein. Veröffentlichung dieses Tests einen Meilen-
stein in der Entwicklung der Psychologischen
In seinen frühen Forschungen arbeitete er mit Diagnostik dar. Von diesem Test wurde bereits
durch Fremdbeurteilung gebildeten Extrem- sechs Jahre später eine deutsche Version von
gruppen als hoch bzw. niedrig intelligent ein- Bobertag (1911) vorgelegt. Wenige Jahre spä-
geschätzter Kinder und versuchte herauszu- ter wurde der Test von Terman in Stanford
finden, in welchen verschiedenen intellektuel- in den USA überarbeitet, so dass er auch auf
len Bereichen sich diese Gruppenunterschiede normal- und überdurchschnittlich intelligen-
manifestierten. Er fand dabei, dass die ein- te Kinder sowie Erwachsene anwendbar war
fachen Funktionstests in der Tradition Gal- (Terman, 1916). Dieser Stanford-Binet-Test
tons nicht sehr gut zwischen den Gruppen bildete für ein halbes Jahrhundert die Grund-
trennten. Stattdessen erwiesen sich komplexe- lage der Intelligenzdiagnostik. In den Jahren
re („lebensechtere“) Aufgaben wie Rechnen, 1911 und 1912 legte William Stern mehre-
moralische Beurteilung oder Schlussfolgern re Veröffentlichungen vor, in denen er eine
als trennscharf. Systematisierung der Forschungen zur Intelli-
genzmessung und als Maßeinheit der Intelli-
Im Jahr 1904 erhielt Binet die Chance, seine
genz den Intelligenzquotienten (IQ) vorschlug
Forschungen im großen Stil praktisch anzu-
(Stern, 1912; zusammenfassend Stern, 1920).
wenden. Den Schulbehörden war der hohe Pro-
zentsatz langsam oder nicht lernender Schüler Anders als Galton legte Binet seinen Arbeiten
in den Volksschulen aufgefallen. Eine Kom- keine bestimmte Theorie der Intelligenz zu-
mission des französischen Unterrichtsminis- grunde, sondern ging von unbestreitbaren Be-
teriums beschloss deshalb, für diese Schüler obachtungen alltäglichen Problemlösens bei
Sonderschulen einzurichten. Damit war eine Kindern aus. Die zentrale Beobachtung, die

18
2.4 Die 2. Periode der Diagnostik: Ebbinghaus, Binet

Ebbinghaus bereits zuvor empirisch gesichert Obwohl die Anzahl der Aufgaben pro Alters-
hatte, war, dass Kinder mit zunehmendem Al- stufe (noch) nicht gleich war, wurde mit dieser
ter immer schwierigere Aufgaben lösen kön- Anordnung das Intelligenzalter als Maß der
nen und über ein immer größeres Wissen ver- Intelligenz formal eingeführt. Die Altersstu-
fügen. Daraus schloss Binet, dass die Intel- fe, bis zu der alle Aufgaben (mit der Toleranz
ligenzleistung mit dem Alter steigt. Auf in- einer Aufgabe) gelöst wurden, bestimmte das
dividuelle Differenzen bezogen bedeutet die- Grundalter der Intelligenz. Für jeweils fünf zu-
se Beobachtung, dass ein Kind umso intelli- sätzlich gelöste Aufgaben wurde ein weiteres
genter ist, je früher es derartige Problemlöse- Jahr hinzugefügt. Diese noch vergleichswei-
und Wissensaufgaben richtig beantwortet. Die se grobe Einschätzung der Intelligenz wurde
aktuelle kognitive Leistung ist für Binet also dann in einer weiteren Revision (Binet & Si-
durch zwei Größen bestimmt, die individuelle mon, 1911) dadurch verfeinert und formali-
Intelligenz und das Lebensalter. siert, dass pro Altersstufe (außer für die Vier-
jährigen) fünf Aufgaben vorgelegt wurden.
Diese Beobachtungen führten Binet zu der
seinerzeit bahnbrechenden Überlegung, In- Relativ vage blieb Binet bei der Antwort auf
telligenz dadurch messbar zu machen, dass die Frage, wie denn die Altersangemessenheit
verschieden schwierige Aufgaben konstru- einer Aufgabe zu bestimmen sei. (Tatsächlich
iert und nach steigender Schwierigkeit an- wurden einzelne Aufgaben in den verschie-
geordnet werden. Die erste derartige „metri- denen Revisionen auch unterschiedlichen Al-
sche Intelligenzleiter“ (échelle métrique de tersstufen zugeordnet.) Durchgesetzt hat sich
l’intelligence) bestand aus 30 Aufgaben (Bi- schließlich der Vorschlag Bobertags (1911),
net & Simon, 1905). Indem bestimmt werden eine Aufgabe als altersgemäß zu definieren,
konnte, welcher Schwierigkeitsgrad von jeder wenn sie von 75 % der betreffenden Alters-
Altersgruppe im Durchschnitt gemeistert wird, gruppe gelöst wurde. Eine empirische Bestim-
ließ sich für einzelne Kinder feststellen, ob mung der Altersangemessenheit leitet sich na-
diese das Durchschnittsniveau ihrer Altersge- türlich aus einem Vergleich von Intelligenz-
nossen übertreffen (also überdurchschnittlich und Lebensalter ab. Über eine größere Zufalls-
intelligent sind), diesem Niveau entsprechen stichprobe von Kindern müssen beide Werte
oder es unterschreiten. gleich sein. Ist dies nicht der Fall, dann sind
die Aufgaben im Durchschnitt entweder zu
Eine erste Modifikation dieses Testformats
leicht oder zu schwierig.
wurde von Binet und Simon 1908 vorgenom-
men. Die Anzahl der Aufgaben wurde auf 49 Eine weitere Schwierigkeit des Binetschen An-
erhöht, der Bereich der erfassten Altersstufen satzes ist im Konzept des Intelligenzalters be-
auf 3 bis 13 Jahre erweitert. Darüber hinaus gründet. Da gleiche Abstände zum Lebensalter
wurden, als wichtigste Neuerung, für jede Al- auf unterschiedlichen Altersstufen nicht das-
tersstufe systematisch mehrere Aufgaben kon- selbe bedeuten, lassen sich mit diesem Maß
struiert. Aufgaben aus der Reihe für Achtjähri- Kinder verschiedenen Alters nur schwer ver-
ge bestanden beispielsweise darin, den Unter- gleichen. (So ist beispielsweise ein Zwölfjäh-
schied zwischen Schmetterling und Fliege zu riger mit einem Intelligenzalter von 10 weni-
nennen oder in einer Vorlage Bilderlücken zu ger „zurückgeblieben“ als ein Sechsjähriger
ergänzen. Zwölfj1ährige sollten etwa abstrak- mit einem Intelligenzalter von 4.) Um das In-
te Wörter definieren oder bestimmte Wörter telligenzniveau von Menschen verschiedenen
zu einem korrekten Satz ordnen. (Für eine de- Alters miteinander zu vergleichen, also ein al-
taillierte Beschreibung der Intelligenzmessung tersunabhängiges Intelligenzmaß zu gewinnen,
I Kap. 12.) schlug Stern (1912) vor, Intelligenzalter und

19
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

Lebensalter zueinander ins Verhältnis zu set- liegt heute den meisten Intelligenzbestimmun-
zen. Multipliziert man diesen Quotienten mit gen zugrunde.
100, so erhält man den Intelligenzquotienten
(IQ). Angesichts der Tatsache, dass die Intelligenz-
tests dieser Periode besonders zur Auslese in
Der Vorschlag Sterns ist auf den ersten Blick
Schulen eingesetzt wurden, erwiesen sich Er-
überzeugend. Dementsprechend wurde das In-
hebungen mittels der auf die Einzelfalldiagno-
telligenzniveau, nachdem Terman (1916) die-
stik ausgelegten Verfahren in der Tradition
sen IQ in seinem Stanford-Binet-Test erstmals
Binets als recht zeitaufwändig. Deshalb ex-
verwendet hatte, lange Zeit in der von Stern
perimentierten Pädagogen und Psychologen
vorgeschlagenen Weise berechnet. Dennoch
schon recht bald nach Erscheinen des Binet-
enthält dieser Ansatz eine gravierende Schwie-
Tests mit verschiedenen Formen von Gruppen-
rigkeit, die dazu geführt hat, dass das Maß,
Intelligenztests (Übersicht bei Hylla, 1927).
welches heutzutage als „IQ“ bezeichnet wird,
Keiner dieser Ansätze wurde jedoch bis zur
nichts mehr mit dem von Stern vorgeschla-
Testreife weitergeführt. Der erste brauchba-
genen Quotienten zu tun hat. Soll nämlich
re und über mehrere Jahrzehnte eingesetzte
der IQ eines Menschen, wie im Konzept der
Gruppen-Intelligenztest (Group Examination
Intelligenz impliziert, über die Lebensspan-
mit den Formen Alpha und Beta) wurde statt-
ne einigermaßen stabil bleiben, so muss in
dessen während des 1. Weltkrieges in den USA
etwa ein linearer Zusammenhang zwischen
zur Prüfung von Angehörigen des Militärs ent-
Alters- und Leistungszunahme bestehen. Tat-
wickelt (Yoakum & Yerkes, 1920).
sächlich findet sich zwischen beiden Varia-
blen jedoch eine negativ beschleunigte Funkti- Mit Binet beginnt die „zweite Periode“ der
on, wie sie auch für andere Wachstumsprozes- Testentwicklung, die sich von der vorherge-
se typisch ist. Zunächst zeigt sich eine starke henden Periode, für die die Namen Galton und
Zunahme der Leistungsfähigkeit mit dem Al- McKeen Cattell stehen, durch folgende Merk-
ter; mit voranschreitendem Alter wird diese male unterscheidet:
Zunahme immer geringer, bis – etwa bei 16
Jahren – ein Plateau erreicht wird, also kein
1. Statt sehr einfacher Aufgaben mit vermut-
weiteres Wachstum stattfindet. Das bedeutet,
lich nur schwacher Beziehung zum zu dia-
dass Sechzehnjährige im Prinzip alle Aufga-
gnostizierenden Merkmal (also zur Intelli-
ben lösen können, die auch ältere Personen
genz) finden sich komplexere Aufgaben mit
lösen. Um die Intelligenz von Erwachsenen
engerer Beziehung zu diesem Merkmal.
trotzdem mittels des IQ auszudrücken, setzte
2. Die Erfassung komplexerer Vorgänge, auch
Terman (1916) für ältere Personen konstant
wenn diese mit einer geringeren Zuver-
ein Lebensalter von 16 fest.
lässigkeit erkauft wird, ist auch praktisch
Diese vergleichsweise unelegante Hilfskon- brauchbarer (z. B. für die Platzierung) als
struktion wurde von Wechsler (1939) in sei- das Messen einfacher Qualitäten im Sinne
nem neukonstruierten Test durch einen sog. von Galton oder Cattell.
„Abweichungsquotienten“ ersetzt. Dieser neue 3. Die individuelle Leistung wird nicht mehr,
IQ ist tatsächlich kein Quotient, sondern ein wie bei einigen der Galton-Tests, isoliert mit
linear transformierter z-Wert, also ein Stan- Hilfe physikalischer Skalen (cm, Hz etc.)
dardwert, der das Intelligenzniveau jedes Indi- gemessen, sondern es wird die Beziehung
viduums durch seine Position in der Verteilung einer Leistung zu den Leistungen einer Ver-
einer Referenzgruppe ausdrückt (I Kap. 3). gleichsgruppe (ausgedrückt in der Anzahl
Das von Wechsler vorgeschlagene Vorgehen gelöster Aufgaben) erfasst. Es findet also

20
2.5 Der Beginn der Persönlichkeitsdiagnostik

ein Rekurs auf Normen, in der Regel Alters- Merkmale, die sich gut kontrolliert im Labor
normen, statt. Dies impliziert z. B., dass der untersuchen ließen, meist nur eine schwache
Wert 0 nicht eine Null-Ausprägung, z. B. ei- Beziehung zu den psychologischen Aufgaben-
ne „Null“-Intelligenz, bezeichnet. Bei Binet stellungen außerhalb des Labors. Diejenigen
heißt dieser an Normen orientierte Wert „In- Aspekte menschlichen Verhaltens, welche die
telligenzalter“, bei Stern „IQ“. Bei Wechsler Gesellschaft am meisten interessierten, waren
wird daraus dann ein Standardwert. zugleich auch am schwierigsten kontrolliert zu
4. Ein weiterer Vorzug der Tests Binets ist die untersuchen und wurden deshalb häufig nicht
Einteilung in viele kleine Aufgaben, von de- weiter erforscht. Bezeichnenderweise waren
nen jede einzelne im Hinblick auf die Erfor- es deshalb auch nicht Experimentalpsycholo-
dernisse des Ganzen geprüft wird. Demge- gen, sondern in erster Linie Ärzte und Pädago-
genüber erfasste Galton Intelligenz jeweils gen, also Menschen, die in ihrer Praxis häu-
über eine Einzelaufgabe. Bei Binet liegen al- fig mit konkreten psychologischen Problemen
so die Anfänge der Itemanalyse, da er seine konfrontiert wurden, welche die 2. Periode der
Items bereits empirisch auf ihre Brauchbar- Diagnostik einleiteten.
keit hin überprüfte.
5. Der Verwendung sehr elementarer Tests Dieser Umstand wird noch deutlicher, wenn
liegt bei Galton die Vorstellung zugrunde, man von der Geschichte der Fähigkeits- und
dass Intelligenzunterschiede eine biologi- Leistungsdiagnostik übergeht zur Entwicklung
sche Grundlage haben. Demgegenüber re- der Persönlichkeitsdiagnostik i. e. S., die sich
flektieren die komplexen, stark praxisorien- auf emotionale und motivationale Eigenschaf-
tierten Aufgaben Binets dessen Auffassung, ten sowie Werte und Einstellungen von Per-
dass Intelligenzunterschiede eher auf Um- sonen richtet. Zwar gehören auch Fähigkei-
welteinflüsse zurückzuführen sind. ten, einschließlich der Intelligenz, zu den Per-
6. Obwohl Binet nicht das Galtonsche Kon- sönlichkeitsmerkmalen, die typische Zielset-
zept der Intelligenz als einer allgemeinen zung von Leistungs- und Fähigkeitstests ist
kognitiven Fähigkeit vertrat, nahm er an- jedoch eine andere als die von Persönlichkeits-
dererseits auch keine speziellen Bereiche tests i. e. S. Während die ersten nach Cronbach
kognitiver Fähigkeiten an und versuchte (1990) die „maximale Leistung“ erfassen sol-
dementsprechend auch keine Binnendiffe- len, zielen letztere meist auf die Registrierung
renzierung innerhalb der Aufgaben einer des „typischen Verhaltens“ (I Kap. 3).
Altersreihe. In das von Binet verwendete
Maß der Intelligenz, das „Intelligenzalter“,
gehen vielmehr die Lösungen aller vom
Probanden bearbeiteten Aufgaben gleichge- 2.5 Der Beginn der
wichtig ein. Dieses Maß lässt sich deshalb Persönlichkeitsdiagnostik
am ehesten als Ausdruck der mittleren intel-
lektuellen Leistungsfähigkeit einer Person
auffassen. Noch mehr als die Intelligenzdiagnostik der
2. Periode wurde die beginnende Persönlich-
Die wissenschaftliche Psychologie der 2. Hälf- keitsdiagnostik von den Erfordernissen der
te des 19. Jahrhunderts und damit auch die Praxis, insbesondere der psychiatrischen Pra-
sich aus ihr entwickelnde Diagnostik der sog. xis, geprägt. Deshalb stehen am Beginn der
1. Periode waren stark am streng kontrollier- Persönlichkeitsdiagnostik, der etwa 25 Jahre
ten Laborexperiment orientiert. Unglücklicher- später als der der Intelligenzdiagnostik anzu-
weise hatten jedoch diejenigen psychischen setzen ist, durchweg die Namen von Ärzten.

21
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

Wichtige Vertreter sind die französischen Psy- Auf Galton geht nicht nur die Anregung zur
chiater Charcot und Janet, der deutsche Psy- Konstruktion von Fragebogen zurück, sondern
chiater Kraepelin, ferner Freud und Jung so- auch die Idee, einen „psycholexikalischen“
wie der britische, später in Amerika lebende, Ansatz zur Bestimmung zentraler Persönlich-
Mediziner McDougall. keitsdimensionen zu verfolgen (Galton, 1884).
Galton argumentierte, dass zentrale Dimensio-
Entsprechend der psychiatrischen Orientie-
nen menschlichen Verhaltens in der natürli-
rung der frühen Persönlichkeitsdiagnostik wur-
chen Sprache gespeichert sind. Entsprechend
de dabei neben objektiv beobachtbarem Ver-
sollten von einer systematischen Analyse die-
halten verstärkt Gewicht auf die subjektive Er-
ser Sprache auch wesentliche Impulse zur Auf-
fahrung des Klienten als Mittel der Diagnose
deckung dieser Dimensionen ausgehen.
gelegt. Viele Probleme einer Person entstehen
ja erst durch deren subjektive Sichtweise. Des- Als erster ausgearbeiteter Persönlichkeitstest
halb interessieren derartige Stellungnahmen in Fragebogenform gilt allgemein die von Ro-
manchmal mehr als objektiv registrierbare Re- bert Woodworth erstellte Personal Data Sheet
aktionen. Die klassischen Zugangsmittel zu (Woodworth, 1918). Dies ist nicht ganz kor-
subjektiven Erfahrungen sind natürlich Inter- rekt, denn bereits 1906 bis 1909 veröffentlich-
view und Fragebogen. Es ist deshalb verständ- ten die Holländer Heymans und Wiersma und
lich, dass diese Formen der Datenerhebung 1915 der englische Spearman-Schüler Lankes
auch am Beginn der Persönlichkeitsdiagnostik Fragebogen zur Erfassung spezieller Persön-
stehen. lichkeitsmerkmale, z. B. der Perseverationsten-
denz oder der emotionalen Instabilität, wobei
Wie schon erwähnt, hatte Galton 1883 im Rah-
es sich bei Heymans und Wiersma allerdings
men seiner sensorischen Tests auch einen Fra-
um Ratingskalen zur Fremdbeurteilung han-
gebogen zur Prüfung von Vorstellungsbildern
delte (vgl. u. a. Heymans & Wiersma, 1906).
entwickelt. Wenn dies wohl auch der erste be-
Da aber der Woodworth-Test als der Stammva-
kannt gewordene Fragebogen sein dürfte, so
ter moderner Fragebogen bezeichnet werden
war seine Zielsetzung doch eine andere als
kann, soll seine Geschichte kurz beschrieben
die späterer Fragebogen. Während bei den
werden.
späteren Fragebogen aus den Antworten auf
viele Fragen ein Summenscore gebildet wur- Als Folge des Eintritts in den 1. Weltkrieg
de, der dann Index für die Ausprägung eines mussten in den USA Truppen zur Verschif-
bestimmten „latenten“ Persönlichkeitsmerk- fung nach Europa zusammengestellt werden.
mals, z. B. „neurotische Tendenz“ sein sollte, Dabei zeigte sich, dass viele Soldaten von ih-
wertete Galton seine Fragen einzeln aus und rer psychischen Konstitution her dem Einsatz
zog dann Schlüsse auf in der Person ablau- im Kampf offenbar nicht gewachsen waren.
fende Prozesse. Sein Fragebogen ähnelte in Es stellte sich also eine Selektionsaufgabe,
Aufbau und Auswertung also mehr heutigen wie wir sie schon aus der erwähnten Episo-
Fragelisten bei bestimmten medizinischen Un- de aus dem Alten Testament kennen. Psychi-
tersuchungen als modernen psychologischen atrische Einzelinterviews erwiesen sich dabei
Fragebogen. Wenig später legte der Wundt- bald angesichts der anstehenden Personenzah-
Schüler G. Stanley Hall in den USA einen Fra- len als unpraktikabel. Das brachte Woodworth
gebogen vor, der aber noch nicht speziell auf auf den Gedanken, Interviews schriftlich statt
die Erfassung interindividueller Differenzen mündlich und gleich einer großen Gruppe statt
zielte, sondern auf die Untersuchung von Ent- Einzelpersonen darzubieten. Er sammelte da-
wicklungsverläufen, speziell bei Jugendlichen zu die von den Psychiatern standardmäßig ge-
(Hall, 1891). stellten Fragen, z. B. „haben Sie häufig Tag-

22
2.5 Der Beginn der Persönlichkeitsdiagnostik

träume?“, und bildete daraus eine aus 116 rate und vermehrtem Schwitzen, auf einen
Items bestehende Frageliste, die der Proband „Mutter-Komplex“ hinweisen (Jung, 1919).
mit „ja“ oder „nein“ zu beantworten hatte. Von Die Grundidee dieses Assoziationsverfahrens
diesem ersten Fragebogen wurden andere ab- besteht also darin, einen Reiz vorzugeben, auf
geleitet, darunter auch der bekannteste Frage- den „Normal“-Probanden unauffällig reagie-
bogen überhaupt, das Minnesota Multiphasic ren, der aber vermutlich von einigen Perso-
Personality Inventory (MMPI; Hathaway & nen problembezogen erlebt wird. Nach der Art
McKinley, 1943; I Kap. 10). ihres Reagierens (im Wesentlichen über ver-
längerte Reaktionszeiten) soll man dann die-
Mehr noch als Fragebogen gelten, besonders se Personen identifizieren können. Allerdings
bei psychologisch interessierten Laien, die pro- fällt es mit Hilfe dieser Assoziationsmethode
jektiven Verfahren als die Tests der Persön- schwer, inhaltliche Aussagen über die Art des
lichkeit schlechthin. Unter diesen Verfahren Erlebens eines Reizes zu machen.
ist zweifellos der Rorschach-Test, der später
(I Kap. 11) noch genauer dargestellt wird, der Rorschach griff bei seinem 1921 veröffent-
bekannteste. Mit einer kurzen Darstellung sei- lichten Test deshalb auf ein Verfahren zurück,
ner Entwicklung soll deshalb dieses Kapitel das sowohl als Gesellschaftsspiel, Mittel zur
abgeschlossen werden. künstlerischen Anregung als auch als diagno-
stisches Instrument bereits gut bekannt war.
Der Schweizer Psychiater Hermann Ror- Die Provozierung von Reaktionen durch Vor-
schach (1884–1922) war Schüler von Carl Gu- gabe unstrukturierten Materials, in diesem Fall
stav Jung (1875–1961), der zunächst ein An- beinahe symmetrischer Tintenkleckse, hatten
hänger und Vertrauter und später ein Gegner vor Rorschach bereits Alfred Binet (Binet &
Sigmund Freuds war. Jung führte den Wort- Henri, 1895) und der Amerikaner Dearborn
assoziationstest zur Registrierung emotiona- (1897) zur Prüfung der Phantasie vorgenom-
ler Reaktionen in die Psychologie ein (Jung, men. Dearborn hatte dabei auch bereits nach
1910). In diesem Test wird dem Probanden Schwierigkeit abgestufte Serien von Tinten-
eine Standardliste von Wörtern nacheinander klecksen und genaue Auswertungsanleitungen
vorgelesen. Der Proband soll dabei mit dem erarbeitet.
ersten Wort, das ihm einfällt, antworten. Dabei
interessiert den Auswerter nicht nur der Inhalt
Es ist das Verdienst Rorschachs, diese Serie
der Assoziation, sondern auch die Zeit bis zurauf wenige Reize, nämlich zehn Tafeln, ver-
Abgabe der Antwort sowie das Ausmaß emo- kürzt und dabei auch mehrfarbige Vorlagen
tionaler Reaktionen während der Darbietung aufgenommen zu haben. Darüber hinaus stell-
bestimmter Wörter. Dieses Paradigma bildete te er ein formales Auswertungsschema auf,
auch die Grundlage der nach dem 2. Weltkrieg nach welchem die Gesamtzahl aller Deutun-
etablierten und seinerzeit sehr populären For-gen für jede Figur, die Zahl der Ganz- und
schung zur sog. „Wahrnehmungsabwehr“ (per- Detailantworten, der Form-, Farb- und Bewe-
ceptual defense; vgl. u. a. Bruner & Postman, gungsantworten und schließlich die Arten der
1947; siehe auch Krohne, 2010). Deutungsinhalte (Menschen, Tiere, Körpertei-
le usw.) statistisch ausgewertet und zu einzel-
Für Jung war die Wortassoziation ein Weg nen Persönlichkeitsmerkmalen in Beziehung
zu den „Komplexen“ einer Person, d. h. ei- gesetzt werden können.
ner Konstellation unbewusster Gedanken, Er-
innerungen und Gefühle. So würde nach Jung Die Vielzahl der Auswertungsmöglichkeiten
z. B. ein Zögern auf das Reizwort „Mut- (in der Rorschach-Terminologie „Signierun-
ter“, vielleicht verbunden mit erhöhter Herz- gen“ genannt) und deren relativ „lose“ An-

23
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

bindung an einzelne Persönlichkeitsdisposi- Weiterführende Literatur


tionen, damit aber auch die „Offenheit“ für
die Aufdeckung neuer Zusammenhänge, ha-
Ausführlichere Darstellungen zur Geschichte
ben zweifellos zur enormen Popularität die-
der Diagnostik finden sich in DuBois (1970),
ses Verfahrens beigetragen. Rorschach selbst
zur Geschichte der Psychologie insgesamt in
hat seinen Test nicht als projektiven, sondern
Lück und Guski-Leinwand (2014).
als Wahrnehmungstest bzw. -experiment be-
zeichnet. Er vertrat dabei Auffassungen über
den Wahrnehmungsvorgang, die durchaus im
Sinne der funktionalistischen Wahrnehmungs- Fragen zur Wissenskontrolle
theorie zu sehen waren, die Bruner und Mitar-
beiter etwa 25 Jahre später unter dem Namen 1. Welche Ergebnisse fand Wissler bei einer
Hypothesen-Informationstheorie (bzw. popu- kritischen Analyse der Brauchbarkeit sog.
lärer „New look“) vorlegten und etwa im Rah- „Mental Tests“ und was lässt sich wiederum
men von Experimenten zur „sozialen Wahr- an der Studie Wisslers kritisieren?
nehmung“ („going beyond the information gi- 2. Welches Maß führte Binet zur Bestimmung
ven“) überprüften (Bruner, 1951). der Intelligenz bei Kindern ein? Was ist am
Der Name „projektiv“ für dieses und scheinbar Vorgehen Binets kritisch und wie versuchte
ähnliche Verfahren wurde erst nach dem frü- Stern dieses Problem zu beheben?
hen Tod Rorschachs durch Horowitz und Mur- 3. Wie bestimmte Wechsler, ausgehend von
phy (1938) eingeführt und anschließend durch den Vorschlägen Sterns und Termans, die
den amerikanischen Psychiater Frank (1948) Intelligenz?
popularisiert. Damit wurde das Verfahren aus 4. Durch welche Merkmale unterscheiden sich
dem Kontext und dem Fortschreiten der expe- die Ansätze Galtons und Binets bei der In-
rimentellen Wahrnehmungs- und Kognitions- telligenzmessung?
forschung herausgelöst und in einen umstrit- 5. Wie ist der erste ausgearbeitete Persönlich-
tenen theoretischen Begründungszusammen- keitsfragebogen entstanden?
hang gestellt, zentriert um das im Grunde wis- 6. Von welchen Vorstellungen ging Rorschach
senschaftlich wenig fruchtbare Konzept der bei der Konstruktion seines Testverfahrens
„Projektion“. (Zur Kritik des Projektionsbe- aus?
griffs siehe u. a. Erdelyi, 1985; Holmes, 1968;
Hörmann, 1982.) Entsprechend basieren die
meisten der inzwischen zigtausend Arbeiten
zum Rorschach-Test weniger auf einem theo-
retisch und empirisch einigermaßen abgesi-
cherten Fundament als auf nicht belegten Be-
hauptungen. Auf diese Probleme wird noch
gesondert in I Kap. 11.5 eingegangen.

24
II Konstruktion und Überprüfung
von Testverfahren
3 Merkmale und Gütekriterien psychologischer
Tests

3.1 Merkmale psychologischer Testverfahren . . . . . . . . . . . . . . . . . . . 28


3.1.1 Definition von Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Aktuelles Verhalten und Persönlichkeitsmerkmale . . . . . . . . . . . 31
3.1.3 Typisches und „maximales“ Verhalten . . . . . . . . . . . . . . . . . . 34
3.1.4 Illustrative Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.5 Testwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Zusammenstellung von Items . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1 Konstruktdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2 Erstellung der Itemmenge . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3 Itemformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.4 Antwortformate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Itemkennwerte und Testwertverteilung . . . . . . . . . . . . . . . . . . . . . 48
3.3.1 Schwierigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.3 Trennschärfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.4 Verteilung der Testwerte . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4 Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.1 Wahrer Wert und Fehler . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.2 Reliabilität und Standardfehler der Messung . . . . . . . . . . . . . . . 56
3.4.3 Verfahren zur Reliabilitätsbestimmung . . . . . . . . . . . . . . . . . 61
3.4.4 Bewertung der Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1 Inhaltsvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.2 Kriteriumsvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.3 Konstruktvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.6 Normen und Bezugssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6.1 Normorientierte Vergleiche . . . . . . . . . . . . . . . . . . . . . . . . 76
3.6.2 Kriteriumsorientierte Vergleiche . . . . . . . . . . . . . . . . . . . . . 82
3.6.3 Individuelle und ipsative Vergleiche . . . . . . . . . . . . . . . . . . . 83
3.7 Testbewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

27
3 Merkmale und Gütekriterien psychologischer Tests

Psychologische Diagnostik stützt sich zu ei- Hilfe von Skalen (numerische Beschrei-
nem großen Teil auf Information aus Testver- bung) oder Kategorien (klassifizierende Be-
fahren. Für die sachgerechte Bewertung dieser schreibung) dienen.
Information ist das Verständnis grundlegender
Prinzipien des Testaufbaus sehr hilfreich. Im Das wichtigste Charakteristikum von Tests
vorliegenden Kapitel charakterisieren wir da- steckt hier im Wort systematisch und meint,
her zunächst die zentralen allgemeinen Eigen- dass alle Personen, die den Test absolvieren,
schaften psychologischer Testverfahren. Wir mit den gleichen Anforderungen konfrontiert
werden sehen, dass psychometrische Tests re- werden, also z. B. dieselben Aufgaben bear-
lativ strikten Gütekriterien, insbesondere Ob- beiten. Im Hinblick auf Art und Komplexität
jektivität, Reliabilität und Validität genügen der Anforderung sowie der jeweils verlang-
müssen. ten Antwort oder Reaktion ist diese Definition
vollkommen offen: Es kann sich um das An-
Im zweiten Abschnitt des Kapitels werden Ge-
kreuzen von Antwortoptionen in einem Frage-
sichtspunkte für die Zusammenstellung von
bogen, die Lösung von Dreisatzaufgaben, das
Items, also Aufgaben bzw. Fragen, aus de-
Schreiben eines Essays zu einem vorgegebe-
nen sich Tests zusammensetzen, behandelt. Im
nen Thema, das Drücken einer Taste auf ein
Anschluss stellen wir wichtige Aspekte der
vereinbartes Signals hin, das Sortieren eines
statistischen Item- und Testanalyse und deren
Stapels von Briefen nach Dringlichkeit oder
Grundlagen dar. Von zentraler Bedeutung sind
das Rückwärts-Einparken in eine enge Lücke
dabei die Konzepte Reliabilität und Validität,
handeln.
die im Rahmen der sog. Klassischen Testtheo-
rie ausgearbeitet wurden. Schließlich werden Das zweite wesentliche Charakteristikum von
Bezugssysteme zur Einordnung und Interpre- Tests besteht darin, dass die anfallenden Be-
tation von Testergebnissen vorgestellt, wobei obachtungen mit Hilfe von Skalen oder Kate-
besonders auf Möglichkeiten zur Normierung gorien beschrieben werden. Numerische Ska-
von Testverfahren eingegangen wird. Ein Aus- len erlauben quantitative Aussagen über den
blick auf weitere Gesichtspunkte zur Bewer- interessierenden Verhaltensaspekt, z. B. Per-
tung von Tests beschließt das Kapitel. sönlichkeitsmerkmale. Die Merkmale werden
mit Zahlen beschrieben, welche die Stärke
der Merkmalsausprägung reflektieren. Das be-
3.1 Merkmale psychologischer kannteste Beispiel hierfür dürfte der Intelli-
Testverfahren genzquotient sein. Mit anderen Tests werden
die beobachteten Verhaltensaspekte in definier-
te Kategorien eingeordnet, also klassifiziert.
3.1.1 Definition von Tests Kategorien- oder Klassifikationssysteme fin-
den z. B. in der klinisch-psychologischen Dia-
Der Begriff Test wird in der Literatur unter- gnostik breite Anwendung. Hier geht es etwa
schiedlich weit gefasst. Wir gehen im Folgen- um die Frage, ob ein beobachtetes Verhaltens-
den von Cronbachs (1990, S. 32) relativ weiter muster als Anzeichen einer Angststörung oder
Definition aus. einer Depression zu werten ist.

Definition Test Mit Tests können nicht nur Person-, sondern


auch Umweltmerkmale, also erlebens- und
Psychologische Tests sind Instrumente, die verhaltensrelevante situative Bedingungen, er-
der systematischen Beobachtung und Be- fasst werden. Ein Beispiel hierfür wäre ein
schreibung von Erleben und Verhalten mit Test zur Erfassung der Beziehungsstruktur in

28
3.1 Merkmale psychologischer Testverfahren

Familien. Man könnte diese Eigenschaft ex- geren Definitionen nicht als Tests angesehen
plizit in die Definition psychologischer Tests – zumindest nicht als psychometrische Tests.
mit aufnehmen. Da hier jedoch meist eben- Man spricht hier von testähnlichen Verfahren
falls Erlebens- und Verhaltensaspekte erfasst oder informellen Tests. Hiermit wird angedeu-
werden (etwa soziales Verhalten oder Merk- tet, dass diese Verfahren einige, aber nicht
male von Interaktionsprozessen), erscheint uns sämtliche Anforderungen an psychometrische
Cronbachs Definition umfassend genug. Instrumente erfüllen. Diese Anforderungen,
die als Testgütekriterien bezeichnet werden,
Tests sind nicht die einzige Form systema-
beinhalten
tischer Beobachtung, in denen Zahlen oder
Kategorien zur Beschreibung von Verhalten 1. Objektivität bei der Durchführung, Auswer-
herangezogen werden. Kennzeichnend für das tung und Interpretation,
Testen ist es, dass die Untersuchungssituati- 2. Reliabilität (Zuverlässigkeit, Messpräzisi-
on und die Art der Reaktionsmöglichkeiten on),
relativ stark vorstrukturiert sind. Bei anderen 3. Validität (Gültigkeit; Erfassung des interes-
Formen der Beobachtung dagegen bleiben die sierenden Merkmals) und
Ausgestaltung der Situation und die Art der 4. Nutzen für Beurteilungen, Vorhersagen,
gezeigten Verhaltensweisen den beobachteten Empfehlungen und Entscheidungen.
Personen selbst überlassen (etwa beim Inter-
view oder der systematischen Verhaltensbe- Objektivität. Die Forderung nach Objekti-
obachtung; I Kap. 8 und 9). Die Beobach- vität zielt auf die Vergleichbarkeit der Test-
tung und Registrierung aggressiver Handlun- ergebnisse verschiedener Personen. Ein Ver-
gen von Kindern während der Pause in einer fahren wird als objektiv bezeichnet, wenn die
Grundschule würde man beispielsweise nicht Testergebnisse sowie die aus den Ergebnissen
als Testen bezeichnen, auch wenn die Unter- gezogenen Schlussfolgerungen von den kon-
sucher hierbei methodisch stringent vorgehen kreten, jeweils variierenden Bedingungen der
und genau definierte Kategorien und Skalen Testdurchführung und -auswertung unabhän-
zur Verhaltensbeschreibung nutzen. gig sind. Zu diesen Bedingungen gehören ganz
wesentlich die Personen, die den Test anwen-
Da unsere von Cronbach (1990) übernom- den und auswerten: Für die Testergebnisse soll
mene Definition relativ weit ist, umfasst sie es unerheblich sein, wer den Test durchführt,
auch eine Reihe von Verfahren, mit denen auswertet oder die Testbefunde interpretiert.
wir im Alltag konfrontiert sind. In Schule
und Hochschule bearbeiten wir Eingangs- und Es ist üblich, bei der Objektivität zwischen den
Zulassungstests, schreiben Klausuren und le- Aspekten der Durchführungs-, Auswertungs-
gen mündliche Prüfungen ab. Die meisten von und Interpretationsobjektivität zu unterschei-
uns haben den schriftlichen und praktischen den. Diese Aspekte beziehen sich auf die Pha-
Teil der Führerscheinprüfung absolviert, ein sen, die im Rahmen einer diagnostischen Un-
mehr oder weniger strukturiertes Bewerbungs- tersuchung zu durchlaufen sind. Durchfüh-
gespräch geführt usw. Auch in Prüfungen und rungsobjektivität wird durch Standardisierung
prüfungsanalogen Situationen werden Zahlen der Testprozedur gesichert. In standardisier-
(z. B. Punkte in einer Klausur) oder Kategori- ten Tests sind die Anleitungen, das Material,
en (bestanden/nicht bestanden) verwendet, um die Art der Testvorgabe sowie andere Merk-
Leistungen oder andere Verhaltensaspekte zu male der Testsituation, die für die Resultate
bewerten oder zu klassifizieren. Obgleich die- relevant sind, genau fixiert. Auswertungsob-
se Verfahren bestimmte Ausschnitte mensch- jektivität bezieht sich auf die Registrierung
lichen Verhaltens erfassen, werden sie in en- der in einem Test anfallenden Daten und deren

29
3 Merkmale und Gütekriterien psychologischer Tests

Kombination bzw. Verrechnung zu Testwerten, werden, ist es, Grundlagen für die empirische
Interpretationsobjektivität auf weitere Schluss- Bestimmung der Reliabilität zu liefern.
folgerungen, die auf der Grundlage der Testre-
sultate gezogen werden. Tests, die diesen An- Validität. In Tests, Prüfungen usw. werden
forderungen genügen, liefern exakte Regeln quantitative oder klassifizierende Aussagen
und Richtlinien für die Registrierung und Aus- über einen Erlebens- und Verhaltensbereich
wertung der Daten sowie die Interpretation der gemacht. Mit diesen Aussagen wird das anvi-
Testbefunde. Hiermit soll gewährleistet wer- sierte Merkmal mehr oder weniger gut getrof-
den, dass verschiedene Auswerter, denen die fen. Das Ausmaß, in dem die Testergebnisse
gleichen Daten vorliegen, auch zu den glei- das zu erfassende Merkmal treffen, heißt Vali-
chen Ergebnissen gelangen. Für die Sicherung dität oder Gültigkeit: Ein Test ist in dem Maße
der Objektivität ist es natürlich wichtig, dass valide, als er das misst, was er messen soll.
die Vorgaben für Durchführung und Auswer- Valide Tests erlauben es also, von den Test-
tung im Rahmen einer konkreten Testanwen- ergebnissen auf das interessierende Merkmal
dung auch befolgt werden. Dies verlangt im zu schließen.
Allgemeinen professionelle Anwender oder
zumindest professionelle Supervision. Reliabilität vs. Validität
Reliabilität. Ein generelle Eigenschaft von Reliabilität ist eine notwendige, aber kei-
Testverfahren besteht darin, dass immer nur ne hinreichende Bedingung für Validität.
bestimmte Ausschnitte aus dem interessieren- Hohe Reliabilität kann also mit niedriger
den Verhaltensbereich betrachtet werden. Dies Validität einhergehen. Dies ist häufig dann
hat praktische Gründe: In einem Intelligenz- der Fall, wenn ein Test nur einen Teilaspekt
test können z. B. nicht alle Aufgaben oder des interessierenden Merkmals mit Fragen
Aufgabenarten gegeben werden, die zur Er- bzw. Aufgaben abdeckt. Ein Beispiel wäre
fassung der Merkmalsausprägung denkbar wä- ein Eignungstest für Dolmetscher, in dem
ren; im Rahmen einer Führerscheinprüfung allein passive Vokabelkenntnisse geprüft
kann das Rückwärts-Einparken nicht an allen werden. Ein solcher Test könnte durchaus
möglichen Parklücken geprüft werden, die im reliabel messen (reproduzierbare Resultate
Fahralltag frei sein könnten. Technisch gespro- liefern), wäre aber hinsichtlich des eigent-
chen sind wir in Tests und Prüfungen darauf lich interessierenden Merkmals (Eignung
angewiesen, Verhaltensstichproben zu ziehen. zum Dolmetscher) vermutlich nicht sehr va-
Da diese Stichproben notwendigerweise limi- lide, da das faktisch gemessene Merkmal
tiert sind, werden die auf ihrer Grundlage ge- zu eng ist.
zogenen Schlüsse nicht vollkommen fehlerfrei
ausfallen.
Die Präzision, mit der ein Test das von ihm In vielen Anwendungskontexten soll mit Tests
erfasste Merkmal misst, wird als Reliabilität oder testähnlichen Verfahren künftiges Verhal-
oder Zuverlässigkeit bezeichnet. Ein reliabler ten vorhergesagt werden. So interessiert etwa
Test führt zu reproduzierbaren Ergebnissen, bei der Führerscheinprüfung die Frage, ob die
wenn er unter identischen Ausgangsbedingun- Kandidaten in der Lage sein werden, alltägli-
gen wiederholt wird. Die Reliabilität stellt ne- che Verkehrssituationen sicher zu bewältigen,
ben der Objektivität ein zweites zentrales Gü- bei Stellenbewerbern, die einen Eignungstest
tekriterium von Messungen und speziell von absolvieren, die spätere Bewährung auf der
Tests dar. Ein wesentliches Anliegen der Test- freien Position. Die Genauigkeit von Vorhersa-
modelle, mit denen wir uns noch beschäftigen gen wird als zentraler Teilaspekt der Validität

30
3.1 Merkmale psychologischer Testverfahren

betrachtet und als prädiktive oder prognosti- dem Test beiliegenden Handbuch, dem Testma-
sche Validität bezeichnet. Die Validität stellt nual, dargestellt oder zusammengefasst. Das
das wichtigste Kriterium für die Bewertung Testmanual enthält darüber hinaus alle Anga-
der Güte eines Verfahrens dar. Zur Feststel- ben, die zur objektiven Durchführung und Aus-
lung und Sicherung der Validität muss empi- wertung des Tests sowie zur Interpretation der
risch belegt werden, was ein Test erfasst und Testergebnisse durch professionelle Anwender
was er nicht erfasst (I Kap. 3.5.3). notwendig sind.

Nutzen. Objektivität, Reliabilität und Validi-


tät gelten als Hauptgütekriterien von Tests und 3.1.2 Aktuelles Verhalten und
stehen entsprechend seit langer Zeit im Zen- Persönlichkeitsmerkmale
trum der Testentwicklung. Das Kriterium des
Nutzens rückte erst später ins Blickfeld. Mit Psychologische Tests werden zur Untersu-
dem Einsatz eines Tests soll ein demonstrier- chung von Fragestellungen eingesetzt, die das
barer Nutzen im Hinblick auf Beurteilungen, Erleben und Verhalten von Menschen betref-
Prognosen und darauf aufbauenden Empfeh- fen, inklusive seiner Veränderungen und Be-
lungen und Entscheidungen verbunden sein. dingungen. Wir konzentrieren uns im Folgen-
Die Bewertung eines Tests unter Nutzenge- den auf Instrumente, die sich auf Aspekte des
sichtspunkten hängt teilweise von seiner prä- individuellen Erlebens und Verhaltens richten,
diktiven Validität ab. Wegen dieser Überlap- da diese den größten Teil psychometrischer
pung sprechen einige Autoren auch vom prä- Testverfahren ausmachen. Verfahren zur Ana-
diktiven Nutzen eines Tests (McDonald, 1999). lyse situativer oder systemischer Bedingungen
Das Nutzenkonzept bringt jedoch auch eigen- menschlichen Verhaltens werden später darge-
ständige Gesichtspunkte ins Spiel. Hierher ge- stellt (I Kap. 14 und 16).
hören z. B. die mit seiner Durchführung anfal-
Die mit Tests zu erfassenden Erlebens- und
lenden personellen, zeitlichen und finanziellen
Verhaltensaspekte sind in psychologischen
Kosten. Tatsächlich kann ein Test mit modera-
Modellen als theoretische Begriffe oder – wie
ter Validität unter Nutzenaspekten manchmal
man auch sagt – theoretische Konstrukte ver-
besser abschneiden als ein Test höherer Validi-
ankert. Mit der Bezeichnung „Konstrukt“ wird
tät (I Kap. 6).
hervorgehoben, das es sich hierbei um Kon-
struktionen handelt, die dem Zweck dienen,
Wie wir noch sehen werden, lassen sich die
unser Wissen über einen Verhaltensbereich zu
genannten Gütekriterien teilweise quantitativ
organisieren. Intelligenz, Prüfungsangst, In-
beschreiben. Mit der Kennzeichnung eines In-
terferenzneigung oder kognitive Vermeidung
struments als psychologisches oder psycho-
sind Beispiele für solche Konstrukte. Wie man
metrisches Testverfahren wird die Erwartung
sieht, sind einige dieser Begriffe auch in unse-
verbunden, dass die Gütekriterien dokumen-
rem Alltagswissen verankert. Im Rahmen psy-
tiert und in einem für den Einsatzzweck des
chologischer Modelle und Theorien haben sol-
Verfahrens hinreichendem Maße erfüllt sind.
che Begriffe allerdings eine schärfere, manch-
Die Konstruktion eines psychometrischen Ver-
mal auch eine inhaltlich andere Bedeutung als
fahrens setzt entsprechend umfangreiche em-
die entsprechenden Alltagskonzepte.
pirische Untersuchungen zu den messtechni-
schen Qualitäten des Tests und den Korrelaten Da sich Konstrukte auf Merkmale bzw. Va-
der Testergebnisse voraus. Bei veröffentlich- riablen beziehen, die nicht direkt beobachtbar
ten Routineverfahren werden diese Untersu- sind, spricht man auch von latenten Merkma-
chungen und ihre Ergebnisse meist in einem len bzw. Variablen. Um die Ausprägung einer

31
3 Merkmale und Gütekriterien psychologischer Tests

latenten Variablen (z. B. Intelligenz) schätzen -eigenschaften oder -dispositionen, die mit Hil-
zu können, werden beobachtbare Indikatoren fe von Persönlichkeitskonstrukten beschrieben
der Variablen benötigt (z. B. Anzahl der ge- werden.
lösten Aufgaben in einem Intelligenztest). Die
beobachtbaren Indikatoren einer latenten Va-
riablen werden manifeste Variablen genannt. Definition Persönlichkeitsmerkmal
Testresultate liefern empirische Indikatoren Unter Persönlichkeitsmerkmalen (Traits)
von Konstrukten bzw. latenten Variablen. Sie werden mittel- oder langfristig stabile in-
werden auf Grundlage der Antworten bzw. Re- terne (nichtsituative) Faktoren verstanden,
aktionen auf einzelne Fragen oder Aufgaben, die das Verhalten eines Menschen konsis-
aus denen sich ein Test zusammensetzt, be- tent und von dem anderer Menschen unter-
stimmt. scheidbar machen (Child, 1968, S. 83).
Psychologische Konstrukte können sich auf
relativ kurzfristige, variable oder auf länger-
fristig stabile Erlebens- und Verhaltensmus- Betrachten wir die Schlüsselbegriffe der Defi-
ter beziehen. Mit dieser Unterscheidung sind nition etwas genauer.
gleichzeitig zwei große Zielbereiche von Test-
verfahren angesprochen. Interne Faktoren. Zunächst werden Persön-
lichkeitsmerkmale als interne Faktoren be-
Der eine Zielbereich liegt in der Bestimmung stimmt. Diese Qualifikation soll hervorheben,
vorübergehender Erlebens- und Verhaltens- dass Persönlichkeitskonstrukte nichtsituative
muster. Im Englischen spricht man hier von Determinanten des Erlebens und Verhaltens
States, also „Zuständen“. Beispiele für Zustän- thematisieren. Natürlich existieren auch stabi-
de, die im Rahmen diagnostischer Untersu- le externe (situative) Einflüsse, die konsisten-
chungen interessieren können, sind die gegen- te Verhaltensunterschiede bewirken können.
wärtige Stimmungs- und Affektlage einer Per- Hierher gehören etwa der Freundeskreis ei-
son, ihre Bereitschaft schnelle oder riskante nes Menschen, seine berufliche Situation oder
Entscheidungen zu fällen, ihr aktuelles Kon- seine Wohnverhältnisse. Es ist offensichtlich,
zentrationsvermögen oder ihre Kapazität, kom- dass die Trennung situativer von nichtsitua-
plexe Probleme zu lösen. Meist ist man dabei tiven Verhaltensdeterminanten für viele dia-
nicht an den Zuständen „an sich“, sondern an gnostische Entscheidungen von zentraler Be-
deren Veränderung unter bestimmten situati- deutung ist.
ven Bedingungen interessiert. So könnte bei-
spielsweise im Rahmen einer psychopharma- Stabilität. Persönlichkeitsmerkmale sind zeit-
kologischen Untersuchung interessieren, wie lich längerfristig stabil. Hiermit sind Zeiträu-
sich die Stimmung, das Konzentrationsvermö- me von Monaten, Jahren oder Jahrzehn-
gen oder die Problemlösefähigkeit einer Per- ten gemeint. Nur kurzfristig wirksame in-
son unter dem Einfluss einer bestimmten Dro- terne Faktoren (etwa der Kater am Mor-
ge verändert. gen nach einer durchzechten Nacht) werden
nicht als Persönlichkeitsmerkmale angespro-
Der zweite große Zielbereich liegt in der chen. Es gibt hier natürlich einen „State-Trait-
Bestimmung längerfristig stabiler Erlebens- Übergangsbereich“, der insbesondere für die
und Verhaltensmerkmale, die im Englischen klinisch-psychologische Diagnostik wichtig
Traits genannt werden. Es geht hier um ist. Man denke hier z. B. an Alkoholprobleme
die Erfassung von Persönlichkeitsmerkmalen, oder psycho-soziale Belastungen (I Kap. 15).

32
3.1 Merkmale psychologischer Testverfahren

Konsistenz. Persönlichkeitsmerkmale bezie- dass die entsprechenden Faktoren als Verhal-


hen sich auf konsistente Erlebens- und Ver- tenstendenzen verstanden werden können, die
haltensaspekte. Konsistenz liegt vor, wenn ei- im Zusammenspiel mit situativen Faktoren das
ne Person in ähnlichen Situationen ähnliche aktuelle Erleben und Verhalten einer Person
Erlebens- und Verhaltensmuster zeigt. Welche determinieren.
Situationen und welche Erlebens- und Verhal-
Viele Verhaltensweisen lassen sich unter
tensmuster dabei als ähnlich zu werten sind,
Zustands- und Dispositionsgesichtspunkten
hängt vom betrachteten Merkmal und dem zu-
analysieren. Angst ist hierfür ein prominen-
grunde gelegten Modell des Merkmals ab. Bei-
tes Beispiel. Sie kann als aktuelles Erlebens-
spielsweise manifestiert sich einem bekann-
und Verhaltensmuster betrachtet werden, das
ten psychologischen Angstmodell zufolge das
eine konkrete Person in einer konkreten Situa-
Persönlichkeitsmerkmal Ängstlichkeit in der
tion manifestiert, wie auch als Persönlichkeits-
Stärke der Angstreaktion bei der Konfronta-
merkmal, d. h. als längerfristig stabile Ten-
tion mit selbstwertbedrohlichen Situationen
denz einer Person, in bedrohlichen Situatio-
(Spielberger, 1975). Personen mit hoher Merk-
nen mehr oder weniger intensiv mit Angst
malsausprägung manifestieren in selbstwertbe-
zu reagieren (Krohne, 2010). In unserer Um-
drohlichen Situationen unterschiedlicher Art
gangssprache trennen wir nicht immer deut-
jeweils sehr markante Angstreaktionen. Bei
lich zwischen beiden Perspektiven. Im Rah-
Personen mit niedriger Merkmalsausprägung
men psychologischer und speziell diagnosti-
fällt die Angstreaktion in solchen Situationen
scher Fragestellungen ist es jedoch essenziell,
dagegen geringer aus. Bei beiden Gruppen lie-
beide Gesichtspunkte strikt auseinanderzuhal-
gen also konsistente Verhaltensmuster vor.
ten. Regelmäßigkeiten, die für Zustände gel-
ten, können nämlich für die entsprechenden
Interindividuelle Unterschiede. Schließlich
Persönlichkeitsmerkmale ungültig sein und
wird nur dann von Persönlichkeitsmerkmalen
umgekehrt (Asendorpf & Neyer, 2012).
gesprochen, wenn sich Menschen in den kon-
struktrelevanten Erlebens- und Verhaltensas- So sind z. B. Freude und Trauer auf der Ebe-
pekten unterscheiden. Dieser Gesichtspunkt ne aktuellen Verhaltens weitgehend antago-
war uns bereits im Rahmen der traditionel- nistisch; das eine schließt das andere im All-
len Definition des Gegenstands der Diagnos- gemeinen aus. Wenn wir wissen, dass eine
tik durch James McKeen Cattell begegnet Person im Moment wegen eines bestimmten
(I Kap. 1). Universelle Eigenschaften, also Vorfalls sehr traurig gestimmt ist, wissen wir
Eigenschaften, die von allen oder doch nahe- gleichzeitig, dass sie nicht freudig gestimmt
zu allen Menschen geteilt werden, sind dieser ist. Auf der Ebene von Persönlichkeitsmerk-
Bestimmung nach nicht als Persönlichkeits- malen wäre ein solcher Schluss inkorrekt. Tat-
merkmale anzusehen. So ist z. B. die Fähig- sächlich sind die Dispositionen, Freude bzw.
keit, mit sprachlichen Symbolen umzugehen, Trauer (oder allgemeiner: positive oder negati-
eine universelle Eigenschaft von Menschen, al- ve Affekte) zu manifestieren, relativ unabhän-
so kein Persönlichkeitsmerkmal. Sprachlicher gig. Es ist also keineswegs so, dass Personen,
Ausdruck und Sprachstil können dagegen als die zu Trauer oder anderen negativen Affekten
Persönlichkeitsmerkmale betrachtet werden. neigen, Freude oder andere positive Affekte
selten manifestieren (Watson, Clark & Telle-
Die Begriffe Persönlichkeitsmerkmal, -eigen- gen, 1988). Freude oder Trauer als aktuelle
schaft und -disposition werden im Allge- Emotionen und Freude oder Trauer als sta-
meinen als austauschbar behandelt. Der Be- bile Verhaltenstendenzen beziehen sich also
griff Disposition akzentuiert den Sachverhalt, auf unterschiedliche Sachverhalte und dürfen

33
3 Merkmale und Gütekriterien psychologischer Tests

nicht miteinander vermengt werden. Aus die- großen Domänen unterschieden, nämlich ei-
sem Grund führt man spezielle Termini ein, ner Persönlichkeitsdomäne i. e. S. und einer
aus denen ersichtlich ist, welcher Aspekt je- Fähigkeits- und Leistungsdomäne. Persönlich-
weils gemeint ist. In der deutschen Literatur re- keitsdiagnostik i. e. S. beschäftigt sich mit
serviert man z. B. den Begriff Ängstlichkeit für emotionalen und motivationalen Merkmalen,
das Persönlichkeitsmerkmal, mit Angst oder also z. B. Temperamentseigenschaften, Moti-
Zustandsangst bezeichnet man das aktuelle Er- ven, Interessen, zentralen Einstellungen oder
leben und Verhalten. Im Englischen spricht Werten. Im Leistungsbereich geht es um Merk-
man hier von trait anxiety und state anxiety. male wie Intelligenz, Kreativität oder Konzen-
trationsvermögen.
Als längerfristig stabile Faktoren machen Per-
sönlichkeitsmerkmale das Erleben und Verhal- Auf der Seite der Testverfahren entspricht die-
ten eines Menschen vorhersagbar – zumindest se Differenzierung der von Cronbach (1990)
bis zu einem gewissen Grad. Auf diese Vor- geprägten Unterscheidung zwischen Tests des
hersagbarkeit stützt sich nicht nur ein substan- typischen und Tests des maximalen Verhaltens
zieller Teil der sozialen Interaktion im Alltag, (im Englischen tests of typical response und
sie liefert auch die Grundlage für einen wei- tests of maximum performance). Die Bezeich-
ten Bereich diagnostischer Anwendungen von nungen besagen, dass wir im einen Bereich an
Testverfahren. Wie wir bereits bemerkt hatten, der typischen, normalen Ausprägung bestimm-
besteht ein zentrales Ziel der Anwendung von ter Erlebens- und Verhaltensmuster interessiert
Tests und anderer diagnostischer Instrumen- sind (etwa am zu erwartenden Angstniveau ei-
te darin, Vorhersagen künftigen Verhaltens zu ner Person in Prüfungen), im anderen an der
ermöglichen bzw. zu verbessern. Von diesem maximal möglichen Ausprägung von Leistun-
Anliegen her ist es verständlich, dass sich die gen (z. B. Konzentration).
Diagnostik bereits sehr früh auf die Messung
stabiler Persönlichkeitsmerkmale konzentrier- Die Unterscheidung betrifft nicht nur die Art
te (I Kap. 1 und 2). der Aufgaben und Fragen, die in einem Test
zu bearbeiten sind, sondern bereits die An-
Ob ein Test ein stabiles Persönlichkeitsmerk- leitung (Instruktion) der Probanden. In Tests
mal oder einen vorübergehenden Zustand des maximalen Verhalten werden die Perso-
misst, lässt sich dem Verfahren selbst nicht nen gebeten, „ihr Bestes zu geben“, z. B. mög-
direkt entnehmen. Die Aufforderung in einem lichst viele Aufgaben zu lösen oder so genau
Fragebogen, anzugeben, wie man sich im All- und/oder schnell wie möglich zu reagieren.
gemeinen verhalte, bietet allein noch keine Welche Reaktionen jeweils als positiv gewer-
Garantie dafür, dass tatsächlich ein Persön- tet werden, wird ihnen anhand von Beispielen
lichkeitsmerkmal erfasst wird. Die Testwer- und Übungsaufgaben erklärt; manchmal wer-
te reflektieren ja immer zunächst einmal ein den sie auch auf mögliche Fehler hingewiesen.
bestimmtes aktuelles Verhalten. Die Stabili-
tät der gemessenen Verhaltensaspekte muss Darüber hinaus versucht man bei Leistungs-
in empirischen Untersuchungen daher eigens tests, eine kontinuierliche Anstrengungsbereit-
geprüft werden. schaft sicherzustellen. Dies kann durch die
Instruktion, die Gestaltung der Aufgaben, die
3.1.3 Typisches und „maximales“ Herstellung einer abwechslungsreichen Abfol-
Verhalten ge von Aufgabenarten, manchmal auch durch
testexterne Anreize erreicht werden. In Tests
Im Rahmen der Diagnostik von Persön- des typischen Verhaltens gibt es dagegen nor-
lichkeitsmerkmalen wird zwischen zwei malerweise keine richtigen oder falschen Ant-

34
3.1 Merkmale psychologischer Testverfahren

worten, worauf die Probanden häufig auch zeigen, das eventuell weit unter ihrem maxi-
hingewiesen werden. Um offene Antworten malen Niveau liegt. Man bezeichnet dieses
zu erhalten, hebt man hier meist die Anony- Problem als Kompetenz-Performanz-Problem:
mität der Befragung hervor (sofern sie gege- Die Performanz (das faktische Verhalten) spie-
ben ist) und vermeidet jeden leistungsthemati- gelt nicht immer die anvisierte Kompetenz wi-
schen Anstrich der Testsituation. der.
Allerdings gibt es eine Reihe von Verfahren
zur Messung von Einstellungen und anderen
Persönlichkeitsmerkmalen i. e. S., die aus der 3.1.4 Illustrative Beispiele
Sicht der Testpersonen einen klaren leistungs-
thematischen Charakter besitzen. Diese Tests Betrachten wir zur Illustration eine Reihe von
sehen so aus wie Tests des maximalen Ver- Tests zur Erfassung von Persönlichkeitsmerk-
haltens, zielen in Wirklichkeit aber auf die malen. Es handelt sich um erfundene Minia-
Erfassung des typischen Verhaltens. turversionen realer Tests, an denen sich einige
zentrale Punkte in einfacher Weise verdeutli-
chen lassen. Wir beginnen mit dem Fähigkeits-
Beispiel
und Leistungsbereich.
In einem solchen Test könnten beispielswei-
Ein typisches Beispiel für Aufgaben, die sich
se etwa gleich lange, schräg nebeneinander
in Intelligenztests finden, sind Zahlenreihen,
stehende Linienpaare gezeigt werden, wo-
die nach bestimmten Regeln aufgebaut sind
bei anzugeben ist, welche der beiden Linien
(I Kap. 12). Aufgabe der Testpersonen ist es,
jeweils die längere ist. Bestimmt wird die
die jeweilige Regel zu erkennen und die Reihe
Zahl der innerhalb der vorgegebenen Zeit
entsprechend der Regel fortzusetzen. Aufga-
beurteilten Linienpaare, wobei die Korrekt-
benreihen dieser Art werden in Intelligenztests
heit der Antworten gar nicht berücksich-
zur Messung bestimmter Aspekte des induk-
tigt wird. Was aus der Sicht der Testperso-
tiven Denkens verwendet. Induktives Denken
nen wie eine Wahrnehmungsprüfung aus-
ermöglicht es, Regelmäßigkeiten in Ereignis-
sieht, liefert in Wirklichkeit einen Indikator
folgen zu erkennen und auf dieser Grundla-
für die Tendenz, riskante Entscheidungen
ge weitere Ereignisse vorherzusagen. Diese
schnell zu treffen. Wir werden derartige
Fähigkeit ist ein wesentlicher Bestandteil der
Verfahren in I Kap. 11 noch eingehender
menschlichen Intelligenz.
besprechen.
Den Aufgaben wird üblicherweise eine kurze
Anleitung vorangestellt, in der die Fragestel-
Zu beachten ist, dass die Unterscheidung zwi-
lung erläutert und ggf. mit einem oder zwei
schen typischem und maximalem Verhalten
einfachen Beispielen illustriert wird. Hiermit
die Sichtweise der Testkonstrukteure und Test-
soll das Verständnis der Aufgabenstellung bei
anwender, nicht die der Probanden reflektiert
allen Testpersonen gesichert werden. In unse-
(vgl. Kaminski, 1970). Legen wir z. B. einer
rem Beispiel würde sich etwa die Aufgabe
Person einen Konzentrationstest mit der Bitte
vor, möglichst schnell und genau zu reagieren,
so ist es natürlich keineswegs gesagt, dass sie 2 4 6 8 10 12 __
der Aufforderung nach „maximalem Verhal-
ten“ auch nachkommt. Besitzen die Testergeb- eignen. Den Testpersonen wird erklärt, dass
nisse keine weiteren Konsequenzen für die Per- 14 als die korrekte Lösung zu notieren ist, da
son, wird sie vielleicht ihr typisches Verhalten sich die nachfolgenden Zahlen jeweils durch

35
3 Merkmale und Gütekriterien psychologischer Tests

Addition von 2 auf die Vorgängerzahl erge- Items in ihrer Schwierigkeit deutlich unter-
ben. Wird ein Aufgabenblock unter Zeitbe- scheiden. Viele Personen werden die Lösung
grenzung vorgelegt, so werden die Testperso- von Item 1 auf den ersten Blick erkennen.
nen zusätzlich darauf hingewiesen, sich nicht Demgegenüber erfordert die Lösung von Item
zu lange bei einer Aufgabe aufzuhalten und 6 einiges Nachdenken. Tatsächlich ist das Item
ggf. zur nächsten Aufgabe überzugehen. Mit 1 als „Aufwärmaufgabe“ zu verstehen. In man-
dieser Maßnahme soll erreicht werden, dass chen Tests werden mehrere solcher Aufgaben
Personen nicht bei der Bearbeitung einer spe- (oft mit Rückmeldung) gegeben. Hiermit soll
zifischen Aufgabe hängen bleiben, obwohl sie gewährleistet werden, dass allen Testpersonen
nachfolgende Aufgaben eventuell noch lösen das Aufgabenprinzip klar geworden ist, bevor
könnten. Dies würde zu einer Unterschätzung die eigentliche Messung beginnt.
ihrer Fähigkeitsausprägung führen.
Durch die Aufnahme leichter, mittelschwieri-
Eine entsprechende Aufgabenreihe könnte et- ger und schwieriger Aufgaben kann erreicht
wa folgendermaßen aussehen: werden, dass die Testwerte gut zwischen Per-
sonen mit unterschiedlichen Ausprägungen
Aufgaben zum induktiven Denken der angesprochenen Fähigkeit differenzieren.
Hierzu trägt auch eine dem Schwierigkeitsni-
(1) 3 7 11 15 19 23
veau der Aufgaben angemessene Zeitbegren-
(2) 25 24 22 19 15 10
zung bei. In unserem Beispiel wäre vermut-
(3) 10 5 8 4 7 3
lich ein bis zwei Minuten eine geeignete Be-
(4) 1 3 5 15 17 51
grenzung. Würde man mehr Zeit geben, wür-
(5) 10 24 14 12 18 6
den sehr viele Personen alle Aufgaben lösen,
(6) 2 4 3 9 7 49
so dass die Testwerte Unterschiede zwischen
den Personen nicht mehr differenziert wider-
Für die Bestimmung interindividueller Unter- spiegeln würden. Man spricht in diesem Fall
schiede im induktiven Denken mit Zahlen wür- bildlich von einer zu niedrigen „Testdecke“
de es sich anbieten, den Test Personen mit (der Test ist zu einfach). Ein analoges Problem
einer Zeitbegrenzung vorzulegen und die An- kann sich natürlich auch bei einem zu eng be-
zahl korrekt gelöster Aufgaben auszuzählen. messenen Zeitrahmen ergeben.
Die Anzahl korrekter Lösungen liefert den
Testwert. In unserem Minitest könnten die Um dem Problem einer zu niedrigen Testde-
Testwerte prinzipiell zwischen 0 und 6 gelös- cke zu begegnen, werden Fähigkeitstests meist
ten Aufgaben streuen, was natürlich nur eine so konstruiert, dass die Lösung aller Aufgaben
sehr grobe Schätzung der Merkmalsausprä- unmöglich oder doch sehr unwahrscheinlich
gung ermöglicht. Deshalb würden in einem ist. Da dieses Konstruktionsprinzip bei einigen
realen Tests sehr viel mehr Aufgaben vorge- Testpersonen zu Irritationen führen könnte, ist
legt werden. Die einzelnen Aufgaben oder Fra- es zweckmäßig, die Personen hierüber aufzu-
gen eines Tests werden – auch im Deutschen klären. In der Instruktion wird also hervorge-
– zumeist als Items bezeichnet. Die erreichten hoben, dass einige Aufgaben sehr schwierig
Leistungen oder Punkte einzelner Personen in sind und innerhalb des gegebenen Zeitrahmens
einem Test nennt man auch Scores. nicht alle Aufgaben gelöst werden können.
Der Minitest veranschaulicht einige Gesichts- Ein zweiter wichtiger Gesichtspunkt betrifft
punkte, nach denen viele Verfahren zur Mes- die Anordnung der Aufgaben. Die Aufgaben
sung intellektueller Fähigkeiten aufgebaut eines Tests werden im Allgemeinen nach ih-
sind. Zunächst ist ersichtlich, dass sich die rer Schwierigkeit gestaffelt. Leichte Aufgaben

36
3.1 Merkmale psychologischer Testverfahren

werden also an den Anfang, schwierige Auf- ferenziertes Bild der Stärken und Schwächen
gaben ans Ende des Tests gestellt. Die leichten einer Person in verschiedenen Intelligenzberei-
Aufgaben am Anfang sollen günstige kogni- chen (ein Intelligenzprofil) zu erstellen (Lie-
tive und motivationale Bedingungen für die nert & Raatz, 1994; I Kap. 12).
Aufgabenbearbeitung herstellen. Würde man
Aus unserem Alltag sind wir es gewohnt, dass
hier bereits schwierige Aufgaben stellen, er-
Testsituationen (z. B. Prüfungen) so gestaltet
gäbe sich das Risiko, dass einige Personen
sind, dass sich relativ direkte Möglichkeiten
nachfolgende Aufgaben, die sie eventuell lö-
ergeben, das jeweils interessierende Verhalten
sen könnten, nicht in Angriff nehmen.
zu beobachten. Im Unterschied hierzu weisen
Wir hatten bereits angesprochen, dass rea- psychometrische Tests jedoch manchmal kei-
le Tests zur Erfassung des induktiven Den- nen offensichtlichen Bezug zum zu messen-
kens weitaus mehr Items umfassen als unsere den Merkmal auf. In Fähigkeitstests werden
Beispiel-Aufgabenreihe. Darüber hinaus wür- die Testanforderungen z. B. häufig so gestaltet,
de ein realer Test nicht nur einen einzigen Auf- dass diejenigen mentalen Prozesse abgedeckt
gabentyp enthalten. Vielmehr ist es sinnvoll, werden, die für das interessierende Merkmal
eine Reihe verschiedener Aufgabentypen zum essenziell sind. Sie heben sich daher von ent-
induktiven Denken zu konstruieren, z. B. auch sprechenden „realen“ Anforderungen deutlich
figurale oder verbale Aufgaben (für ein Bei- ab. Dies hat im Wesentlichen zwei Gründe:
spiel siehe S. 372). Es wäre ja denkbar, dass Erstens sollen die Tests selbst von Vorkenntnis-
eine Person Regelmäßigkeiten in Abfolgen im sen und Übung im Umgang mit spezifischen
Allgemeinen sehr gut erkennen kann, aber ge- Materialien frei sein. Das Testmaterial soll al-
wisse Probleme im Umgang mit Zahlen hat. so für alle Probanden gleichermaßen neuar-
Diese Person würde in unserem Test, der nur tig sein. Zweitens soll eine breite Anwend-
einen Aufgabentyp enthält, daher unter ihrem barkeit des Tests sichergestellt werden. Die
generellen Niveau abschneiden. Ihre allgemei- Durchführung und Auswertung des Tests soll
ne Fähigkeit zum induktiven Denken würde ökonomischer sein als eine unter Umständen
also unterschätzt werden. Durch die Aufnah- recht aufwändige direkte Prüfung der relevan-
me unterschiedlicher Aufgabentypen in einen ten Leistung.
Test kann diese Unterschätzung korrigiert wer-
In unserem Beispiel lässt sich das Merkmal,
den.
das der Test messen soll, relativ einfach aus
Umfassende Intelligenztests enthalten neben dem Inhalt der Aufgaben erschließen – zu-
Aufgaben zum induktiven Denken eine Viel- mindest näherungsweise. Eine solche Trans-
zahl weiterer Aufgaben, die andere Facetten parenz liegt nicht immer vor. Dies kann ei-
der Intelligenz abdecken sollen. So werden nerseits daran liegen, dass ein anderer Ver-
z. B. andere Aspekte des logischen Denkens, haltensaspekt registriert wird, als es der Test
verbale Fähigkeiten oder das räumliche Vor- auf den ersten Blick nahe legt, andererseits
stellungsvermögen über eigene Untertests ge- daran, dass Merkmale gemessen werden, die
prüft. Verfahren, die mehrere Tests zur Prü- in unserer Alltagssprache gar keinen Begriff
fung spezifischer Aspekte eines komplexen besitzen. Ein berühmtes Beispiel hierfür ist
Merkmals umfassen, nennt man auch Testbat- der von Stroop (1935) entwickelte Farb-Wort-
terien oder Profile. Solche Testbatterien erlau- Interferenztest, kurz Stroop-Test genannt. In
ben es nicht nur, das in Rede stehende komple- diesem Test wird den Testpersonen eine lan-
xe Merkmal besser zu erfassen als Einzeltests, ge Liste von Farbnamen vorgelegt, „rot blau
bei geeigneter Zusammenstellung der Unter- grün gelb blau ...“. Die Farbnamen sind far-
tests ist es darüber hinaus möglich, ein dif- big gedruckt und zwar in zu den Farbnamen

37
3 Merkmale und Gütekriterien psychologischer Tests

Im folgenden Fragebogen finden Sie eine Reihe von Feststellungen, mit denen man sich
selbst beschreiben kann. Bitte lesen Sie jede Feststellung durch und wählen Sie aus den vier
Antwortmöglichkeiten diejenige aus, die am besten beschreibt, wie Sie sichim Allgemeinen
fühlen.

Markieren Sie bitte


• die 0, wenn die Feststellung sehr selten oder nie auf Sie zutrifft,
• die 1, wenn die Feststellung gelegentlich auf Sie zutrifft,
• die 2, wenn die Feststellung ziemlich häufig auf Sie zutrifft,
• die 3, wenn die Feststellung sehr häufig oder fast immer auf Sie zutrifft.

(1) Ich liebe es, mit anderen Menschen zusammen zu sein. 0 1 2 3


(2) Mir fehlt es an Selbstvertrauen. 0 1 2 3
(3) Ich stehe gern im Zentrum des Geschehens. 0 1 2 3
(4) Ich neige dazu, alles schwer zu nehmen. 0 1 2 3
(5) Ich bin leicht zum Lachen zu bringen. 0 1 2 3
(6) Ich fühle mich niedergeschlagen. 0 1 2 3

Abb. 3.1 Ein Miniatur-Persönlichkeitsinventar

inkongruenten Farben; so ist z. B. „blau“ in (I Abb. 3.1). Solche Tests bestehen häufig aus
roter Farbe gedruckt, „grün“ in gelber usw. einer Sammlung von Fragen oder Feststellun-
Die Aufgabe besteht darin, die Farbbezeich- gen, die sich auf die zu bestimmenden Merk-
nung zu ignorieren, und stattdessen die Farbe, male beziehen. Sie heißen deshalb Persönlich-
in der das Wort gedruckt ist, möglichst rasch keitsinventare oder -fragebogen (I Kap. 12).
zu benennen. Gemessen wird die Zeit, die die Auch hier wird eine kurze Instruktion voran-
Testperson für das Abarbeiten der ganzen Lis- gestellt, die erklärt, wie auf die Fragen oder
te benötigt. Feststellungen zu antworten ist. In unserem
Beispiel werden die Testpersonen gebeten, für
Im Stroop-Test scheint es um die Geschwin- jede der Feststellungen anzugeben, wie gut sie
digkeit zu gehen, mit der Personen Farben be- ihr eigenes Erleben und Verhalten beschreibt.
nennen können. Zumindest scheint das zu mes-
sende Merkmal irgendetwas mit dem Erken- Unser Miniaturtest formuliert Fragen zu zwei
nen von Farben und ihren Bezeichnungen zu Merkmalen. Die Feststellungen (1), (3) und
tun zu haben. Beide Vermutungen sind falsch. (5) sind einem Test zur Messung der Extraver-
Tatsächlich misst der Test die Fähigkeit ei- sion entnommen, die Feststellungen (2), (4)
ner Person, den störenden Einfluss aufdring- und (6) einem Test zur Messung angstbezo-
licher, aber aufgabenirrelevanter Reizaspekte gener Verhaltensprobleme („Neurotizismus“).
auf Verarbeitungsprozesse effektiv zu hemmen Beide Tests zielen auf die Erfassung stabiler
(I Kap. 11). Persönlichkeitseigenschaften. Dies ist aus der
Aufforderung ersichtlich, anzugeben, wie man
Als drittes Beispiel für einen Test betrachten sich im Allgemeinen fühle. Auch die Feststel-
wir die Miniaturversion eines Verfahrens zur lungen selbst sprechen eher Sachverhalte an,
Messung von Persönlichkeitsmerkmalen i. e. S. in denen sich längerfristig stabile Merkmale

38
3.1 Merkmale psychologischer Testverfahren

einer Person manifestieren. Eine Ausnahme ist Items ein Test enthält, desto differenzierter
die Feststellung (6), die sich in gleicher Formu- kann ein Merkmal durch den Summen- oder
lierung auch in einem Verfahren zur Messung Mittelwert erfasst werden.
der aktuellen Stimmung finden könnte. Wir
Genauere Messung. Einzelne Items messen
hatten bereits bemerkt, dass der Nachweis der
ein Merkmal nur relativ ungenau. Dies liegt
Stabilität eigene empirische Untersuchungen
im Wesentlichen daran, dass Items nicht nur
erfordert. Die Formulierung der Instruktion
konstruktrelevante Merkmale reflektieren, son-
und der Items alleine sind hierfür nicht zurei-
dern zum Teil auch konstruktirrelevante Merk-
chend.
male miterfassen. Betrachten wir einige Items
In unserem Test sind den Zustimmungsgra- aus einem Fragebogen zur Bestimmung von
den zu den einzelnen Feststellungen die Zah- Extraversion:
len 0 bis 3 zugeordnet. Für die Gewinnung
1. Ich gehe gern auf Parties ...
von Werten für die Ausprägung von Extra-
2. Ich liebe es, viele Leute um mich herum zu
version und angstbezogenen Problemen bietet
haben ...
es sich deshalb an, die drei jeweils zu einem
3. Ich ziehe es gewöhnlich vor, Dinge allein
der beiden Merkmale gehörenden Antworten
zu tun ...
einfach zu summieren. Eine Person, die Fest-
stellung (1) mit 3, Feststellung (3) mit 2 und Dem ersten Item werden Extravertierte auf-
Feststellung (5) mit 3 beantwortet hat, erhielte grund ihrer ausgeprägten Geselligkeit häufig
also z. B. einen Extraversionswert von 8. Auf- zustimmen. Es wird jedoch auch eine Reihe
grund der vierstufigen Antwortskala können introvertierter Personen geben, die das erste
die Extraversions- und Ängstlichkeitswerte, Item bejahen, z. B. weil sie kaltes Büfett und
die sich in unserem Test ergeben, prinzipiell Freibier mögen. Mit dem ersten Item allei-
zwischen 0 und und 9 streuen. Auch hier wäre ne würden solche Introvertierte falsch klas-
durch Hinzunahme weiterer Items eine diffe- sifiziert werden. Diese Fehlklassifikation wird
renziertere Messung möglich. durch Hinzunahme weiterer Items (zumindest
partiell) korrigiert, da Introvertierte das zwei-
te Item eher ablehnen und dem dritten Item
3.1.5 Testwerte eher zustimmen werden. Die Korrektur wird
umso besser ausfallen, je mehr Items ein Test
Im Testwert werden die zuvor kodierten (in umfasst. Die Messung wird durch Hinzunah-
Zahlen umgesetzten) Antworten auf mehre- me von Items also nicht nur differenzierter,
re Items summiert oder gemittelt. Diese (in- sondern auch genauer, da sich die mit ein-
tuitiv wahrscheinlich einleuchtende) Kombi- zelnen Items verbundenen Fehler bis zu ei-
nation hat drei Effekte, die im Allgemeinen nem gewissen Grad wechselseitig egalisieren
erwünscht sind. In Stichworten sind dies: (I Kap. 3.4).
1. feinere Differenzierung zwischen Personen,
Abstraktes Merkmal. Der dritte Effekt der
2. genauere Messung,
Summierung besteht darin, dass das mit dem
3. Erfassung eines abstrakteren Merkmals.
Testwert erfasste Merkmal abstrakter ist als
Differenzierung. Der erste Punkt ist offen- Merkmale, die mit einzelnen Items gemessen
sichtlich: Mit einem Item lassen sich maximal werden. Im Beispiel interessiert uns die Aus-
so viele Persongruppen voneinander differen- prägung der Extraversion, nicht die der Präfe-
zieren, wie Antwortoptionen vorhanden sind. renz für Parties. (Wenn uns letztere interessier-
Durch Hinzunahme weiterer Items werden im- te, würden wir auch mehrere, allerdings spe-
mer feinere Einteilungen möglich. Je mehr zifischere, Items formulieren.) Entsprechend

39
3 Merkmale und Gütekriterien psychologischer Tests

interessiert bei einer Bewerberin für den Jour- fasst. Sobald eine geeignete Itemmenge iden-
nalistenberuf die verbale Flüssigkeit, bei ei- tifiziert ist, wird der Test als Ganzes validiert
nem Techniker für Überwachungsaufgaben in und eventuell normiert. I Abb. 3.2 gibt einen
einem Atomkraftwerk das Konzentrationsver- Überblick der einzelnen Phasen der Testkon-
mögen, bei einem Schulkind die Beherrschung struktion und deren Verknüpfung. Die Darstel-
der Grundrechenarten usw. Diese Kompeten- lung ist in mehrfacher Hinsicht vereinfacht
zen sind allgemeiner als die Aufgaben, die und dient lediglich dem Zweck, eine erste
wir uns zur ihrer Erfassung ausdenken, oder Orientierung über den Prozess der Testkon-
Einzelbeobachtungen, die wir im konkreten struktion zu liefern. Wie wir später noch sehen
Fall anstellen oder heranziehen können. Von werden, lassen sich z. B. bestimmte Aspekte
Bedeutung ist, was Itemantworten (Aufgaben, der Validierung bereits in die Erprobungspha-
Beobachtungen) gemeinsam haben, nicht ihr se eines Tests einbauen (I Kap. 10). Darüber
spezifischer Inhalt. Dieses Gemeinsame lässt hinaus hat der Prozess in vielen Fällen auch
sich über Summierung oder Mittelung (allge- Rückwirkungen auf die Spezifizierung des zu
mein: durch Aggregierung über Items) gewis- erfassenden theoretischen Konstrukts, was in
sermaßen herausfiltern. der Abbildung durch die gestrichelten Linien
angedeutet ist.
Definition Aggregierung

Aggregierung meint die Zusammenfassung


von Item-, gelegentlich auch von Testwer-
3.2.1 Konstruktdefinition
ten, zu einem neuen Score. Im Allgemei-
nen handelt es sich dabei einfach um die
Bildung der Summe oder des Mittelwerts
Ausgangspunkt der Testkonstruktion ist eine
aus den Ausgangswerten. Manchmal wer-
möglichst genaue Definition des zu messenden
den die Ausgangswerte zuvor transformiert
Konstrukts. Im Idealfall kann man sich dabei
(z. B. z-transformiert, um sie auf die gleiche
auf ein ausformuliertes psychologisches Mo-
Skala zu bringen, I Kap. 3.6.1) oder – je
dell des interessierenden Merkmals stützen,
nach ihrer Bedeutung für den zu bildenden
aus dem sich Kriterien für die Formulierung
neuen Score – unterschiedlich gewichtet.
von Items in direkter Weise ableiten lassen.
Häufiger jedoch wird man sich mit vorläufi-
Durch Aggregierung werden im Testwert gen Explikationen und Arbeitsdefinitionen des
nichtrelevante Anteile der Items teilweise un- Merkmals begnügen müssen, die sich erst im
terdrückt (Wittmann & Matt, 1986). Der Test Rahmen weiterer Forschung hinreichend prä-
reflektiert damit ein allgemeineres Merkmal zisieren lassen. Zu dieser Forschung gehören
als die einzelnen Items. natürlich auch die im Rahmen der Testkon-
struktion durchgeführten Untersuchungen, die
wesentlich zur Begriffsklärung beitragen kön-
nen. So kann es sich z. B. als notwendig erwei-
3.2 Zusammenstellung von Items
sen, ein zunächst einheitlich konzipiertes Kon-
strukt in verschiedene Facetten aufzuspalten,
Die Testkonstruktion ist ein mehrstufiger Pro- für welche die Entwicklung separater Skalen
zess, der die Konstruktdefinition, die Erstel- sinnvoll ist.
lung einer vorläufigen Itemmenge zur empiri-
schen Erfassung des Konstrukts, deren Erpro- Ein bekanntes Beispiel hierfür ist die Aufspal-
bung, Analyse, Bewertung und Revision um- tung der Zustandsangst in eine kognitive und

40
3.2 Zusammenstellung von Items

Konstrukt

Itemmenge Revision Normierung

Abb. 3.2
Phasen der Erprobung Itemanalyse Validierung
Testkonstruktion

eine emotionale Komponente, wie sie von Lie- Aufgeregtheit. Beide Sachverhalte liefern wei-
bert und Morris (1967) in die Prüfungsangst- tere Evidenz dafür, dass es sinnvoll ist, mindes-
forschung eingeführt wurde. Hier werden zwei tens zwei Angstkomponenten zu unterschei-
Reaktionskomponenten differenziert (kogniti- den (Laux, Hock, Bergner-Köther, Hodapp
ve Komponente: Besorgnis und Gedanken an & Renner, 2013; Morris, Davis & Hutchings,
mögliches Versagen; emotionale Komponente: 1981).
wahrgenommene körperliche Aufgeregtheit).

Ein weiteres Beispiel ist die Differenzierung 3.2.2 Erstellung der Itemmenge
nach situativen Bedingungen, die zur Angst-
auslösung führen. Es hat sich z. B. als sinn- Der zweite Schritt der Testkonstruktion be-
voll erwiesen, Angst in selbstwertbedrohli- steht in der Zusammenstellung einer vorläufi-
chen Situationen (z. B. einer mündlichen Prü- gen Itemmenge. Hier werden Items formuliert,
fung) und Angst in physisch bedrohlichen Si- die das in Rede stehende Konstrukt operatio-
tuationen (etwa einem schwerwiegenden chi- nalisieren sollen und somit als empirische In-
rurgischen Eingriff) getrennt zu erfassen, da dikatoren des Konstrukts dienen. In ihrer Ge-
die beiden Reaktionstendenzen nur vergleichs- samtheit sollen die Items das Konstrukt und
weise schwach miteinander zusammenhängen seine Facetten möglichst genau repräsentieren.
(Krohne, 2010).
Definition Item
Im Rahmen der Testkonstruktion werden zur
Klärung solcher Fragen meist Faktorenanaly- Unter Items werden Fragen, Aufgaben oder
sen oder andere statistische Klassifikationsver- kurze Feststellungen verstanden, die von
fahren eingesetzt (I Kap. 4). Darüber hinaus den Testpersonen beantwortet bzw. bearbei-
können Analysen des zeitlichen Verlaufs und tet werden sollen. Zu einem Item gehören
Untersuchungen der externen Korrelate des ein Itemstamm und ein bestimmtes Ant-
Testverhaltens eine differenziertere Bestim- wortformat. Im Itemstamm wird die Frage,
mung des Konstrukts nahelegen. Aufgabe oder Feststellung formuliert, im
Rahmen eines Wissenstests z. B.
Im Verlauf der Annäherung an eine Prüfung Was ist ein Axiom?
steigt die körperliche Aufgeregtheit z. B. stei- Das Antwortformat kann entweder offen
ler an als die Besorgnis. Sie fällt nach der Prü- oder gebunden sein. Beim offenen Antwort-
fung auch schneller wieder ab. Außerdem ist format formuliert die Testperson die Ant-
Besorgnis stärker mit schlechten Prüfungsleis- wort selbst. Beim gebundenen Antwortfor-
tungen (externes Korrelat) assoziiert als die mat werden dagegen mehrere Antwortop-

41
3 Merkmale und Gütekriterien psychologischer Tests

tionen vorgegeben, zwischen denen die Per- Nicht für jeden Einsatzzweck müssen aller-
son wählt, im Beispiel etwa dings Idealforderungen an die Reliabilität ge-
stellt werden. Wichtig ist hier primär die inten-
(a) eine grundlegende Aussage einer
dierte bzw. für eine bestimmte Fragestellung
Theorie,
notwendige Präzision der endgültigen Skala.
(b) die exakte Bestimmung eines Begriffs,
Wird ein Test im Rahmen eines bestimmten
(c) ein lateinisches Fremdwort,
Projekts beispielsweise nur für Vergleiche von
(d) der Fortsatz einer Nervenzelle.
Gruppenmittelwerten benötigt, lassen sich An-
forderungen an die Messpräzision geringer an-
setzen als dies für individualdiagnostische Fra-
Für die Erprobungsphase sollten mehr Items gestellungen der Fall ist.
formuliert werden als für den endgültigen Test
Während Repräsentativität und Messpräzision
geplant sind, da sich eine Reihe von Items in
eher eine hohe Itemzahl nahelegen, sprechen
den nachfolgenden Schritten der Itemanalyse
Ökonomie und Testmotivation für kurze Tests.
und -bewertung als ungeeignet herausstellen
Hier muss abgewogen werden zwischen wis-
können. „Mehr“ ist hier also besser als „weni-
senschaftlichen Ansprüchen einerseits, den im
ger“. Wieviele Items formuliert werden sollten,
Rahmen eines konkreten Projekts realisierba-
hängt von einer Reihe von Faktoren ab. Un-
ren und für die Testpersonen zumutbaren Be-
ter allgemeinen Gesichtspunkten sind hier vor
dingungen andererseits. Es ist klar, dass sich
allem die Repräsentativität der Items, die Re-
unter Gesichtspunkten einer für die Bearbei-
liabilität des Tests, die Ökonomie der Messung
tung der Fragen und Aufgaben günstigen Test-
sowie die Testmotivation zu beachten.
motivation die Testlänge nicht beliebig erhö-
hen lässt, zumal bei diagnostischen Untersu-
Die Forderung, dass die Items das zu erfas-
chungen meist mehrere Testverfahren durch-
sende Merkmal möglichst gut repräsentieren
geführt werden müssen.
sollen, wird mit vielen Items eher zu erfüllen
sein als mit wenigen. Gleiches gilt für die For- In gängigen Persönlichkeitstests werden für
derung nach einer hohen Reliabilität, die ge- die Messung eines Merkmals in der Regel
nerell für eine höhere Itemzahl spricht. Unter zwischen 10 und 30 Items eingesetzt. Nimmt
sonst gleichen Bedingungen kann ein Merk- man in die initiale Itemmenge etwa die dop-
mal umso genauer gemessen werden, je mehr pelte Zahl von Items auf, dürfte dies für vie-
Items ein Test umfasst (I Kap. 3.4.3). le Zwecke ausreichen. Dies ist allerdings nur
ein grober und keinesfalls allgemein gültiger
Die Messpräzision der Tests ist ihrerseits ei- Richtwert. Für die zuverlässige Messung eines
ne Funktion der messtechnischen Qualität der weiten Merkmals, etwa allgemeine Intelligenz,
einzelnen Items. Je höher diese ist, desto we- wird ein Vielfaches dieses Richtwerts benötigt.
niger Items werden für das Erreichen einer Auf der anderen Seite können ungefähre Schät-
vorgegebenen Messpräzision der Gesamtskala zungen der Ausprägung von Persönlichkeitsei-
benötigt. Hierüber besitzt man zu Beginn des genschaften wie Neurotizismus oder Extraver-
Konstruktionsvorgangs natürlich noch keine sion-Introversion bereits mit kürzeren Skalen
genauen Vorstellungen, weshalb sich zu die- gewonnen werden.
sem Zeitpunkt nur ungefähre Angaben über
die anzustrebende Zahl von Items machen las- 3.2.3 Itemformulierung
sen. Über genauere Information verfügt man,
wenn man die in Abbildung 3.2 dargestellte Für die Itemformulierung sind primär Theo-
Schleife mindestens einmal durchlaufen hat. rien und Modelle des anvisierten Merkmals

42
3.2 Zusammenstellung von Items

ausschlaggebend. Daneben existieren eine Rei- Konditionalsätze. Konditionalsätze („Wenn


he von formalen Gesichtspunkten, die bei der ..., dann ...“) sind häufig ebenfalls Kandidaten
Konstruktion von Items beachtet werden soll- für Umformulierungen, da hier bei Personen,
ten. In diesem und dem folgenden Unterab- auf die der Wenn-Teil nicht zutrifft, Unsicher-
schnitt werden dabei generelle Gesichtspunkte heit erzeugt und damit die Antwort mehrdeutig
dargestellt. Sachverhalte, die primär einzelne wird. Ausnahmen sind hier Bedingungen, die
Zugangsweisen zur Erhebung diagnostischer für jede Person zutreffen oder zumindest leicht
Daten betreffen, werden in Teil IV diskutiert. vorstellbar sind.

Bei verbalen Items besteht der wichtigste Passung von Itemstamm und Antwortfor-
Gesichtspunkt in der Anpassung der Formu- mat. Besonders zu beachten ist die Beziehung
lierung an das Sprachniveau der anvisier- zwischen Itemstamm und Antwortformat. Es
ten Zielgruppen. Die folgende Liste enthält ist für jedes Item zu prüfen, ob der Itemstamm
die wichtigsten Richtlinien, von denen einige zum verwendeten Antwortformat passt. Wenn
sinngemäß auch auf nichtverbale Aufgaben dies nicht der Fall ist, wird man den Item-
(z. B. Bildvorlagen oder Computeranimatio- stamm umformulieren. Auf die ebenfalls mög-
nen) übertragbar sind. liche Anpassung des Antwortformats für ein-
zelne Items verzichtet man meist, da ein ein-
Verständlichkeit. Items sollten unmittelbar heitliches Antwortformat die Bearbeitung des
verständlich sein. Dies impliziert kurze, präg- Tests und die Analyse der Items vereinfacht.
nante und eindeutige Formulierungen. Dar-
über hinaus sollten Fremdwörter, Fachbegriffe Um Klarheit und Eindeutigkeit der Items zu
oder regionale Eigenheiten vermieden werden. gewährleisten, empfiehlt es sich, die Items in
Schwer verständliche oder mehrdeutige For- der Erprobungsphase von Mitgliedern der Ziel-
mulierungen erzeugen Unsicherheit und ver- gruppe mündlich beantworten und kommentie-
leiten zu Zufallsantworten. ren zu lassen. Hier erfährt man nicht nur eini-
ges über die Interpretation der Items durch die
Negative Formulierungen. Auch Verneinun- Testpersonen, man erhält darüber hinaus auch
gen sollten nach Möglichkeit vermieden wer- Anregungen für alternative und ggf. besser ge-
den, da sie leicht überlesen werden oder Un- eignete Formulierungen. Dies ist besonders
sicherheiten erzeugen können. Wenn negative wichtig, wenn der Test in Zielgruppen einge-
Formulierungen notwendig sind, sollten sie setzt werden soll, denen die Testkonstrukteure
deutlich hervorgehoben werden, etwa durch selbst nicht angehören, etwa bei Kindern.
Fettdruck oder Unterstreichung. Doppelte Ver-
neinungen sollten auf keinen Fall verwendet Neben diesen formalen Aspekten sind natür-
werden. lich auch inhaltliche Gesichtspunkte bei der
Itemformulierung maßgebend. Es ist klar, dass
Eindeutigkeit. Pro Item sollte immer nur ge- sexistische, rassistische oder andere mögli-
nau ein Sachverhalt angesprochen werden. An- cherweise verletzende Formulierungen unter-
sonsten bleibt unklar, auf welchen Teil der bleiben. Ein heikles Thema sind Items, in de-
Feststellung die Testpersonen jeweils reagie- nen Sachverhalte aus der Privatsphäre der Test-
ren. Items, die „und“ bzw. „oder“ beinhalten, personen angesprochen werden (siehe Zier,
sprechen meist mehrere Sachverhalte an und 2002). Solche Items sind in vielen psycho-
sollten deshalb vereinfacht werden. (Ausnah- logischen Anwendungen, besonders etwa im
men sind hier feststehende Redewendungen, Bereich der klinischen Diagnostik, jedoch un-
wie etwa „ruhig und gelassen“.) verzichtbar.

43
3 Merkmale und Gütekriterien psychologischer Tests

Ein Teil der Problematik „intimer“ Items rührt oder mehr vorgegebenen Antwortmöglichkei-
daher, dass Laien zu der falschen Annahme ten die ihrer Meinung nach korrekte oder für
tendieren, die Auswertung und Interpretation sie zutreffende Option aus. Im obigen Beispiel
von Tests erfolge auf Grundlage einer Inspek- („Was ist ein Axiom?“) wurde ein gebundenes
tion der Antworten auf einzelne Items (so wie Antwortformat verwendet, da von vier Ant-
wir unser Verhalten in Gesprächen ja auch auf wortoptionen eine als korrekt zu identifizieren
einzelne Äußerungen abstellen). Dass dies je- war. Bei Verwendung eines offenen Antwort-
doch bei den meisten Testverfahren gerade formats würde man die Personen die Defini-
nicht der Fall ist, dürfte Laien schwer zu ver- tion selbst formulieren lassen und anschlie-
mitteln sein. Antworten auf einzelne Items in- ßend als korrekt oder inkorrekt klassifizieren.
teressieren hier nur insoweit, als sie in die Bil- Korrekte Antworten kodiert man dabei mit 1,
dung von Testwerten eingehen. Bei rechner- inkorrekte mit 0. Bei einigen Leistungstests
gesteuerter Testdarbietung bzw. -auswertung mit offenem Format werden manchmal auch
werden die einzelnen Antworten häufig gar differenziertere Abstufungen verwendet. So
nicht einmal betrachtet. Dessen ungeachtet ist könnte man hier z. B. zwei Punkte für eine op-
auf die Laienperspektive in jeder konkreten timal treffende Antwort geben, einen Punkt
Testanwendung Rücksicht zu nehmen. Dabei für eine teilweise akzeptable. Diese Praxis ist
liegt es in der Verantwortung der Testanwen- allerdings im Hinblick auf die Auswertungs-
der (nicht der Testkonstrukteure), die Ange- objektivität nicht ganz unproblematisch.
messenheit der Itemformulierungen im aktuel-
Offenes Antwortformat. Verfahren mit offe-
len Kontext zu prüfen und ggf. auf ein anderes
nem Format lassen sich u. a. nach dem Ant-
Verfahren auszuweichen.
wortmodus (verbal, schriftlich, zeichnerisch
usw.) und nach dem Grad der Vorstrukturie-
rung der Antworten unterteilen. Ein nichtver-
3.2.4 Antwortformate bales Antwortformat findet sich häufig bei
Fähigkeits- und Leistungstests. So müssen
Das Antwortformat der Items kann den Cha- sich die Probanden in einem bekannten Ge-
rakter des Tests und damit auch die Reaktio- dächtnistest zunächst den auf einem Stadtplan
nen der getesteten Personen stark beeinflus- eingezeichneten Weg von einem Start- zu ei-
sen (Schwarz, 1999; I Kap. 10). Auch die nem Zielort einprägen und in einer anschlie-
Bestimmung der psychometrischen Kennwer- ßenden Erinnerungsphase auf einem neuen
te der Items und des Tests hängen zum Teil Stadtplan nachzeichnen (Bäumler, 1974). In
vom Antwortformat ab. Es ist deshalb wichtig, diesem Beispiel sind die Antwortmöglichkei-
ein für den Anwendungszweck des Verfahrens ten durch den vorgegebenen Stadtplan bis zu
optimal geeignetes Format zu wählen. Im Fol- einem gewissen Grad vorstrukturiert. Freiere
genden schildern wir die gängigsten Antwort- Antwortmöglichkeiten haben die Testpersonen
formate und geben an, wie die Antworten im bei sog. projektiven Verfahren wie dem The-
Hinblick auf ihre anschließende Verrechnung matischen Apperzeptionstest, in dem die Per-
im Testwert kodiert werden können. sonen Geschichten zu vorgegebenen Bildern
erfinden sollen. Die gelieferten Geschichten
Wie bereits angedeutet wurde, kann man
werden dann nach verschiedenen, zum Teil
grundsätzlich zwischen einem offenen und ei-
recht komplizierten Richtlinien kodiert und
nem gebundenen Antwortformat unterschei-
verrechnet (I Kap. 11).
den. Beim offenen Format generieren die Test-
personen die Antwort selbst. Demgegenüber Gebundenes Antwortformat. Auch beim ge-
wählen sie beim gebundenen Format aus zwei bundenen Antwortformat existieren eine Rei-

44
3.2 Zusammenstellung von Items

he von Varianten. Bei Verfahren zur Messung Sofern die Testvorgabe bzw. -auswertung nicht
von Persönlichkeitseigenschaften i. e. S., Ein- computergestützt bzw. maschinell erfolgt, ist
stellungen oder aktuellen Emotionen wird häu- dieses Antwortformat etwas unpraktisch, da
fig entweder ein dichotomes (zweiwertiges) die Markierungen hier vermessen werden müs-
Format oder ein Format mit mehreren geord- sen.
neten Antwortkategorien eingesetzt. Ein di-
Die bisher gezeigten Beispiele verwendeten
chotomes Format bietet zwei Antwortoptio-
unipolare Skalen, die von einer Null- bis zu
nen (z. B. trifft zu und trifft nicht zu), wobei
einer maximalen Ausprägung reichen. Eine
die Antworten generell im Sinne des zu erfas-
Alternative besteht im Einsatz bipolarer Ska-
senden Merkmals kodiert werden. Bei Items
len, die von einem Pol über einen neutralen
mit mehreren geordneten Antwortkategorien,
oder indifferenten Punkt zu einem Gegenpol
sog. Rating- (Einstufungs-) oder Likert-Ska-
reichen, etwa
len, werden drei oder mehr Antwortoptionen
formuliert, die nach Häufigkeiten, Intensitäten
oder Zustimmungsgraden geordnet sind, wie Im Moment fühle ich mich ...
in unserem Beispiel in I Abb. 3.1 (S. 38).
traurig 2 1 0 1 2 glücklich
Das Ratingformat wird dem dichotomen For-
angespannt 2 1 0 1 2 gelöst
mat meist vorgezogen, da es eine differenzier-
tere Bestimmung des in Rede stehenden Merk-
mals erlaubt. Neben Häufigkeiten bzw. Wahr- Als Vorteil bipolarer Skalen wird geltend ge-
scheinlichkeiten und Zustimmungs- bzw. Ab- macht, dass sich die Begriffspaare gegenseitig
lehnungsgraden werden zur verbalen Etiket- erläutern und damit den erfragten Sachverhalt
tierung der Antwortoptionen auch Prozentzah- verdeutlichen können. Dabei muss allerdings
len, Intensitäten oder Zeitintervalle verwendet. sichergestellt sein, dass die Anker von allen
Die Antworten werden mit gleichabständigen Testpersonen als Gegenpole aufgefasst wer-
ganzzahligen Werten verrechnet. Nicht immer den, was sicher nicht immer gewährleistet ist.
werden dabei alle Antwortoptionen verbal ver-
Tatsächlich sind bipolare Skalen unipolaren
ankert. Manchmal begnügt man sich mit ei-
keineswegs generell vorzuziehen. Die beiden
ner Beschreibung der Extremausprägungen
Beispiele beziehen sich auf aktuelle Affekte,
der Skala und kennzeichnet Zwischenstufen
die im Allgemeinen nicht gleichzeitig vorlie-
mit Zahlen oder Symbolen, also etwa
gen; hier kann die Verwendung einer bipo-
laren Skala durchaus Sinn machen. Ist man
trifft überhaupt trifft
0 1 2 3 4 dagegen an längerfristigen Verhaltensaspekten
nicht zu sehr zu
interessiert, beispielsweise an der „Affektla-
ge“ von Personen während der letzten Wo-
wobei die Testpersonen in der Instruktion mit che, wird man die Items in jeweils zwei Fra-
der Verwendung der Skala vertraut gemacht gen mit unipolarem Antwortformat aufspalten.
werden. Eine Variante sind graphische Rating- Der Grund hierfür liegt im sog. Ambivalenz-
skalen, in denen die Personen nicht zwischen Indifferenzproblem, das mit bipolaren Skalen
diskreten Optionen wählen, sondern ihr Ur- verknüpft sein kann. Während extreme Ant-
teil durch Markierung einer Stelle auf einem worten auf bipolar formulierte Items eine klar
Kontinuum abgeben: umrissene Bedeutung besitzen (die Person war
überwiegend traurig oder überwiegend glück-
trifft überhaupt trifft lich), sind Antworten im Mittelbereich mehr-
nicht zu sehr zu deutig. Solche Antworten können einerseits

45
3 Merkmale und Gütekriterien psychologischer Tests

indizieren, dass die Stimmung der Person in hier letztlich inhaltliche und konzeptuelle Ge-
der letzten Woche ausgeglichen war und im sichtspunkte ausschlaggebend. Für manche
„normalen Bereich“ lag (Indifferenz). Sie kön- Fragestellungen ist die Vorgabe eines neutra-
nen aber auch bedeuten, dass beide Affekte len Ankerwerts durchaus sinnvoll oder sogar
(Trauer und Freude, Angespanntheit und Ge- notwendig, z. B. bei der Erfassung ästhetischer
löstheit) vorlagen (Ambivalenz). Durch Ver- oder affektiver Bewertungen, bei denen gera-
wendung unipolarer Items, in denen Trauer, de auch indifferente Urteile interessieren. So-
Freude, Angespanntheit und Gelöstheit sepa- fern solche Gesichtspunkte keine Rolle spie-
rat erfasst werden, lassen sich diese Möglich- len, wird man jedoch eine gerade Antwortzahl
keiten differenzieren. favorisieren.
Zwei wichtige Fragen beim Einsatz des Ra- Seltener verwendet werden Checklisten, wie
tingformats, die uni- und bipolare Skalen be- etwa
treffen, beziehen sich auf die Anzahl der Ant- Welche der folgenden Affekte haben Sie heute
wortoptionen und die Verwendung einer „neu- erlebt?
tralen“ mittleren Kategorie.
o Angst o Ärger o Freude o Scham
Die Wahl der Anzahl der Antwortoptionen
o Stolz o Trauer
bzw. -stufen hängt davon ab, wie gut die Pro-
banden in dem in Rede stehenden Bereich Bei Checklisten steht es den Personen frei,
differenzieren können. Wird die Differenzie- keine, eine oder mehrere der aufgeführten Op-
rungsfähigkeit der Probanden überschritten, tionen anzukreuzen. Hier könnte man z. B. die
gewinnt man mit feineren Skalen nicht wirk- Anzahl angegebener negativer Emotionen aus-
lich mehr Information als mit gröberen, da die zählen.
Feinabstufungen von den Testpersonen dann
entweder nicht oder in unsystematischer Weise Anders ist dies bei sog. Zwangswahlitems
genutzt werden. In gängigen Persönlichkeits-, (engl. forced-choice items). Bei solchen Items
Interessen- und Einstellungstests werden im werden mehrere miteinander unvereinbare
Allgemeinen zwischen vier und elf Antwort- Itemstämme vorgegeben, zwischen denen
stufen verwendet, wobei vier bis sechs Op- sich die Probanden entscheiden müssen. So
tionen am häufigsten sind. Bei Kindern wer- gibt es etwa im Fragebogen zur interna-
den meist weniger differenzierte Antwortfor- len/externalen Kontrollüberzeugung von Rot-
mate eingesetzt. Häufig beschränkt man sich ter (1966; I Kap. 10.3.1) das folgende Item:
hier auf ein dichotomes Antwortformat, des-
(a) Auf lange Sicht wird jeder so angesehen,
sen Nutzung Kindern leichter fallen sollte.
wie er es verdient.
Von der Verwendung einer mittleren Antwort- (b) Unglücklicherweise wird der Wert eines
kategorie (und damit einer ungeraden Zahl von Menschen oft nicht bemerkt, egal, wieviel
Antwortoptionen) wird häufig abgeraten, da Mühe er sich gibt.
Probanden, welche die Items oberflächlich be-
antworten oder nicht bereit sind, Informati- Im Beispielfall würde die Wahl der Alter-
on über sich preiszugeben, diese Kategorie native (a) einen Punkt in Richtung interna-
bevorzugen könnten. Verzichtet man auf ei- le Kontrollüberzeugung ergeben. Das Forced-
ne Mittelkategorie, verwendet also eine gera- Choice-Format wird besonders häufig verwen-
de Zahl von Antwortmöglichkeiten, werden det, wenn es um das Diagnostizieren unter-
die Personen gezwungen, zumindest eine Ten- schiedlicher Interessen, beispielsweise Berufs-
denz erkennen zu lassen. Natürlich sind auch interessen, geht (I Kap. 10.4).

46
3.2 Zusammenstellung von Items

Bei Wissens-, Fähigkeits- und Leistungstests wenig ausmacht, sofern die als korrekt defi-
findet man häufig das Mehrfach-Wahl- (mul- nierte Option eindeutig besser trifft, ist dies
tiple choice) und Zuordnungsformat. Beim in der Multiple-Response-Variante fatal und
Multiple-Choice-Format (MC-Format) werden schafft auch bei Personen, welche die korrekte
mehrere mögliche Antworten vorgegeben, von Antwort kennen, Unsicherheit. Üblicherweise
denen jeweils eine als korrekt zu identifizieren wird beim MC-Format eine korrekte Antwort
ist. Ein Beispiel hatten wir oben bereits ken- mit 1, eine inkorrekte oder fehlende Antwort
nengelernt („Was ist ein Axiom“). Die inkor- mit 0 verrechnet.
rekten Antwortoptionen werden als Distrakto-
ren bezeichnet. Sie sollen für Personen, wel- Bei Zuordnungsverfahren (engl. matching)
che die richtige Antwort nicht kennen, anspre- werden zwei Listen von Gegenständen oder
chend, andererseits jedoch eindeutig falsch Konzepten konstruiert, zwischen denen eine
sein. Die Kunst, geeignete MC-Items zu for- Korrespondenz herzustellen ist, z. B.
mulieren, besteht deshalb primär in der Kon- Ordnen Sie jeder der folgenden Personen die ihr
struktion guter Distraktoren, die ein Erraten zugeschriebene Erfindung zu. Schreiben Sie den
der korrekten Option unwahrscheinlich ma- Buchstaben in das frei gelassene Feld.
chen. Auf die Verwendung eines dichotomen
Formats (eine korrekte Option, ein Distrak- James Watt __ (a) Telefon
tor) verzichtet man deshalb (außer man hat Philipp Reis __ (b) Computer
die Möglichkeit, sehr viele Items zu geben). Konrad Zuse __ (c) Blitzableiter
Im Allgemeinen werden zwischen vier und O. H. v. Mayenburg __ (d) Dampfmaschine
zehn Antwortoptionen formuliert. Es ist klar, Benjamin Franklin __ (e) Glühbirne
dass sich unter sonst gleichen Bedingungen (f) Zahnpasta
Ratetendenzen umso weniger bemerkbar ma-
chen können, je mehr Distraktoren formuliert Wie ersichtlich, sind die beiden Listen unter-
werden. schiedlich lang. Hierdurch wird vermieden,
dass die letzte (im Beispiel die fünfte) Zuord-
In einer Variante von MC-Items kann mehr nung aufgrund der anderen Zuordnungen be-
als eine der Antwortoptionen korrekt sein, reits festgelegt ist. Für die Verrechnung kann
evtl. können sogar alle zutreffen. (Das For- man die Anzahl der korrekten Zuordnungen
mat wird manchmal als Multiple-Choice- zählen und evtl. hiervon die Zahl der inkorrek-
Multiple-Response-Format angesprochen und ten Zuordnungen subtrahieren.
damit vom üblicheren Multiple-Choice-Single- Offenes oder gebundenes Format? Bei der
Format abgehoben.) Dies macht ein Erraten Entscheidung zwischen offenem und gebunde-
noch schwieriger, da einem vollständig korrek- nem Antwortformat sind eine Reihe von Vor-
ten Antwortmuster bei k Optionen in diesem und Nachteilen zu bedenken. Der beim offe-
Fall 2k − 2 inkorrekte Antwortmuster gegen- nen Format gegebene große Antwortspielraum
über stehen, bei einem Item mit vier Antwort- kann diagnostisch sehr aufschlussreich sein.
optionen also z. B. bereits 14 anstelle von nur Für die Erfassung einer Reihe von Verhaltens-
drei. Derartige Items werden allerdings von aspekten, z. B. kreativer Leistungen, sind freie
den Probanden häufig als unfair empfunden. Antworten unabdingbar.
Darüber hinaus stellen sie sehr hohe Anfor-
derungen an die Formulierung der Distrak- Tests mit offenem Antwortformat verlangen ei-
toren. Während bei der normalen Vorgabe ne Kategorisierung, ggf. auch eine darüber hin-
ein etwas mehrdeutig formulierter Distraktor, ausgehende Bewertung der Antworten, wäh-
der evtl. als richtig aufgefasst werden könnte, rend die Antworten beim gebundenen Format

47
3 Merkmale und Gütekriterien psychologischer Tests

gewissermaßen automatisch kategorisiert wer- 3.3 Itemkennwerte und


den. Die Auswertung offener Items ist also Testwertverteilung
mit höherem Aufwand verbunden als die ge-
bundener Items. Unter dem Gesichtspunkt der
Auswertungsökonomie ist das gebundene For- In der Erprobungsphase werden die für die
mat daher zu präferieren. Itembewertung und -auswahl notwendigen em-
Auch die Auswertungsobjektivität spricht für pirischen Daten erhoben. Hierfür wird die er-
die Verwendung des gebundenen Antwortfor- stellte Vorform des Tests einer Stichprobe aus
mats. Sie kann beim offenen Format proble- der Zielpopulation vorgelegt. Dabei wird es
matisch sein. Dies ist beispielsweise der Fall, aus praktischen Gründen häufig nicht möglich
wenn die Antworten hinsichtlich bestimmter sein, eine repräsentative Stichprobe zu ziehen
Qualitätsaspekte bewertet werden müssen. Die – obwohl dies natürlich der Idealfall wäre. In
von einer Testperson gegebene Definition des jedem Fall sollte man sich darum bemühen,
Begriffs Axiom im obigen Beispiel kann etwa dass die Verteilung der jeweils interessieren-
mehr oder weniger treffend sein, so dass sich den Merkmale in der Stichprobe deren Vertei-
hier bei der Bewertung gewisse Spielräume lung in der Zielpopulation nahe kommt. Ins-
ergeben. besondere ist darauf zu achten, dass die Merk-
malsstreuung in der Stichprobe möglichst breit
Die Testmanuale enthalten zwar meist rela- und nicht etwa durch die Auswahl der Per-
tiv detaillierte Auswertungsrichtlinien, können sonen eingeschränkt ist. Man spricht in die-
aber naturgemäß nicht alle möglichen Reak- sem Fall von spezifischer Repräsentativität;
tionen der Probanden antizipieren. Besonders gemeint ist, dass die Verteilung der interessie-
offensichtlich ist dies etwa bei Kreativitäts- renden Merkmale (etwa Gewissenhaftigkeit)
tests, in denen bei einer Reihe von Items die repräsentativ ist, nicht aber notwendigerweise
Originalität der Antworten eingeschätzt wer- die Verteilung anderer Merkmale (etwa räum-
den muss. In solchen Fällen muss die Auswer- liches Vorstellungsvermögen). Für die Kon-
tungsobjektivität der Skalen eigens bestimmt struktion eines Intelligenztests für Erwachse-
werden. Bei gebundenen Format ist dies nicht ne wäre es z. B. unangebracht, die notwendi-
erforderlich. Hier können Fehler allein bei der gen Voruntersuchungen an Studierenden vor-
Übertragung der Werte unterlaufen, was sich zunehmen, für die nicht nur höhere Merkmals-
relativ leicht kontrollieren und ggf. korrigie- ausprägungen, sondern auch eine geringere
ren lässt. Die Auswertungsobjektivität ist hier Streuung des Merkmals zu erwarten ist als in
zumeist optimal. der Zielpopulation. In diesem Fall würden die
Stichprobenkennwerte die Verhältnisse in der
Bei Aufgaben, deren Beantwortung als richtig Population nicht genau reflektieren, eventuell
oder falsch klassifiziert werden kann, liegt ein sogar ein stark verzerrtes Bild liefern.
Vorteil des offenen Formats darin, dass Rate-
tendenzen meist nur eine vernachlässigbar ge- Im Rahmen der Item- und Testanalyse werden
ringe Rolle spielen. Beim gebundenen Format die Items im Hinblick auf ihre psychometri-
können individuelle Unterschiede in der Be- schen Eigenschaften analysiert und bewertet.
reitschaft, bei Nichtwissen oder nur partiellem Ziel ist es dabei, in messtechnischer Hinsicht
Wissen zu raten (eine der Antwortoptionen an- angemessene Items für die zu erstellende Test-
zukreuzen), die Testresultate ggf. verzerren. endform auszuwählen. Items, die sich als un-
Dem kann aber durch geeignete Instruktionen, geeignet erweisen, werden eliminiert oder mo-
evtl. auch durch technische Korrekturen entge- difiziert. Darüber hinaus kann es sich manch-
gengewirkt werden (Lienert & Raatz, 1998). mal als notwendig erweisen, neue Items zu

48
3.3 Itemkennwerte und Testwertverteilung

formulieren. Modifikationen des Tests erfor- dabei entweder von 1 bis zur Anzahl der Ant-
dern natürlich auch eine erneute Erprobung. wortoptionen oder von 0 bis zur Kategorienan-
Auf der Grundlage der Ergebnisse der Item- zahl minus 1. Auch hier ist es natürlich wich-
analysen wird eine revidierte Form des Tests tig, auf die einheitliche Polung der Kodierung
erstellt. Die revidierte Testform wird anschlie- zu achten. Die Zuordnung muss in Schlüssel-
ßend einer zweiten Stichprobe vorgelegt und richtung erfolgen, wie man sagt. Quantitative
erneut analysiert. Diese Schleife wird so lange Itemwerte ergeben sich auch dann, wenn die
durchlaufen, bis die optimal geeigneten Items Antworten hinsichtlich bestimmter Aspekte
identifiziert sind. Diese gehen in die Endform bewertet werden (z. B. hinsichtlich ihrer Ori-
des Tests ein. ginalität in einem Kreativitätstest).
Wie wir bereits sahen, werden für die Itemana- Testwerte werden durch Summierung oder
lyse den Antworten der Personen Zahlen zuge- Mittelung der Itemwerte gebildet, wie wir be-
ordnet. In einigen Anwendungen dienen diese reits sahen. Bei binären Items kennzeichnet
Zahlen lediglich als Kategorien, die verschie- der Testwert dann die Zahl bzw. die relative
dene Antworten oder Antwortklassen vonein- Häufigkeit korrekter Antworten oder die Zahl
ander differenzieren sollen. In diesem Fall bzw. relative Häufigkeit von Antworten, die
könnten auch Buchstaben oder verbale Kenn- im Sinne des Merkmals abgegeben wurden.
zeichnungen verwendet werden. Meist werden
die Antworten jedoch als Indikatoren eines Der Testwert ist das, was uns eigentlich inter-
zugrunde liegenden kontinuierlich variieren- essiert. Er liefert den Indikator des zu erfas-
den Merkmals aufgefasst, dessen Ausprägung senden Merkmals. Es ist klar, dass der Test-
quantitativ beschrieben werden soll. Hierfür wert diese Indikatorfunktion nur erfüllen kann,
werden numerische Werte benötigt. wenn auch die Items, auf deren Grundlage
er gebildet wird, das Merkmal erfassen. Da-
Bei Aufgaben, die als richtig oder falsch be-
her muss man sich bei der Testkonstruktion
wertet werden können, wählt man dabei am
und -analyse mit den Eigenschaften einzelner
besten den Wert 1 für korrekte und den Wert 0
Items auseinandersetzen. Die drei wichtigsten
für inkorrekte Antworten. In analoger Weise
Eigenschaften von Items sind Schwierigkeit,
geht man bei Items mit dichotomen Antwort-
Streuung und Trennschärfe, auf die wir in den
format vor: Hier ordnet man 1 einer Antwort
folgenden Abschnitten eingehen.
zu, die im Sinne des zu erfassenden Merkmals
gerichtet ist, 0 einer Antwort, die nicht im
Sinne des Merkmals gerichtet ist. Andere Zu-
ordnungen wären hier möglich, diese Art der 3.3.1 Schwierigkeit
Kodierung vereinfacht jedoch einige der an-
zustellenden Berechnungen. Items, bei denen
die Antworten mit nur zwei Werten kodiert Items werden mehr oder weniger häufig gelöst
werden, heißen binäre Items. Werden mehr bzw. mehr oder weniger häufig in Schlüssel-
als zwei Stufen verwendet, spricht man dage- richtung beantwortet. Das Mehr oder Weni-
gen von quantitativen Items (vgl. McDonald, ger bestimmt die Schwierigkeit eines Items.
1999). Quantitative Itemwerte erhält man bei- Der entsprechende statistische Kennwert heißt
spielsweise beim Zuordnungsformat, indem Schwierigkeitsindex und wird durch die relati-
man die Zahl der korrekten Zuordnungen aus- ve Häufigkeit korrekter Antworten in einer Per-
zählt, oder beim Ratingformat, indem man die sonstichprobe bestimmt. Diese relative Häu-
einzelnen Antwortkategorien mit ganzzahli- figkeit kürzt man im Allgemeinen mit p j ab,
gen Werten kodiert. Im Allgemeinen zählt man wobei der Index j für ein konkretes Item (die

49
3 Merkmale und Gütekriterien psychologischer Tests

Itemnummer) steht. Der Index schätzt die Lö- ersetzt man den Begriff „Schwierigkeit“ hier
sungswahrscheinlichkeit p (engl. probability) manchmal durch den der „Popularität“.
einer zufällig ausgewählten Person.
Bei quantitativen Items wird die Schwierigkeit
Der Schwierigkeitsindex lässt sich also durch durch das arithmetische Mittel der Itemwerte
über die Personen bestimmt:
p j = n j /n 1 n
x̄ j = ∑ xi j .
n i=1
berechnen. Hierbei steht n j für die Zahl der
Personen, die das Item j gelöst haben, n für die Wir reservieren im Folgenden den Buchsta-
Gesamtzahl der Personen in der Stichprobe. ben X für Itemvariablen, wobei wir Personen
Ein Item, das 180 von 200 Testpersonen lösen, immer mit i, Items mit j indizieren. (Für Test-
erhielte also einen Schwierigkeitsindex von werte verwenden wir den Buchstaben Y .) Bei
0.9; ein Item, das 100 Personen lösen, einen der beschriebenen Form der Itemkodierung (1
Schwierigkeitsindex von 0.5. Dabei ist zu be- für korrekt bzw. im Sinne des Merkmals, sonst
achten, dass leichte Items (also Items, die von 0) ist der Schwierigkeitsindex eines binären
vielen Personen gelöst werden) einen hohen Items identisch mit dem arithmetischen Mittel
Indexwert erhalten, schwierige Items (Items, der Itemwerte über alle n Personen, wie man
die nur wenige Personen lösen) entsprechend sich leicht veranschaulichen kann. Die letz-
einen niedrigen Indexwert. Diese Polung ist te Formel deckt also binäre und quantitative
kontraintuitiv, hat sich aber so eingebürgert. Items ab. Wie aus der Definition des Schwie-
Der Vorschlag, den Index in „Leichtigkeits- rigkeitsindex ersichtlich ist, streuen die Indi-
index“ umzutaufen, konnte sich nicht durch- ces im selben Bereich wie die Itemwerte, bei
setzen. (Bei der adjektivischen Verwendung binären Items also zwischen 0 und 1, bei quan-
behält man die intuitive Polung jedoch bei, ein titativen Items zwischen 1 (bzw. 0) und der
„schwieriges“ Item wird also selten gelöst.) Anzahl der Antwortkategorien (minus 1, je
nach Kodierung).
Items, deren Beantwortung nicht als richtig
oder falsch bewertet werden kann (z. B. „Ich Schwierigkeiten werden aus zwei Gründen,
esse gern Schokoladeneis“), werden eben- die wir bereits bereits in I Kap. 3.1.4 ange-
falls als mehr oder weniger schwierig bzw. sprochen hatten, betrachtet: Erstens ist es in
leicht bezeichnet. Die Anwendung des Be- Fähigkeits- und Leistungstests zweckmäßig,
griffs Schwierigkeit auf solche Items mag die Aufgaben hinsichtlich ihrer Schwierigkeit
überraschen. Sie ist einfach eine technische anzuordnen, also leichte Aufgaben an den An-
Konvention, die keine Aussage darüber macht, fang, schwierige Aufgaben an das Ende des
ob die Beantwortung eines Items auch subjek- Tests zu stellen. Die Schwierigkeitsindices
tiv als schwierig oder leicht empfunden wird. liefern uns die hierfür benötigte Information.
Bei binären Items gibt der Index den Anteil der Zweitens sollten sich die Items hinsichtlich
Personen an, die das Item im Sinne des Merk- ihrer Schwierigkeit unterscheiden, es sollten
mals beantwortet haben. Auch hier muss man also leichte, mittelschwierige und schwieri-
sich daran gewöhnen, dass Items, die generell ge Items in einen Test aufgenommen werden.
eher im Sinne des Merkmals beantwortet wer- Dieser Gesichtspunkt betrifft im Prinzip alle
den, einen hohen Indexwert erhalten. Das Bei- Testarten, insbesondere jedoch solche Tests, in
spielitem würde bei Kindern vermutlich einen denen inhaltlich sehr homogene (gleichartige)
hohen Schwierigkeitsindex erhalten (sofern es Aufgaben (z. B. nur Zahlenreihen) zu bearbei-
in Richtung Eispräferenz kodiert wird). Um ten sind. Sehr homogene Testaufgaben finden
die Konnotation mit Leistungen zu vermeiden, sich eher in Fähigkeits- und Leistungstests als

50
3.3 Itemkennwerte und Testwertverteilung

in Tests zur Erfassung von Persönlichkeits- eine geringere Bedeutung zu als bei homoge-
merkmalen i. e. S. Durch die Aufnahme von nen binären Items.
Items unterschiedlicher Schwierigkeit soll ge-
währleistet werden, dass die Testwerte in allen
Bereichen des Merkmalskontinuums gut zwi-
3.3.2 Streuung
schen Personen differenzieren. Enthielte ein
homogener Test z. B. nur Aufgaben gleicher
Schwierigkeit, würden die Testwerte lediglich Auch die Variation einzelner Items sollte bei
zwei Gruppen gut voneinander differenzie- der Aufgabenselektion und -zusammenstel-
ren, nämlich Personen, die Aufgaben dieser lung berücksichtigt werden. Es ist einleuch-
Schwierigkeit lösen, und Personen, die Aufga- tend, dass die Antworten auf ein Item zwi-
ben dieser Schwierigkeit nicht lösen können. schen den Personen streuen sollten. Ein Item,
auf das alle Personen die gleiche Antwort ge-
Durch die Aufnahme von Items unterschied- ben, liefert keine Information über die inter-
licher Schwierigkeit kann ein solcher Defekt essierenden interindividuellen Unterschiede
vermieden werden. Für Tests oder Skalen mit und kann deshalb eliminiert werden. Prinzi-
homogenen binären Items wird deshalb emp- piell besitzen Items mit starker Streuung bes-
fohlen, die Items so zusammenzustellen, dass sere Voraussetzungen zur Differenzierung un-
die Schwierigkeiten mindestens einen Bereich terschiedlicher Ausprägungen des anvisierten
von 0.2 bis 0.8 abdecken. Bei Fähigkeitstests, Merkmals als Items mit geringer Streuung.
mit denen auch in Extrembereichen des zu Streuungsmaße, also Varianzen bzw. Standard-
erfassenden Merkmals noch gut differenziert abweichungen, müssen nur bei quantitativen
werden soll, wird man dieses Intervall noch Items berechnet werden. Bei binären Items
breiter ansetzen. Generell sollten die Item- genügt die Betrachtung der Itemschwierig-
schwierigkeiten so streuen, dass die Testwerte keit, da hier Schwierigkeit und Streuung di-
den jeweils interessierenden Ausschnitt des rekt miteinander gekoppelt sind. Die Varianz
Merkmalskontinuums möglichst gut reflektie- binärer Items ergibt sich nämlich einfach aus
ren. In besonders interessierenden Ausschnit- p · (1 − p), wie sich aus der Definition der Va-
ten sollten sich auch die Itemschwierigkeiten rianz ableiten lässt. Sie wird bei mittlerer Item-
konzentrieren. Dies ist häufig der Mittelbe- schwierigkeit ( p = 0.5) maximal (0.25): Hier
reich, in dem die meisten Personen liegen (sie-ist die Unterschiedlichkeit der Antworten am
he Lienert & Raatz, 1998, für eine detailliertegrößten, da die Hälfte der Personen das Item
Diskussion). Genauere Hinweise zum optima- löst bzw. bejaht, die andere Hälfte das Item
len „Schwierigkeitsmix“ der Items lassen sich nicht löst bzw. verneint. Mit zunehmender
mit Hilfe der Item-Response-Theorie gewin- Schwierigkeit bzw. Leichtigkeit nähert sich
nen (I Kap. 4.2.8). die Streuung dem Wert 0, der erreicht wird,
wenn alle oder keine der Personen das Item
Außerhalb des Fähigkeits- und Leistungsbe- lösen.
reichs sind die Aufgaben meist heterogener, so
dass sich ähnliche Itemschwierigkeiten nicht Auch bei quantitativen Items sind Schwierig-
so extrem auswirken wie im Beispiel. Darüber keiten und Varianzen voneinander abhängig,
hinaus werden hier meist quantitative Items wobei die Schwierigkeit die Varianz allerdings
verwendet, die von vornherein eine stärkere nicht mehr vollständig festlegt. Die Anzahl der
Differenzierung zwischen Personen ermögli- Kategorien bestimmt die maximal mögliche
chen als binäre Items. Einer breiten Streuung Varianz eines Items. Je mehr Antwortkatego-
der Itemschwierigkeiten kommt hier deshalb rien verwendet werden, desto höher wird die

51
3 Merkmale und Gütekriterien psychologischer Tests

mögliche Varianz und desto geringer fällt de- geeigneten Items wird eine Trennschärfe er-
ren Abhängigkeit von der Schwierigkeit aus. wartet, die deutlich über Null liegt. Für einen
ungefähren Anhaltspunkt kann man Item-Test-
Wir hatten oben bemerkt, dass man bei homo- Korrelationen ab .30 als untere Grenze an-
genen Tests, die aus binären Items bestehen, setzen. Items mit niedrigeren Trennschärfen
auf die Aufnahme leichter, mittelschwieriger sind „Streichkandidaten“. Korrelationen in der
und schwieriger Items achten sollte. Leichte Höhe von .50 oder .60 kennzeichnen „gute“
und schwierige Items besitzen aber von vorn- Items.
herein eine relativ geringe Varianz, was den
Gedanken nahelegen könnte, sie auszuschei- Neben Item-Test-Korrelationen werden als
den oder durch Items mittlerer Schwierigkeit Trennschärfeindices auch Item-Test-Kovari-
(und entsprechend höherer Varianz) zu erset- anzen sowie einige weitere Größen betrach-
zen. Ein solches Vorgehen wäre jedoch nicht tet, die in bestimmten Anwendungen Vorteile
zielführend. Eine breite Streuung der Schwie- gegenüber Korrelationen aufweisen können
rigkeiten zwischen Items ist bei homogenen (für eine Übersicht siehe McDonald, 1999,
Tests, die wir besonders im Leistungsbereich Kap. 11). Die aufgrund ihrer Anschaulichkeit
finden, wichtiger als eine breite Streuung ein- und einfacheren Vergleichbarkeit bevorzugt
zelner Items zwischen Personen. Mit Ausnah- betrachteten korrelativen Indices liefern je-
me von Extremwerten liefert die Streuung ei- doch nahezu äquivalente Information.
nes Items allein kein hinreichendes Argument, In Tests, die relativ wenige Items umfassen,
es zu eliminieren oder durch ein anderes Item werden Item-Test-Korrelationen artifiziell in
zu ersetzen. Generell stellen Streuungsmaße die Höhe getrieben, da das Item, dessen Zu-
eher ergänzende Kennwerte für die Beurtei- sammenhang mit dem Testwert beurteilt wer-
lung von Items dar. den soll, ja Teil des Testwerts ist und daher
eine algebraische (Teil-Ganzes-) Abhängig-
keit besteht. Die Trennschärfeindices werden
den Zusammenhang mit dem Merkmal also
3.3.3 Trennschärfe
etwas überschätzen. Um diesem Effekt zu be-
gegnen, kann man Korrelationen der Items
Die Antworten auf die einzelnen Items sollen mit „Rest-Testwerten“ Y − X j berechnen, in
von einem gemeinsamen Merkmal abhängen, denen das jeweils betrachtete Item j nicht be-
dessen Ausprägungen durch die Testwerte in- rücksichtigt wird. Die Item-Rest-Korrelation
diziert werden. Entsprechend müssen die Kor- wird als korrigierte Trennschärfe bezeichnet.
relationen zwischen den Item- und Testwerten Die Korrektur beseitigt zwar die Abhängigkeit,
jeweils substanziell und positiv ausfallen. In führt allerdings auch dazu, dass die Items an
der klassischen Itemanalyse gilt die Item-Test- jeweils unterschiedlichen Kriterien gemessen
Korrelation Kor(X j ,Y ) als zentrales Gütekrite- werden. Darüber hinaus lässt sich zeigen, dass
rium eines Items; sie wird als Trennschärfe des die so berechneten Kennwerte die Zusammen-
Items (englisch item discrimination power) be- hänge mit dem zugrunde liegenden Merkmal
zeichnet. Der Ausdruck „Trennschärfe“ rührt leicht unterschätzen (siehe McDonald, 1999;
daher, dass Items, die deutlich mit den Test- I Kap. 4). Die verschiedenen Kennwerte (kor-
werten assoziiert sind, gut zwischen Personen rigierte und unkorrigierte Korrelationen) erge-
mit hohen und niedrigen Testwerten trennen. ben jedoch meist identische oder sehr ähnliche
Items mit niedriger Trennschärfe diskriminie- Itemrangreihen. Dies ist nicht erstaunlich, da
ren schlechter oder – im Extremfall – über- ihre Berechnung nur marginal differiert. Bei
haupt nicht zwischen beiden Gruppen. Von der Itemselektion ist es zweckmäßig, die Items

52
3.3 Itemkennwerte und Testwertverteilung

mit den höchsten korrigierten Trennschärfen Zusammensetzung der herangezogenen Per-


beizubehalten. sonenstichprobe.
Wir hatten bemerkt, dass der Trennschärfe im Häufig werden symmetrische, näherungswei-
Rahmen der klassischen Itemanalyse eine zen- se normalverteilte Testwerte erwartet, wie in
trale Rolle beigemessen wird. Die Trennschär- I Abb. 3.3, Beispiel A. Abweichungen von
fe gilt besonders bei Fragebogen mit mehrstu- der Normalverteilung können u. a. zurückge-
figen Antwortoptionen als wichtigstes Gütekri- hen auf
terium eines Items. Bei binären Items sollten
• eine heterogene Zusammensetzung der
die Aufgaben jedoch nicht allein auf der Basis
Stichprobe,
ihrer Trennschärfen selektiert werden. Hier ist
• eine unangemessene Auswahl, Reihung
es besonders wichtig, immer auch eine breite
oder Verrechnung der Items oder
Streuung der Itemschwierigkeiten im Auge zu
behalten. Man wird also ggf. schwierige und • das Vorliegen eines nichtnormalverteilten
leichte Items im Test belassen, auch wenn sie Merkmals.
niedrigere Trennschärfen aufweisen als Items Stichprobenheterogenität liegt vor, wenn meh-
mit mittlerer Schwierigkeit. rere Untergruppen existieren, die sich hinsicht-
Hinter der Betrachtung der Trennschärfe steht lich ihrer Mittelwerte und/oder Streuungen
die Idee, dass Items, die gute Indikatoren des deutlich unterscheiden. So können z. B. bimo-
mit dem Test erfassten Merkmals sind, sub- dale Verteilungen daher rühren, dass sich die
stanzielle Zusammenhänge mit den Testwer- Stichprobe aus zwei Gruppen zusammensetzt,
ten aufweisen müssen. Hierbei wird der Test- deren Mittelwerte sehr weit auseinander liegen
wert – auch wenn er auf einer noch revisions- (Beispiel B), wie es in der Abbildung durch
bedürftigen Vorform des Tests basiert – als Kri- die gepunkteten Linien angedeutet ist. Sind
terium herangezogen, an dem die Items beur- die beiden Gruppen in etwa gleich groß und
teilt werden. Dieses Kriterium kann natürlich rücken ihre Mittelwerte aneinander, so kann
nur funktionieren, wenn die meisten Items, aus eine breitgipflige Verteilung resultieren, wie
denen sich die Vorform zusammensetzt, zur sie in Beispiel C gezeigt ist. Schmalgipfeli-
Messung des Merkmals geeignet sind. Gerade ge Verteilungen resultieren bei Gruppen mit
das weiß man bei einer Testvorform jedoch ähnlichen Mittelwerten, aber sehr unterschied-
noch nicht. Methoden, mit denen sich diese lichen Streuungen (Beispiel D). Schiefe Ver-
kritische Voraussetzung prüfen lässt, stellen teilung (Beispiele E und F) deuten auf unter-
wir im folgenden Kapitel dar. Die dort behan- schiedlich große Gruppen mit weiter ausein-
delten Testmodelle liefern auch Techniken, die ander liegenden Mittelwerten hin.
besser zur Itemselektion geeignet sind als die Auch eine unangemessene Itemauswahl und
klassischen Trennschärfeindices. -zusammenstellung kann anomale Verteilun-
gen bedingen. So kann eine rechtsschiefe Ver-
3.3.4 Verteilung der Testwerte teilung der Testwerte (Beispiel E) Anzeichen
dafür sein, dass die gewählten Aufgaben zu
In der Erprobungsphase eines Tests sollte man schwierig für die getesteten Personen sind.
immer auch einen Blick auf die Verteilung der Entsprechend deutet eine linksschiefe Vertei-
Testwerte werfen, insbesondere dann, wenn be- lung (F) auf einen möglicherweise zu gerin-
stimmte Verteilungen erwartet oder erwünscht gen Schwierigkeitsgrad des Tests hin. Eine
sind. Diese Verteilung gibt wichtige Hinweise detaillierte Diskussion abweichender Vertei-
auf die Angemessenheit der Zusammenstel- lungsformen findet sich in Lienert und Raatz
lung und Reihung der Items sowie auf die (1998).

53
3 Merkmale und Gütekriterien psychologischer Tests

A B C

Häufigkeit
Wert Wert Wert
D E F

Häufigkeit
Abb. 3.3
Beispiele für
Verteilungsformen von
Testwerten Wert Wert Wert

Nicht immer sind deutliche Abweichungen ist es z. B. wichtig, die Höhe von Zusammen-
von der Normalverteilung jedoch Besonder- hängen zwischen Konstrukten beurteilen zu
heiten der erhobenen Stichprobe oder einer in- können, die mit diversen und daher auch un-
adäquaten Itemzusammenstellung anzulasten. terschiedlich reliablen Indikatoren erfasst wer-
Auch nichtnormalverteilte Variablen können den. In der Praxis entsteht die Frage, ob ein ge-
die zu messende Eigenschaft in angemesse- gebener Messfehler für den konkreten Einsatz-
ner Weise reflektieren. So wird man z. B. für zweck des Tests noch toleriert werden kann.
Verfahren zur Messung der Intensität aktueller Darüber hinaus muss der Messfehler bei Emp-
Emotionen, etwa Angst oder Ärger, von vorn- fehlungen und Entscheidungen auf der Grund-
herein keine symmetrisch verteilten Messwer- lage von Testergebnissen berücksichtigt wer-
te erwarten, wenn die Emotionsausprägung den (I Kap. 13).
bei einer unausgelesenen Stichprobe in einer
Alltagssituation erhoben wird. Für die meis- Die klassischen Verfahren zur Bestimmung
ten Personen werden sich hier niedrige Ska- der Reliabilität eines Tests beruhen auf der
lenwerte ergeben, so dass eine rechtsschiefe Idee, die Messung mit dem gleichen oder ei-
Verteilung resultiert. nem äquivalenten (parallelen) Verfahren zu
wiederholen und das Ausmaß der Übereinstim-
mung beider Messungen zu prüfen. Liefern
3.4 Reliabilität die Messungen identische oder doch sehr ähn-
liche Werte, schließt man, dass der Messfehler
gering, das Verfahren also reliabel ist. Diver-
Jede Messung ist mit einem mehr oder weni-
gieren die Werte deutlich, ist das Verfahren
ger großen Fehler behaftet. Im Rahmen der
mit einem hohen Messfehler behaftet, also un-
Klassischen Testtheorie, die in ihrem Kern ein
reliabel. Bevor die grundlegenden praktischen
Messfehlermodell darstellt, wird versucht, die
Methoden zur Reliabilitätsbestimmung vorge-
Genauigkeit bzw. Ungenauigkeit psychologi-
stellt werden, ist es sinnvoll, die diesen Metho-
scher Messungen numerisch zu bestimmen.
den zugrunde liegenden Modellvorstellungen
Im Zentrum steht hier das Konzept der Relia-
zu skizzieren. Hierzu erläutern wir zunächst
bilität, das die Zuverlässigkeit oder Präzision
die für die Klassische Testtheorie fundamenta-
der Messung beschreibt.
len Begriffe „wahrer Wert“ und „Fehler“. An-
Information über die Reliabilität ist in allen schließend stellen wir die Definition und die
Kontexten von essenzieller Bedeutung, in de- Ableitung einer Schätzgröße der Reliabilität
nen Tests eingesetzt werden. In der Forschung aus der Korrelation paralleler Tests vor.

54
3.4 Reliabilität

3.4.1 Wahrer Wert und Fehler Messung zu verbessern, indem man die Wer-
te mittelt. Man schätzt damit den sog. Er-
Ein wesentliches Anliegen der Klassischen wartungswert der Messungen. Von Erwar-
Testtheorie ist es, zu einer praktikablen Ab- tungswerten spricht man bei Variablen, deren
schätzung der Messpräzision eines Tests zu Werte nicht festliegen (bzw. bereits bekannt
kommen. Ziel ist es dabei, die Genauigkeit sind), sondern bestimmten Wahrscheinlichkei-
bzw. Fehlerbehaftetheit einer Messung nume- ten folgen. Bei uns betrifft dies die Resultate
risch zu bestimmen. Zu diesem Zweck werden der einzelnen Messungen. Aus Stichprobenda-
die Begriffe „wahrer Wert“ (engl. true score; ten wird der Erwartungswert einer Variablen
T) und „Fehler“ (error; E) eingeführt, auf de- durch das arithmetische Mittel vieler Messun-
ren Basis Kennwerte der Messpräzision defi- gen bestimmt (siehe Steyer & Eid, 1993, An-
niert werden können. hang F, für eine genauere Darstellung). Zu
beachten ist, dass eine solche Mittelung den
Für das Verständnis der Begriffe wahrer Wert „konstanten Fehler“, wie er z. B. bei einer ver-
und Fehler ist es nützlich, zunächst eine phy- stellten Waage vorliegt, nicht beseitigt. Ver-
sikalische Messung zu betrachten. Nehmen bessert werden aber Vergleiche verschiedener
wir als Beispiel eine ältere elektronische Kü- Objekte, die mit derselben Waage vorgenom-
chenwaage, deren Messgenauigkeit wir unter- men werden.
suchen wollen. Wir greifen uns einen festen
Gegenstand heraus, legen ihn wiederholt auf Auch in der Testtheorie ist die Idee der Mess-
die Waage und notieren die Messwerte. Die wiederholung bei einer Person Ausgangspunkt
Werte werden mehr oder weniger stark variie- der Überlegungen. Wenn wir die Messung mit
ren, z. B. 100, 102, 98, 101 g usw. Da wir den einem Test mehrfach wiederholen, erhalten
gleichen Gegenstand verwenden (von dem wir wir eine Messwertvariable Y , deren einzelne
annehmen, dass er sein Gewicht im Lauf der Werte, wie im Gewichtsbeispiel, mehr oder we-
Messung behält), kann die Streuung der beob- niger stark streuen werden. Jede Messung wird
achteten Werte nur auf die Messung zurückge- nun in zwei Komponenten zerlegt, nämlich
hen. Als Maß der Ungenauigkeit können wir (a) den Erwartungswert von Y , der als „wah-
nun ein Streuungsmaß, z. B. die Standardab- rer Wert“ bezeichnet wird, und (b) einen Feh-
weichung der Messwerte, berechnen. Diese lerwert, der sich aus der Differenz zwischen
Standardabweichung heißt auch Standardfeh- dem beobachteten und dem wahren Wert er-
ler der Messung oder kurz Fehlerstreuung. gibt. Wahrer Wert und Fehler sind also wie
folgt definiert:
Solange wir lediglich einen Gegenstand ver-
wenden, beschreibt die Fehlerstreuung natür- T = Erw(Y ),
lich zunächst einmal nur die Ungenauigkeit für E = Y − T.
einen bestimmten Gewichtsbereich, streng ge-
nommen sogar nur für ein spezifisches Objekt. Durch Umstellen der Definition der Fehlerva-
Wir werden deshalb das Experiment mit weite- riablen erhält man
ren Gegenständen wiederholen, wodurch wir
ein Profil der Fehlerstreuungen in verschiede- Y = T + E,
nen Gewichtsbereichen gewinnen. Wir sehen
dann, ob die Fehlerstreuung ungefähr konstanteinen Ausdruck, der oft als grundlegende Glei-
chung der Klassischen Testtheorie bezeichnet
ist oder ob sie sich je nach Gewicht verändert.
wird. Bei der Anwendung dieser Gleichung
Wenn die Waage für ein Objekt unterschied- auf eine Person ergeben sich die Messwerte
liche Werte liefert, kann man versuchen, die aus konstanten wahren Werten und zwischen

55
3 Merkmale und Gütekriterien psychologischer Tests

den Messungen streuenden Fehlerwerten. Der und Übungseffekte einstellen, die Testmotiva-
wahre Wert wird also als fixe Größe betrachtet: tion wird sinken usw. Solche Faktoren werden
Er vertritt die zu messende Personeigenschaft, die Antworten und Leistungen bei späteren
die über die Messgelegenheiten stabil bleibt. Testungen erheblich beeinflussen. Darüber hin-
Die Fehlerwerte dagegen fluktuieren unsyste- aus ist natürlich auch daran zu denken, dass
matisch von einer Messung zur anderen. Das sich das zu messende Merkmal über die Zeit
Ausmaß der Fluktuation, also die Streuung verändert, was generell bei Verfahren zur Mes-
der Fehlerwerte über die Messungen, wird als sung aktueller Zustände der Fall sein wird.
Eigenschaft des Messinstruments angesehen.
Die Idee der Messwiederholung alleine lie-
Eine bemerkenswerte Konsequenz der Defini- fert also noch keine brauchbare Ausgangsba-
tionen von wahrer Wert und Fehler besteht dar- sis für die Schätzung des Messfehlers. Um
in, das der Erwartungswert des Fehlers Null eine solche Ausgangsbasis zu erhalten, geht
ist: die Klassische Testtheorie von einer (mindes-
tens) zweimaligen Messung mit „parallelen“
Erw(E) = Erw(Y − T ) = bzw. „äquivalenten“ Varianten eines Verfahren
Erw(Y ) − Erw(T ) = T − T = 0. aus. Parallel oder äquivalent sind Tests, die das
gleiche Merkmal mit ähnlichen Items erfassen.
Die Konsequenz verdeutlicht, dass der kon- Hierfür müssen die Items bestimmte inhaltli-
stante Fehler hier ignoriert wird. Dies ist che und statistische Anforderungen erfüllen,
für psychologische Tests (im Gegensatz zur auf die wir unten noch genauer eingehen wer-
Gewichts- oder Längenmessung) deshalb un- den (S. 63ff).
problematisch, weil nur die relativen Positio-
nen von Personen bedeutsam sind. Die Test-
wertskala kann um eine beliebige Konstante 3.4.2 Reliabilität und
verschoben werden, ohne die Aussagen, die Standardfehler der Messung
wir über die getesteten Personen machen kön-
nen, zu verändern. Für die Bestimmung der Messgenauigkeit ei-
nes Verfahrens wird eine repräsentative Stich-
Wie im Gewichtsbeispiel können wir nun die probe aus Personen der Zielpopulation zwei-
Fehlerstreuung bei einer Person berechnen. mal getestet. Man erhält zwei Testwertvaria-
Darüber hinaus können wir weitere Personen blen, die wir im Folgenden mit Y (erster Test)
wiederholt testen, um ein Bild der Fehlerstreu- und Y 0 (Paralleltest) notieren. Zu beachten ist,
ung bei verschiedenen Personen und in ver- dass Y hier Messungen an mehreren (im All-
schiedenen Bereichen der Testwertskala zu er- gemeinen sehr vielen) Personen repräsentiert.
halten. Wir könnten auch einen Durchschnitts- Gleiches gilt für die Variable Y 0 , deren Wer-
wert über alle Personen berechnen, der das te die bei jeder Person wiederholte Messung
generelle Funktionieren des Tests in der Ziel- darstellen.
population beschreibt.
Das „Grundgerüst“ der Klassischen Testtheo-
Die Vorstellung einer häufigen Wiederholung rie bilden zwei Modellannahmen:
der Messung unter identischen Bedingungen,
von der wir bislang ausgegangen sind, ist für Y = T +E (3.1)
physikalische Messungen plausibel, für psy- Cov(T, E) = 0 (3.2)
chologische Tests aber unrealistisch. Die Per-
sonen werden sich an ihre Antworten bei frü- Die erste kennen wir bereits: Die Testwerte
heren Testungen erinnern, es werden sich Lern- setzen sich aus einem messfehlerfreien Teil T ,

56
3.4 Reliabilität

den wahren Werten, sowie „Restwerten“ (Re- woraus sich wiederum herleitet, dass das Ver-
siduen) E = Y − T zusammen, die den Mess- hältnis von wahrer Varianz und Testwertvari-
fehler vertreten. Im Unterschied zur Messung anz zwischen Null und Eins liegen muss:
bei einer Person repräsentiert T jetzt die von
Var(T ) Var(T )
Person zu Person variierenden Ausprägungen 0≤ = ≤ 1.
der wahren Werte. Man spricht daher auch von Var(Y ) Var(T ) +Var(E)
der True-Score-Variablen. Die zweite Annah- Dieses Varianzverhältnis wird benutzt, um den
me besagt, dass wahre Werte und Fehlerwerte Reliabilitätskoeffizienten Rel(Y) zu definie-
unkorreliert sind. Insgesamt wird die Testwert- ren:
variable Y also in eine Summe zweier vonein-
Var(T )
ander unabhängiger Komponenten zerlegt, die Rel(Y ) =
True-Score-Variable T und die Fehlervariable Var(Y )
(3.3)
E. Var(T )
= .
Var(T ) + Var(E)
Der Reliabilitätskoeffizient stellt eine der
Definition der Reliabilität wichtigsten Größen der Klassischen Testtheo-
rie dar. Er gibt den Anteil der wahren an der
Zur Definition der Reliabilität wird der Beitrag Gesamtvarianz einer Testvariablen an. Der Re-
beider Komponenten zur Varianz der Testwer- liabilitätskoeffizient wird Null, wenn die Test-
te betrachtet. Da T und E unkorreliert sind variable keine wahre Varianz (sondern nur Feh-
(Gleichung 3.2), ist die Varianz der Testvaria- lervarianz) beinhaltet und Eins, wenn der Test
blen gleich der Summe aus wahrer und Fehler- vollkommen messfehlerfrei ist.
varianz:1
Empirische Schätzung der Reliabilität
Var(Y ) = Var(T + E)
= Var(T ) + Var(E) + 2 Cov(T, E) Für die empirische Schätzung der Reliabilität
= Var(T ) + Var(E). reichen die bislang eingeführten Modellannah-
men und die Definition der Reliabilität nicht
Hieraus (und aus der Tatsache, dass Varianzen aus. Wir kennen weder die wahre noch die
nicht kleiner als Null werden können) ergibt Fehlervarianz. Wie bereits erwähnt, wird (min-
sich, dass wahre und Fehlervarianz jeweils destens) eine weitere Messung an den gleichen
kleiner oder gleich der Testwertvarianz sind, Personen benötigt. Es liegt dann eine zweite
also Testwertvariable Y 0 vor, die in gleicher Weise
zerlegt werden kann wie die erste:
Var(T ) ≤ Var(Y ) und
Y 0 = T 0 + E 0 und
Var(E) ≤ Var(Y ),
Cov(T , E 0 ) = 0.
0

1 Generell ergibt sich die Varianz einer Summenvariablen Nehmen wir nun der Einfachheit halber an,
aus den Varianzen der Einzelvariablen plus zweimal der dass die wahren Komponenten der beiden Test-
Kovarianz der Variablen:
variablen sowie ihre Fehlervarianzen gleich
Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2 · Cov(X1 , X2 ). sind, also
Ist die Kovarianz (und damit auch die Korrelation) der T = T 0 und
Variablen Null, wie in unserem Fall, lassen sich die
Einzelvarianzen einfach addieren. Var(E) = Var(E 0 ).

57
3 Merkmale und Gütekriterien psychologischer Tests

Diese beiden Annahmen sind recht restriktiv,


Da die drei letzten Terme aufgrund der Glei-
können jedoch, wie wir später sehen werden chungen (3.2), (3.4) und (3.5) jeweils 0
(I Kap. 4), aufgelockert werden. Entschei- sind, vereinfacht sich dieser Ausdruck zu
Cov(T, T ), was nichts anderes ist als die Vari-
dend für die Reliabilitätsbestimmung ist ei-
ne dritte Zusatzannahme, welche die Unkorre-
anz der True-Score-Variablen. Unter den ge-
liertheit der Fehlerkomponenten fordert: machten Annahmen ist die Kovarianz der Test-
variablen also identisch mit der Varianz der
Cov(E, E 0 ) = 0. (3.4)
wahren Werte:
Aus der Gleichheit der wahren Werte ergibt
sich jetzt für die zweite Messung Cov(Y,Y 0 ) = Var(T ).

Y 0 = T + E 0 sowie Setzt man dies in die Definition der Reliabilität


0 ein (Gleichung 3.3), erhält man
Cov(T, E ) = 0. (3.5)
Die zweite Testvariable setzt sich also aus den Var(T ) Cov(Y,Y 0 )
Rel(Y ) = = .
gleichen wahren Werten, aber unterschiedli- Var(Y ) Var(Y )
chen Fehlerwerten zusammen. (Die Fehlerva- Wegen der Gleichheit der Varianzen der Test-
riablen haben nur die gleiche Varianz, die ein- variablen (Gleichung 3.6), lässt sich für deren
zelnen Werte können sich unterscheiden.) Korrelation schreiben3
Die angenommene Gleichheit der Fehlervari-
Cov(Y,Y 0 )
anzen von E und E 0 hat zur Folge, dass auch Kor(Y,Y 0 ) = =
Std(Y ) · Std(Y 0 )
die Varianzen der Testwerte (die sich ja aus
der Summe von wahrer und Fehlervarianz er- Cov(Y,Y 0 ) Cov(Y,Y 0 )
geben) identisch sind, d. h. = =
Var(Y ) Var(Y 0 )
Var(Y ) = Var(Y 0 ). (3.6) Rel(Y ) = Rel(Y 0 ).
Die Annahme, dass beide Fehlervariablen un-
Unter den angegebenen Bedingungen (Gleich-
korreliert sind (Gleichung 3.4), ermöglicht es
heit der True-Score-Variablen und Fehlerva-
nun, den Reliabilitätskoeffizienten durch einen
rianzen, Unkorreliertheit der Fehlervariablen)
empirisch zu ermittelnden Kennwert zu be-
ergibt sich also die Reliabilität der Testvaria-
stimmen. Hierzu betrachten wir zunächst die
blen einfach durch deren Korrelation,
Kovarianz der beiden Testvariablen, die sich
aus der Summe der gemeinsamen wahren An- Rel(Y ) = Rel(Y 0 ) = Kor(Y,Y 0 ).
teile und der jeweils spezifischen Fehleranteile
ergeben: Das wesentliche Ergebnis dieser Ableitung ist,
dass sich die Reliabilität aus empirisch zu ge-
Cov(Y,Y 0 ) = Cov(T + E, T + E 0 ).
winnenden Testwerten schätzen lässt.
Zerlegt man den rechten Ausdruck, so ergibt . . . + X1m und Y2 = X21 + X22 + . . . + X2p :
sich:2 m p
Cov(Y1 ,Y2 ) = ∑ ∑ Cov(X1 j , X2k ).
Cov(Y,Y 0 ) = Cov(T, T ) + Cov(T, E) + j k

Cov(T, E 0 ) + Cov(E, E 0 ). Darüber hinaus ist die Kovarianz einer Variablen „mit
sich selbst“ gleich ihrer Varianz, also Cov(X, X) =
2 Die Kovarianzen zweier Summenvariablen mit m und p Var(X).
Summanden lassen sich ermitteln, indem man die m · p 3 Die Korrelation zweier Variablen ergibt sich durch Divi-
Kovarianzen der Summanden addiert. Formell ausge- sion der Kovarianz durch das Produkt der Standardab-
drückt, gilt für zwei Summenvariablen Y1 = X11 + X12 + weichungen der beiden Variablen.

58
3.4 Reliabilität

Standardfehler der Messung dem Intervall enthalten ist. Es muss also ei-
ne konkrete Festlegung hinsichtlich der Wahr-
Darüber hinaus kann man durch Umstellen der scheinlichkeit getroffen werden, mit der das
Definition der Reliabilität auch die Fehlervari- Intervall den wahren Wert einschließt. Solche
anz berechnen: Intervalle heißen Konfidenz- oder Vertrauens-
intervalle und werden mit einer Wahrschein-
Var(E) = Var(Y ) · [1 − Rel(Y )]. lichkeitsangabe qualifiziert, welche die Brei-
te des Intervalls mitbestimmt. Je sicherer der
Die Wurzel aus der Fehlervarianz ist der Stan-
wahre Wert von dem Konfidenzintervall ein-
dardfehler der Messung (auch Standardmess-
geschlossen werden soll, um so breiter wird
fehler oder einfach Fehlerstreuung, engl. stan-
dieses Intervall.
dard error of measurement, abgekürzt SEM):
p Ein Bereich von Y ± SEM würde ei-
SEM(Y ) = Var(E) nem 68-Prozent-Konfidenzintervall entspre-
chen. Dieses Intervall wird also den wah-
p
= Var(Y ) · [1 − Rel(Y )] (3.7)
p ren Wert in fast einem Drittel der Fäl-
= Std(Y ) · 1 − Rel(Y ). le verfehlen. Um bezüglich der korrek-
ten Eingrenzung des wahren Werts siche-
Der Standardmessfehler charakterisiert die
rer zu sein, werden üblicherweise 90- oder
Streuung (Standardabweichung) der beobach-
95-Prozent-Konfidenzintervalle zugrunde ge-
teten um die wahren Werte und stellt die grund-
legt. Ein 90-Prozent-Konfidenzintervall lässt
legende und am einfachsten zu interpretieren-
sich durch Y ± 1.64 · SEM, ein 95-Prozent-
de Kenngröße für den mit einem Verfahren
Konfidenzintervall durch Y ±1.96·SEM schät-
verbundenen Messfehler dar. Sind die Fehler
zen.4 Multiplikatoren für andere Konfidenzin-
normalverteilt, wovon ausgegangen wird, lie-
tervalle lassen sich in Tabellen zur Standard-
gen die beobachteten Werte mit einer Wahr-
normalverteilung nachschlagen.
scheinlichkeit von 68 Prozent in dem Bereich
T ± SEM um die wahren Werte. Konfidenzintervalle werden beim Berichten
Das Konzept der Fehlerstreuung hatten wir von Testergebnissen, z. B. in einem psycholo-
bei der Einführung der Reliabilität bereits ken- gischen Gutachten, mit angegeben. Für die
nengelernt (I Kap. 3.4.2). Es handelt sich Festlegung eines adäquaten Konfidenzinter-
um eine globale Größe, die gewissermaßen valls muss dabei ein Kompromiss gefunden
das „durchschnittliche Funktionieren“ eines werden zwischen der Sicherheit, den wah-
Tests über das ganze Messwertkontinuum be- ren Wert einzuschließen, und dem Informa-
schreibt. Methoden, mit denen sich das Aus- tionsgehalt der resultierenden Aussage. Kon-
maß des Fehlers für einzelne Testwertbereiche fidenzintervalle, die einen großen Teil des
darstellen lässt, werden wir im folgenden Ka- möglichen Wertebereichs einer Testvariablen
pitel noch diskutieren. einschließen, sind zwar sicher, naturgemäß
aber wenig informativ. In den meisten An-
In Anwendungen, in denen ein konkreter Test- wendungsfällen dürften 90- oder 95-Prozent-
wert bestimmt wurde, interessiert, in welchem Konfidenzintervalle angemessen sein.
Bereich um den beobachteten Wert der wahre
Wert vermutlich liegt. Dies ist die umgekehrte Obwohl Standardmessfehler die anschauli-
Fragerichtung. Der Bereich hängt einerseits cheren Kennwerte liefern, begnügt man sich
von der Höhe des SEM ab, andererseits da- 4
Für diese Schätzungen werden große Stichproben vor-
von, wie groß die Wahrscheinlichkeit dafür ausgesetzt, wie sie im Rahmen der Testkonstruktion im
sein soll, dass der wahre Wert tatsächlich in Allgemeinen vorliegen.

59
3 Merkmale und Gütekriterien psychologischer Tests

bei der Darstellung von Tests häufig mit Definition der Reliabilität als Varianzverhält-
dem Berichten von Reliabilitätskoeffizienten. nis macht aber klar, dass Reliabilitätskoeffizi-
Dies liegt daran, dass Reliabilitätskoeffizien- enten auch von Eigenschaften der gemessenen
ten einen raschen Vergleich der Messgenauig- Personen abhängen. Der Reliabilitätskoeffizi-
keit verschiedener Verfahren vereinfachen. Sie ent charakterisiert eine Testeigenschaft also
liefern einheitenfreie Maße der Messgenauig- lediglich im Hinblick auf eine definierte (bzw.
keit. Demgegenüber kennzeichnet der Stan- zu definierende) Referenzpopulation. Dagegen
dardmessfehler die Messungenauigkeit in Ein- ist der Standardmessfehler gegenüber Streu-
heiten der Testwertvariablen, also auf deren ungsdifferenzen der wahren Werte in verschie-
Skala. Diese Skala unterscheidet sich jedoch denen Populationen invariant.
von Test zu Test, so dass die Standardmessfeh-
ler verschiedener Verfahren nicht direkt mit- Möglicherweise klingt die letzte Feststellung
einander verglichen werden können. In jedem zunächst kontraintuitiv, da die Reliabilität ja
Fall lassen sich die anschaulicheren Standard- in die Berechnung des Standardmessfehlers
messfehler in einfacher Weise berechnen, so- eingeht. Man kann diesen Sachverhalt jedoch
fern Reliabilität und Streuung der Testwerte leicht illustrieren. Nehmen wir an, die wahre
bekannt sind. Varianz betrage in einer Population A 12, in ei-
ner Population B dagegen 24. Die Varianz der
Wir hatten den Standardmessfehler gerade als
Fehler sei in beiden Populationen 8. Die Vari-
grundlegenden Kennwert der Messgenauigkeit
anz der Testwerte ist dann in Population A 20,
bezeichnet. Tatsächlich ist dieser Kennwert in
in Population B 32. Hieraus errechnen sich
manchen Fällen besser zur Charakterisierung
Reliabilitätskoeffizienten von 12 / 20 = 0.6
der Messfehlerbehaftetheit eines Verfahrens
(für A) und 24 / 32 = 0.75 (für B). Diese Ko-
geeignet als der Reliabilitätskoeffizient. Der
effizienten unterscheiden sich also recht deut-
Grund hierfür liegt darin, dass der Reliabilitäts-
lich. Die aus diesen Reliabilitätskoeffizienten
koeffizient von der Streuung der wahren Wer-
und den Streuungen der Testwerte berechne-
te innerhalb einer Population abhängt. Dies
ten Standardmessfehler dagegen bleiben iden-
lässt sich direkt der Definition der Reliabilität
tisch. Wirperhalten für Population A einen
als Varianzverhältnis entnehmen. Bei konstan-
Wert von 20 · (1 − 0.6)p = 2.82, für Populati-
ter Fehlerstreuung wird dieser Wert in einer
on B einen Wert von 32 · (1 − .75) = 2.82.
Population mit starker Variation der wahren
Die Multiplikation mit der Varianz der Test-
Werte höher ausfallen als in einer Population
werte egalisiert die Abhängigkeit des Reliabi-
mit geringer Streuung der wahren Werte. Glei-
litätskoeffizienten von der Testwertevarianz.
ches gilt natürlich auch für die entsprechen-
den Schätzungen aus Stichproben. So wird
Betrachten wir ein noch extremeres Beispiel
z. B. ein Test zur Messung der numerischen
und nehmen an, der wahre Wert einer Test-
Intelligenz in einer unausgelesenen (und da-
variablen sei für alle Personen gleich. In die-
mit heterogenen) Erwachsenenstichprobe eine
sem Fall wäre die Varianz der wahren Werte
höhere Reliabilität erreichen als in einer (hin-
Null. Der Reliabilitätskoeffizient würde des-
sichtlich ihrer numerischen Fähigkeiten relativ
halb auch dann Null werden, wenn der Test
homogenen) Stichprobe von Mathematikstu-
diese Konstante nahezu perfekt reflektiert. Der
dierenden.
Standardmessfehler, der hier identisch mit der
Die hinter der Berechnung des Reliabilitätsko- Streuung der Testwerte ist, wäre auch in die-
effizienten stehende Intention ist es, die Mess- sem Fall noch ein sinnvoller Kennwert der
präzision eines Verfahrens, also eine Testei- Fehlerbehaftetheit der Messung (Steyer & Eid,
genschaft, beschreiben zu können. Bereits die 1993).

60
3.4 Reliabilität

3.4.3 Verfahren zur getestet werden. Hierbei werden in der Praxis


Reliabilitätsbestimmung immer Ausfälle entstehen, weil nicht alle Per-
sonen bereit oder in der Lage sind, zum zwei-
Um auf der Basis des dargestellten Modells ten Termin zu erscheinen. Wenn diese Ausfälle
zu einer praktischen Schätzung der Messge- systematisch sind, also z. B. bei einem Leis-
nauigkeit zu gelangen, bieten sich zwei Me- tungstest diejenigen Personen nicht mehr er-
thoden an, die Testwiederholungsmethode und scheinen, die beim ersten Termin schlecht ab-
die Paralleltestmethode. Darüber hinaus kann geschnitten hatten, erhält man verzerrte Schät-
die Reliabilität auch auf der Basis von Testtei- zungen der interessierenden Kennwerte. Sol-
len geschätzt werden. che Ausfälle werden bei der Paralleltestme-
thode natürlich kaum vorkommen. Diesem
Bei der Testwiederholungsmethode wird die Vorzug steht jedoch der mit der Konstruktion
Messung nach einem gewissen Zeitraum wie- zweier paralleler Varianten verbundene höhere
derholt, der Test also zweimal der gleichen Aufwand gegenüber.
Stichprobe vorgelegt. Es ergeben sich zwei
Testwerte für jeden Probanden. Der Reliabili- Ein dritter Zugang beruht auf einer ähnlichen
tätskoeffizient wird dann durch die Korrelation Idee wie die Paralleltestung, zieht aber ledig-
der beiden Variablen, die sog. Test-Retest- oder lich Information heran, die bereits nach Vorga-
kurz Retest-Korrelation, geschätzt. Den korre- be eines Test vorliegen. Hier werden Zusam-
spondierenden Standardmessfehler erhält man menhänge zwischen Testteilen, also Items oder
durch Anwendung von Gleichung (3.7). „Itembündeln“, zur Reliabilitätsschätzung ge-
nutzt. Unter ökonomischen Gesichtspunkten
Bei der Testwiederholungsmethode wird das ist dieser Zugang am vorteilhaftesten.
gleiche Verfahren zu unterschiedlichen Zeit-
punkten verwendet. Demgegenüber werden Für die Bewertung der Aussagekraft der Me-
bei der Paralleltestmethode zwei Varianten thoden sind praktische Erwägungen allerdings
des Verfahrens, die unterschiedliche Items ent- weniger ausschlaggebend. Hierfür muss man
halten, zu einer Messgelegenheit vorgegeben. sich das Ziel der Reliabilitätsbestimmung vor
Diese Methode wird häufig auch als Äquiva- Augen halten, das darin besteht, die Messpräzi-
lenzprüfung bezeichnet. Die Bezeichnungen sion eines Verfahrens durch einen handlichen
rühren daher, dass die beiden Varianten das Kennwert zu beschreiben. Im Folgenden disku-
Gleiche auf unterschiedliche Art messen und tieren wir die drei Zugangsweisen unter dieser
in diesem (später noch zu präzisierenden) Sinn Zielsetzung genauer.
äquivalent (gleichwertig) bzw. parallel, aber
nicht identisch sind. Auch hier erhalten wir
zwei Messwertvariablen, aus deren Korrelati- Testwiederholung
on Reliabilität und Fehlerstreuung geschätzt
werden können.
Betrachten wir zunächst die Testwiederho-
Aus anwendungspraktischer Sicht weisen bei- lungsmethode. Die zentrale Schwierigkeit
de Methoden spezifische Vor- und Nachteile liegt hier darin, den geeigneten zeitlichen Ab-
auf. Der Vorteil der Testwiederholungsmetho- stand zwischen beiden Messgelegenheiten zu
de besteht darin, dass nur ein Verfahren benö- definieren. Sollten es Stunden, Tage, Wochen,
tigt wird. Die Notwendigkeit, eine parallele Monate oder Jahre sein? Für eine vernünfti-
Variante zu erstellen, entfällt also. Ihr Nach- ge Wahl des zeitlichen Abstands sind zwei
teil ist, dass zwei Messgelegenheiten realisiert Gesichtspunkte maßgebend, die zu gegensätz-
werden müssen, an denen dieselben Personen lichen Empfehlungen führen.

61
3 Merkmale und Gütekriterien psychologischer Tests

Der erste Gesichtspunkt ist recht offensicht- schen den beiden Messgelegenheiten so groß
lich: Die Korrelation der Messwerte liefert nur wie nur eben möglich zu machen.
dann einen guten Schätzwert für die Messprä-
Die Voraussetzungen der Merkmalsstabilität
zision, wenn die wahren Werte der Personen
und die unabhängiger Fehler führen also zu
zwischen den beiden Messgelegenheiten stabil
einem Dilemma, wenn man die Schätzung der
bleiben. Gefordert ist dabei nicht unbedingt
Messpräzision eines Tests über wiederholte
absolute Konstanz, wohl aber relative Stabi-
Messungen mit dem gleichen Verfahren an-
lität: Die relativen Positionen der Personen
strebt. Dieses Dilemma ist deshalb schwer-
auf der Skala sollten die gleichen bleiben. An-
wiegend, weil die beiden Voraussetzungen bei
dernfalls unterschätzt die Korrelation der Va-
Vorliegen nur zweier Messungen nicht empi-
riablen die Messpräzision des Verfahrens, da
risch prüfbar ist. Die Tatsache, dass die Schät-
dann die Fehlervarianz um die Varianz wahrer
zung der Messpräzision über Testwiederho-
Veränderungen aufgebläht ist. Dieser Gesichts-
lung problematisch ist, sollte allerdings nicht
punkt spricht dafür, den zeitlichen Abstand der
zu dem Schluss führen, dass solche Untersu-
beiden Messungen relativ kurz zu halten, zu-
chungen wertlos sind. Im Gegenteil: Sie lie-
mindest so kurz, dass Veränderungen des zu
fern essenzielle Information über ein Verfah-
messenden Merkmals unwahrscheinlich sind.
ren und das mit ihm gemessene Merkmal. Nur
Im Rahmen der Testwiederholungsmethode
bezieht sich diese Information zunächst auf
ist es jedoch nicht möglich, die Existenz sol-
die relative Stabilität der Messwerte; über die
cher wahrer Veränderungen festzustellen. Ei-
Präzision einer Messung sagt sie dagegen un-
ne niedrige Korrelation der Messungen kann
ter Umständen recht wenig aus.
daher auf eine geringe Präzision des Verfah-
rens, auf mangelnde Stabilität des gemessenen Neben dem geschilderten Dilemma gibt es
Merkmals oder auf beides zurückgehen. noch einen zweiten Grund, die Schätzung der
Messpräzision über Stabilitätsbestimmungen
Der zweite Gesichtspunkt ist weniger offen- mit Vorbehalten zu betrachten. Stabilitätskoef-
sichtlich, aber genauso wichtig. Wie oben er- fizienten sinken mit zunehmender zeitlicher
läutert wurde, wird für die Schätzung der Re- Distanz der Messungen, da sich Menschen
liabilität die Unkorreliertheit der Fehlerkom- im Lauf ihrer Entwicklung in unterschied-
ponenten vorausgesetzt. Ohne diese Bedin- licher Weise verändern. Dies aber bedeutet,
gung kann die Korrelation zweier Messwerte dass wir Stabilitätskoeffizienten mit einem
nicht als Schätzung der Reliabilität gelten. Die Index für das zugrunde gelegte Zeitintervall
Annahme wird jedoch umso eher verletzt sein, versehen müssen. Wir können also zwar von
je enger Test und Retest beieinander liegen. einer Drei-Tages-, Zwei-Wochen oder Ein-
Im Allgemeinen werden die Fehlerkomponen- Jahresstabilität, nicht aber von der Stabilität ei-
ten bei kurzen Intervallen positiv korreliert ner Messung sprechen. Würde man die Stabili-
sein, da sich die Probanden beim Retest an ih- tät als Schätzung der Messpräzision auffassen,
re Antworten bei der ersten Testung erinnern. wäre man gezwungen, diese ebenso zu indi-
Bei Persönlichkeits- oder Einstellungsfrage- zieren. Dann aber wäre das Ziel, die Messprä-
bogen werden die Personen z. B. die Antwort- zision durch einen Kennwert zu beschreiben,
optionen favorisieren, für die sie sich bereits der primär das Verfahren (und nicht die getes-
bei der ersten Testvorgabe entschieden hatten. teten Personen) charakterisiert, verfehlt. Sta-
Entsprechend wird die Korrelation der Werte bilitätskoeffizienten können dies nicht leisten,
die Messpräzision überschätzen. Dieser zwei- da sie nicht nur von der Messgenauigkeit, son-
te Gesichtspunkt würde für sich betrachtet zur dern auch von der Konstanz des gemessenen
Empfehlung führen, die zeitliche Distanz zwi- Merkmals abhängen. Sofern mit deutlichen

62
3.4 Reliabilität

Fluktuationen im zu messenden Merkmal ge- bei der Paralleltestung eine positive Korrela-
rechnet werden muss, etwa bei der Erfassung tion der Fehlerkomponenten nicht völlig aus-
kurz erstreckter emotionaler oder motivationa- zuschließen ist. Analog zu Erinnerungseffek-
ler Zustände, scheiden Stabilitätskoeffizienten ten bei der Testwiederholung können solche
als Schätzungen der Reliabilität von vornher- Abhängigkeiten z. B. dann entstehen, wenn
ein aus. ein Teil der Probanden versucht, sich auf der
Grundlage von Vermutungen über das gemes-
Mit Analysen auf der Basis der Latent-State- sene Merkmal in konsistenter Weise zu ver-
Trait-Theorie kann man den genannten Proble- halten (I Kap. 10). Eine solche Vereinheitli-
men begegnen. Bei dieser von Steyer und Kol- chung des Antwortverhaltens würde wieder-
legen (z. B. Steyer, Ferring & Schmitt, 1992; um zu einer Überschätzung der Messpräzision
Steyer, Schmitt & Eid, 1999) entwickelten Er- führen.
weiterung der Klassischen Testtheorie wird
der wahre Wert in eine zeitlich stabile und ei- Diese Gefahr ist besonders dann gegeben,
ne zeitlich variable Komponente zerlegt. Für wenn das Verfahren sehr transparent, die Mess-
beide Komponenten lassen sich dann mit Hilfe intention also für die Probanden leicht durch-
von Längsschnittdaten separate Varianzschät- schaubar ist. Manchmal versucht man, die-
zungen vornehmen, durch die es möglich ist, sem Problem durch Einstreuung sog. Füllitems
wahre stabile (Konsistenz) und wahre variable bzw. Distraktoren zu begegnen. Hierunter ver-
(Situationsspezifität) Anteile an der Gesamt- steht man Items, die nicht in die Messung ein-
varianz der Testwerte zu separieren (Deinzer gehen und deren einzige Funktion darin be-
et al., 1995). Beide Varianzanteile addieren steht, von der eigentlichen Messintention ab-
sich zur Reliabilität und ermöglichen Aussa- zulenken. Ob dies in jedem Fall zielführend
gen darüber, ob ein Test eher ein stabiles Merk- ist, bleibt allerdings fraglich.
mal (einen „Trait“) oder eher einen über die
Zeit fluktuierenden Zustand („State“) reflek- Die eigentliche Schwierigkeit oder, wenn man
tiert. Eine einführende Darstellung der Theorie
so will, Herausforderung der Methode besteht
geben Kelava und Schermelleh-Engel (2008). jedoch in der Zusammenstellung paralleler Va-
rianten. Parallelität hat dabei sowohl inhalt-
liche als auch statistische Aspekte. Unter in-
haltlichen Aspekten lassen sich die Items der
Paralleltestung
beiden Testvarianten nach zwei Prinzipien zu-
sammenstellen: Das erste führt zu inhaltsäqui-
Betrachten wir nun die Paralleltestmethode valenten, das zweite zu inhaltsparallelisierten
unter Gesichtspunkten der Messpräzision. So- Testformen.
lange wir davon ausgehen, dass sich das zu
messende Merkmal nicht während der oder so- Bei inhaltsäquivalenten Verfahren werden die
gar durch die Messung verändert, können wir Items der beiden Tests aus einer Menge zusam-
das gerade diskutierte Stabilitätsproblem für mengestellt, die homogene, also im Hinblick
diese Vorgehensweise vernachlässigen. Auch auf das zu untersuchende Merkmal gleicharti-
die vorausgesetzte Unabhängigkeit der Feh- ge, Items enthält, z. B. Dreisatzaufgaben oder
lerkomponenten ist hier eher gegeben als bei zu übersetzende Vokabeln. Parallele Formen
Messwiederholungen, da sich die beiden Ver- ließen sich in diesen Beispielen recht einfach
fahren in ihren Inhalten unterscheiden, also erstellen, da es hinreichen würde, jeweils zu-
verschiedene Items aufweisen. Die Qualifizie- fällig Aufgaben aus der Menge zu ziehen. In
rung „eher“ ist deshalb angebracht, weil auch anderen Fällen, insbesondere außerhalb des

63
3 Merkmale und Gütekriterien psychologischer Tests

Leistungsbereichs, ist die Erstellung äquiva- Ich bin nervös; ... verkrampft; ... besorgt; ...
lenter Formen nicht ganz so einfach. Betrach- beunruhigt.
ten wir dies an einem Fragebogen zur Bestim-
mung der Aufgeregtheitskomponente der Zu-
standsangst. Wie erwähnt, bezieht sich diese Bei der Zusammenstellung paralleler Tests zur
Komponente auf die bei Angstzuständen ge- Bestimmung der Zustandsangst, wird man hier
gebene Wahrnehmung unspezifischer körperli- keine zufällige Zuordnung vornehmen, son-
cher Erregungssymptome, die von der betrof- dern Aufgeregtheits- und Besorgnisitems paa-
fenen Person als unangenehm erlebt werden ren, z. B. wie folgt:
(I Kap. 10). Eine vorläufige Itemmenge könn-
te z. B. die folgenden Formulierungen beinhal- Variante A Variante B
ten:
nervös verkrampft
Ich bin nervös. Ich bin angespannt. Ich bin besorgt beunruhigt
verkrampft. Ich bin aufgeregt. Ich habe ein
flaues Gefühl im Magen. Mir zittern die Hier sind nicht alle Items der zugrunde ge-
Hände. legten Itemmenge homogen, vielmehr wird
Homogenität nur zwischen Itempaaren herge-
stellt.
Es ist klar, dass die Beurteilung der Homoge-
nität dieser Items ein gewisses Maß an Subjek- Auch statistische Gesichtspunkte, insbeson-
tivität beinhaltet. Man könnte z. B. diskutieren, dere Schwierigkeiten und Trennschärfen der
ob das Item „aufgeregt“ wirklich geeignet ist Items, sollten bei der Zusammenstellung par-
– man kann ja auch in angenehmer Weise auf- alleler Testformen berücksichtigt werden. Die
geregt sein – oder ob das Zittern der Hände Parallelisierung nach Schwierigkeiten ist be-
wirklich noch als unspezifisches Erregungs- sonders für Fähigkeits- und Leistungstests sehr
symptom gelten kann usw. Offenbar kann die wichtig, um die Testvarianten hinsichtlich ih-
Frage, ob die Items das Gleiche messen, ohne rer kognitiven Anforderungen zu balancieren.
identisch zu sein, auf der Basis inhaltlicher Generell wird man also versuchen, für jedes
Überlegungen nicht immer ganz eindeutig be- Item der einen Testform einen „Zwilling“ zu
antwortet werden. Die Tatsache, dass die Items finden, der den gleichen Verhaltensaspekt an-
ähnlich sein müssen, aber nicht zu ähnlich sein spricht und ähnliche statistische Kennwerte
dürfen, macht hier die „Herausforderung“ aus. aufweist. Es ist klar, dass dies nicht immer
Dabei spielen semantische Überlegungen ei- einfach und ohne „Kompromisse“ möglich ist.
ne zentrale Rolle, die natürlich immer einen
gewissen Vagheitsspielraum aufweisen. Unter statistischen Gesichtspunkten existieren
verschieden strenge Fassungen der Parallelität,
Gleiches gilt für das zweite Prinzip, das in die unterschiedliche Messmodelle definieren.
einer Item-für-Item-Parallelisierung der Test- In den im vorhergehenden Abschnitt beschrie-
varianten besteht. Dieses Prinzip führt zu sog. benen Ableitungen wurde von einem dieser
inhaltsparallelisierten Testformen. Angenom- Modelle ausgegangen, in dem sehr strikte An-
men, wir wollen ein globales Angstmaß ge- forderungen gestellt werden: Wir hatten vor-
winnen, das auch die Besorgniskomponente ausgesetzt, dass die wahren Werte sowie die
der Zustandsangst berücksichtigt. Hierfür er- Fehlervarianzen der beiden Messungen iden-
weitern wir die Itemmenge um Feststellun- tisch sind. Für die Testwerte folgt aus diesen
gen, welche die Besorgniskomponente der Zu- Voraussetzungen, dass sie (bis auf kleine Dif-
standsangst ansprechen: ferenzen, die sich aus ihrer Schätzung anhand

64
3.4 Reliabilität

von Stichprobendaten ergeben) gleiche Mit- zur Reliabilitätsschätzung herangezogen. Hier


telwerte und Streuungen aufweisen müssen. werden also weder wiederholte Messungen
Wenn dies nicht der Fall ist, muss die An- noch parallele Tests benötigt.
nahme strikter Parallelität der Testvarianten
Eine Möglichkeit besteht darin, den Test in
verworfen werden. Andere Modelle mit we-
zwei gleich große Teile zu zerlegen. Diese Va-
niger strengen Anforderungen werden wir in
riante der Testteilung wird als Testhalbierungs-
I Kap. 4 noch behandeln.
methode bezeichnet. Bei der Zusammenstel-
Die Korrelationen zweier paralleler Tests wer- lung der Testhälften ist es sinnvoll, die Items
den auch Äquivalenzkoeffizienten genannt. Sie nach inhaltlichen und statistischen Aspekten
beschreiben das Ausmaß, in dem zwei Testva- möglichst weitgehend zu parallelisieren, so
rianten als gleichwertig gelten können. Prinzi- dass man zwei ungefähr gleich genaue Mes-
piell könnte man auch für diese Koeffizienten sungen erhält. Die Summenwerte der Testteile,
geltend machen, dass sie nicht zu einer Schät- YA und YB werden dann miteinander korreliert.
zung der Messpräzision führen, da sich paral- Die Korrelation Kor(YA ,YB ) entspricht der Re-
lele Verfahren offensichtlich auf unterschiedli- liabilität (Äquivalenz) eines Tests, der die
che Weise konstruieren lassen. Zu jedem ge- Hälfte der Items des Gesamttests umfasst, al-
gebenen Test lassen sich viele parallele For- so Rel(YA ) bzw. Rel(YB ). Intuitiv kann man
men denken, die nicht immer zu den gleichen erwarten, dass die Reliabilität des Gesamt-
Reliabilitätsschätzungen führen müssen. Aller- tests höher ausfällt als die der beiden Teile,
dings dürften in praktischen Kontexten solche da durch deren Zusammenfassung (Aggregie-
Unterschiede doch weitaus geringer ausfallen rung) ein „Fehlerausgleich“ stattfinden wird
als bei wiederholten Messungen. Tatsächlich (I Kap. 3.1.5). Tatsächlich lässt sich aus den
besteht weitgehende Einigkeit darüber, dass Annahmen der Klassischen Testtheorie ablei-
Äquivalenzprüfungen die Messpräzision bes- ten, dass sich die wahre Varianz in diesem Fall
ser schätzen als Testwiederholungen (McDo- vervierfacht, während sich die Fehlervarianz
nald, 1999). nur verdoppelt. (Entscheidend hierfür die ist
Stabilitäts- und Äquivalenzkoeffizienten kön- Unabhängigkeit der Fehler.) Um einen Schät-
nen deutlich voneinander differieren. Dies er- zer für die Reliabilität des gesamten Tests auf
gibt sich allein schon aus der Tatsache, dass der Basis der Reliabilitäten der beiden Test-
Stabilitätskoeffizienten mit unterschiedlichem teile zu erhalten, muss der Koeffizient also
Zeitindex variieren können. Insbesondere kön- „aufgewertet“ werden. Die Formel für die Auf-
nen hohe Äquivalenzkoeffizienten mit niedri- wertung heißt Spearman-Brown-Formel. Für
gen Stabilitätskoeffizienten einhergehen. Dies den speziellen Fall zweier Testhälften ergibt
ist allgemein bei Verfahren zur Messung von sich nach dieser Formel die Reliabilität der
Zuständen zu erwarten. Aber auch der umge- Gesamttestwerte Y = YA +YB aus
kehrte Fall, hohe Stabilität bei niedriger Äqui- 2 · Kor(YA ,YB )
valenz, ist denkbar, z. B. wenn sehr deutliche Rel(Y ) = .
1 + Kor(YA ,YB )
Erinnerungseffekte vorliegen.
Mit Hilfe der Spearman-Brown-Formel lässt
sich aus der Korrelation zweier paralleler Test-
teile die Reliabilität des Gesamttests schätzen.
Testteilung
Beträgt die Korrelation der Testteile z. B. .50,
so ergibt sich für den Gesamttest eine Reliabi-
Bei der Testteilungsmethode wird „testinter-
lität von
ne“ Information, die den Varianzen und Ko-
varianzen der Items entnommen werden kann, 2 · 0.50/(1 + 0.50) = .67.

65
3 Merkmale und Gütekriterien psychologischer Tests

Die Spearman-Brown-Formel kann auf be- auch als Cronbachs α bezeichnet. Cronbachs
liebige Verlängerungsfaktoren k verallgemei- α ergibt sich aus
nert werden. Die allgemeine Formel gilt dabei
nicht nur für Verlängerungen, sondern auch m2 ·Cov
α= . (3.8)
für Verkürzungen des Tests um einen bestimm- Var(Y )
ten Faktor. Ist Rel(Y ) die Reliabilität des Aus-
gangstests, so gilt für den um den Faktor k Dabei ist m die Zahl der Items, Cov der Mit-
verlängerten bzw. verkürzten Test Y ∗ : telwert aller Kovarianzen zwischen den Items,
und Var(Y ) die Gesamtvarianz der Testwerte.
k · Rel(Y )
Rel(Y ∗ ) = .
1 + (k − 1) · Rel(Y ) Die Kovarianzen gehen nicht nur in den Zäh-
ler, sondern (implizit) auch in den Nenner der
Die Formel für Testhälften ist ein Spezialfall Formel ein, da sich die Gesamtvarianz der
der allgemeinen Formel mit k = 2. Testwerte aus der Summe aller Itemvarianzen
Die Spearman-Brown-Formel wird angewen- und der doppelten Summe aller Kovarianzen
det, um abschätzen zu können, um wieviele zwischen den Items ergibt. (Die Gesamtvari-
Items ein Test verlängert werden muss, um ein anz lässt sich aus der Summe aller Elemente
akzeptables Niveau der Reliabilität zu errei- der Varianz-Kovarianzmatrix der Items berech-
chen oder um wieviele Items ein Test gekürzt nen.) Wie aus der Formel ersichtlich ist, geht
werden kann, ohne ein noch ausreichendes α gegen 0, wenn die Kovarianzen zwischen
Niveau der Reliabilität zu unterschreiten. Für den Items relativ zur Gesamtvarianz (bzw. den
einen aus 20 Items bestehenden Tests mit einer Itemvarianzen) klein werden. Mit steigendem
Reliabilität von .90, der auf 15 Items gekürzt Anteil der Kovarianzen an der Gesamtvarianz
werden soll, ergibt sich für k nähert sich α dagegen dem Wert 1.
Die interne Konsistenz steht in enger Bezie-
k = 15/20 = 0.75
hung zur Spearman-Brown-Formel. Sind die
und für die geschätzte Reliabilität des verkürz- Streuungen aller Items gleich, was künstlich
ten Tests durch Standardisierung (I S. 76) der Items
erreicht werden könnte, lässt sich α nämlich
0.75 · 0.9 auch über die Spearman-Brown-Formel be-
= 0.87.
1 + (−0.25) · 0.9 rechnen. Hierfür wird die Reliabilität des Aus-
gangstests in der Spearman-Brown-Formel,
Im Allgemeinen wird es für einen Test mehre- Rel(Y ), durch die mittlere Korrelation zwi-
re Möglichkeiten geben, in sinnvoller Weise schen den Items, r ersetzt; der Verlängerungs-
Testhälften zu bilden. Die entsprechenden Re- faktor besteht nun in der Anzahl der Items
liabilitätsschätzungen werden sich mehr oder (m):
weniger stark unterscheiden. m·r
αSB = .
1 + (m − 1) · r
In einem zweiten Verfahren, das wie die
Testhalbierung ebenfalls auf testinterner In- Die Formel verdeutlicht die Beziehung zwi-
formation aufbaut, wird diese Schwierigkeit schen α und der Spearman-Brown-Formel:
vermieden. Hier werden Itemvarianzen und Man kann α als Reliabilitätsschätzer ansehen,
-kovarianzen benutzt und in einer Kenngröße, der jedes Item als „Minitest“ verwendet. Die
der sog. internen Konsistenz, gebündelt. Die Interkorrelationen der Items werden dann nach
Eigenschaften dieser Größe wurden von Cron- der Spearman-Brown-Formel auf den ganzen
bach (1951) herausgearbeitet; sie wird daher Test „hochgerechnet“. Die Formel zeigt auch,

66
3.4 Reliabilität

dass die interne Konsistenz monoton mit der Antworten einbringen und damit den Messfeh-
mittleren Interkorrelation der Items steigt. ler erhöhen (vgl. Cronbach, 1990).
Cronbachs α entspricht im Allgemeinen recht Eine fundamentale Quelle unsystematischer
genau dem Durchschnitt aller möglichen Test- Variation hatten wir eingangs dieses Kapitels
halbierungskoeffizienten. Unter bestimmten bereits angesprochen: Die Messungen, die wir
Bedingungen, auf die wir im folgenden Ka- mit Tests, Testteilen oder einzelnen Items vor-
pitel noch eingehen (I Kap. 4.1.2), liefert α nehmen, liefern immer nur Verhaltensstich-
ein akkurates Maß der Messpräzision. Entspre- proben. Die Messresultate variieren deshalb
chend handelt es sich um einen sehr populä- je nach Auswahl und Zusammenstellung der
ren Schätzer der Reliabilität psychologischer Items. Die jeweils spezifische Auswahl und
Messverfahren. Für Reliabilitätsschätzungen Anordnung der Items beeinflusst den Mess-
und Berechnungen der Fehlerstreuung sollte fehler bei der Schätzung über parallele Tests
dabei die allgemeine Formel (3.8) und nicht und Testteilung (Testhalbierung, interne Kon-
die Formel für αSB benutzt werden, da die sistenz), nicht aber bei der Testwiederholungs-
Streuungen der Items ja mehr oder weniger methode (hier werden ja die gleichen Items
deutlich differieren werden. verwendet).
Die Tatsache, dass α auf den Varianzen und Eine zweite Quelle unsystematischer Variation
Kovarianzen der einzelnen Items eines Tests stellen Faktoren dar, welche die Beantwortung
beruht, macht es auch zu einem Kandidaten einzelner Items betreffen, wie z. B. momen-
für die Itemselektion. Die Überlegung dahinter tane Unaufmerksamkeit (eine Frage missver-
ist, diejenigen Items beizubehalten, die einen stehen, eine der vorgegebenen Antwortalter-
großen Beitrag zur Konsistenz des Verfahrens nativen versehentlich falsch markieren), Rate-
liefern und diejenigen Items auszuscheiden, glück oder Ratepech. Diese und ähnliche, nur
deren Beitrag gering ausfällt oder die die Kon- temporär wirksame Faktoren beeinträchtigen
sistenz sogar erniedrigen. Um den Beitrag ei- die Reliabilitätskennwerte bei allen Schätzme-
nes Items zur Konsistenz abzuschätzen, eli- thoden.
miniert man das betreffende Item temporär,
Die dritte Faktorengruppe betrifft eine gan-
berechnet also den Konsistenzkoeffizienten,
ze Testsitzung. Hierzu zählen die physische
der sich für die m − 1 restlichen Items ergibt.
Verfassung einer Person (z. B. Müdigkeit), ih-
Bei Items mit einem positiven Beitrag sinkt
re Stimmung und Motivation (z. B. Anstren-
der „Restkoeffizient“ mehr oder weniger deut-
gungsbereitschaft), ihre Konzentriertheit so-
lich ab. Ein steigender Restkoeffizient liefert
wie situative Bedingungen der Testdurchfüh-
ein starkes Argument dafür, das Item aus dem
rung, die derartige Zustände beeinflussen. Sol-
Test auszuscheiden, da das gekürzte Verfahren
che Faktoren sind bei einer Testgelegenheit im
nicht nur ökonomischer ist, sondern auch eine
Allgemeinen konstant, fluktuieren aber zwi-
höhere Reliabilität erwarten lässt.
schen den Sitzungen. Sie reduzieren daher Re-
liabilitätsschätzungen bei der Testwiederho-
lungsmethode, aber nicht bei der Paralleltes-
Quellen von Messfehlern
tung und der Testteilung.
In praktischen Anwendungen liefern die be- Viertens kann unsystematische Variation auf
sprochenen Methoden zur Reliabilitätsbestim- differenzielle Veränderungen im zu messenden
mung nicht genau die gleichen Kennwerte. Tat- Merkmal zurückgehen, die sich z. B. durch
sächlich sprechen sie auf unterschiedliche Ein- unterschiedliche Übungs- und Lernmöglich-
flüsse an, die unsystematische Variation in die keiten einstellen können. Auch diese Quelle

67
3 Merkmale und Gütekriterien psychologischer Tests

mindert die Reliabilitätsschätzung für die Test- ergebnisse Rückschlüsse auf das jeweils inter-
wiederholungsmethode, während sie Parallel- essierende Merkmal zulassen. Einer seit lan-
testung und Testteilung kaum betrifft. gem etablierten Kurzformel zufolge ist ein
Test in dem Maße valide, als er das misst, was
Schließlich können auch Unterschiede in den
er messen soll. Validität bezieht sich also auf
Durchführungsbedingungen oder der Auswer-
die Bedeutung von Testwerten. Der Prozess
tung von Tests zu unsystematischen Effekten
der Validierung eines Tests beinhaltet entspre-
beitragen. Wir hatten bereits gesehen, dass
chend konzeptuelle Analysen und empirische
bei psychologischen Testverfahren angestrebt
Untersuchungen, die Aufschluss über die Be-
wird, diese Fehlerquelle durch Standardisie-
deutung von Testwerten liefern.
rung der Testprozedur und -auswertung mög-
lichst weitgehend auszuschalten. Validität ist ein sehr umfassendes Konzept. Im
Unterschied zur Reliabilität existiert für die
Validität eines Verfahrens deshalb im Allge-
3.4.4 Bewertung der Reliabilität meinen kein einzelner Kennwert. Um den An-
wendungsbereich des Konzepts zu umschrei-
Die Bewertung der Reliabilität eines Tests ben, werden traditionellerweise drei Validitäts-
hängt eng mit seinem Einsatzzweck zusam- arten unterschieden, nämlich (a) Inhaltsvalidi-
men. Wie erwähnt, ist es für manche Zwecke tät, (b) Kriteriumsvalidität und (c) Konstrukt-
gerechtfertigt, kleinere Reliabilitätsmängel in validität. Sie beziehen sich auf verschiedene
Kauf zu nehmen, wenn hiermit Ökonomiege- Quellen, aus denen Information über die Be-
winne erzielt werden können oder die Tests deutung der Testwerte gewonnen werden kann.
nur zur Bestimmung von Gruppenmittelwer- Inhaltsvalidität meint dabei die Relevanz und
ten eingesetzt werden. Unabhängig vom Ein- Repräsentativität der Items für das zu messen-
satzzweck lassen sich nur ungefähre Orien- de Merkmal. Wichtigste Informationsquelle
tierungswerte angeben. Reliabilitäten um .70 hierfür sind die Items eines Tests selbst. Die
oder weniger gelten als unbefriedigend und Beurteilung der Inhaltsvalidität stützt sich also
sind für die Einzelfalldiagnostik nicht geeig- primär auf testinterne Information. Kriteriums-
net. Ab Werten von .80 kann man von einer validität bezeichnet die Enge des Zusammen-
für die Einzelfalldiagnostik akzeptablen Relia- hangs zwischen Testwerten und Sachverhalten,
bilität sprechen. Tests zur Messung von Ein- auf die mit Hilfe des Verfahrens geschlossen
stellungen und Persönlichkeitsmerkmalen er- werden soll, den Kriterien. Information hierfür
reichen mit etwa 20 Items im Allgemeinen liefern empirische Untersuchungen über exter-
interne Konsistenzen zwischen .85 und .90, ne Korrelate der Testwerte. Konstruktvalidi-
wenn ein quantitatives Itemformat verwendet tät bezieht sich auf die Bewährung des Tests
wird. Die Gesamtwerte größerer Intelligenz- im Hinblick auf theoretische Annahmen, die
tests besitzen oft Reliabilitäten, die deutlich mit einem Merkmal oder Merkmalsbereich
über .90 liegen. verbunden sind. Für die Bewertung der Kon-
struktvalidität wird sowohl testinterne als auch
testexterne Information genutzt.

3.5 Validität
3.5.1 Inhaltsvalidität
In der einführenden Darstellung zentraler Test-
gütekriterien in Abschnitt 3.1.1 hatten wir Va- Es ist offensichtlich, dass die Bedeutung von
lidität als das Ausmaß bezeichnet, in dem Test- Testergebnissen von der Formulierung und

68
3.5 Validität

Zusammenstellung der Items abhängt. In- auch für die entsprechenden Berufsanforde-
haltsvalidität wird einem Verfahren zugespro- rungen typisch sind. Bei derartigen Verfah-
chen, wenn seine Items für den zu messen- ren muss etwa ein Diktat aufgenommen, ein
den Erlebens- bzw. Verhaltensbereich rele- Brief mit einem Textverarbeitungssystem er-
vant und in ihrer Gesamtheit repräsentativ stellt und formatiert, Rechnungen geprüft oder
sind. Sie wird primär auf der Basis einer der Posteingang nach Wichtigkeit sortiert wer-
konzeptuellen Analyse der Iteminhalte und den. Auch hier repräsentiert das Testverhalten
-zusammenstellung beurteilt. gewissermaßen einen Teil oder Ausschnitt des
Kriteriums. Solchen Verfahren, in denen die
Drei Fragen sind für die Bestimmung der In-
„Bewährungssituation“ in der einen oder ande-
haltsvalidität eines Verfahrens entscheidend
ren Weise simuliert wird, würde man deshalb
(McDonald, 1999):
Inhaltsvalidität zusprechen, sofern die drei ge-
1. Wurden alle essenziellen Aspekte des in Re- nannten Fragen positiv beantwortet werden
de stehenden Merkmals identifiziert? können.
2. Sind die Items für die Erfassung dieser
Auch die Abschätzung der Inhaltsvalidität von
Aspekte angemessen? Angemessenheit be-
Verfahren zur Messung von Persönlichkeits-
trifft dabei in erster Linie den Inhalt der
konstrukten wie Ängstlichkeit oder Intelligenz
Items, ggf. aber auch deren Schwierigkeit.
beruht zum großen Teil auf konzeptuellen
3. Besitzen die einzelnen Aspekte eine balan-
Überlegungen. Für diese Abschätzung muss
cierte, theoretisch nachvollziehbare und ggf.
das kontemporäre Wissen über ein Konzept
auch empirisch begründbare Repräsentation
herangezogen werden. Für einen Test zur Mes-
im Test?
sung der allgemeinen Intelligenz wären etwa
Natürlich wird man diese Fragen bereits bei die Ergebnisse der psychometrischen Intelli-
der Formulierung der Items und deren Zusam- genzforschung relevant. Ein allgemeiner In-
menstellung zugrunde legen. Inhaltsvalidität telligenztest, dessen Items primär sprachliche
kann generell umso leichter realisiert und de- und bildungsabhängige Aufgaben umfasst, an-
monstriert werden, je elaborierter die konzep- dere Intelligenzaspekte wie logisches Denken
tuelle Grundlage eines Verfahrens ist und je oder räumliches Vorstellungsvermögen aber
klarer entsprechend die Aspekte, Facetten oder vernachlässigt, könnte nicht als inhaltsvalide
Komponenten eines Merkmals oder Verhal- angesehen werden.
tensbereichs definiert sind.
In manchen älteren Darstellungen der
In einigen Fällen lassen sich die mit dem Test Diagnostik wurde die Inhaltsvalidität für
erfassten Verhaltensweisen selbst bereits als Persönlichkeits- und Fähigkeitstests als we-
Bestandteile des zu bestimmenden Kriteriums niger wichtig, manchmal sogar als irrelevant
auffassen. Dies würde etwa für einen Englisch- eingestuft. Dies hängt damit zusammen, dass
Vokabeltest gelten, mit dem die Kenntnis des für die Abschätzung der inhaltlichen Validität
im Rahmen einer Unterrichtseinheit durchge- keine allgemeinen und zugleich objektiven
nommenen Wortschatzes geprüft werden soll. Maßstäbe existieren. Tatsächlich sind konzep-
Hier stellt das Testverhalten in sehr direkter tuelle, theoretische Überlegungen, auf denen
Weise eine Stichprobe des Kriteriums dar. Ein die Abschätzung der Inhaltsvalidität beruht,
ähnlich direkter Bezug zwischen Test- und manchmal kontrovers. Für psychometrische
Kriteriumsverhalten liegt bei Arbeitsproben Tests wurde deshalb empfohlen, sich primär
zur Diagnose berufsbezogener Qualifikatio- auf empirisch gesicherte Zusammenhänge un-
nen vor, mit denen Kenntnisse und Fertigkei- ter den Items, zwischen Tests bzw. zwischen
ten anhand von Aufgaben geprüft werden, die Tests und Kriterien zu verlassen.

69
3 Merkmale und Gütekriterien psychologischer Tests

Es ist jedoch wichtig zu sehen, dass inhaltli- mung der Relevanz und Repräsentativität der
che Überlegungen auch in empirisch gestütz- Testitems bzw. Aufgaben für den Inhalt des
ten Validierungsprogrammen oft das „letzte Lehr- oder Modifikationsziels. Es wird also
Wort“ besitzen und besitzen müssen (McDo- geprüft, wieweit ein Test das definierte Krite-
nald, 1999; siehe auch Cronbach, 1990). So rium erfasst und ausschöpft.
dürften z. B. Items zur Erfassung mathemati-
scher Fähigkeiten, mathematischen Wissens Beispiel
und mathematischer Interessen untereinander
Nehmen wir an, Ziel eines mehrjährigen
sehr hoch korreliert sein. Möglicherweise bil-
Englisch-Unterrichts auf dem Gymnasi-
den sie im Rahmen einer spezifischen Testbat-
um sei der Erwerb des Grund- und Auf-
terie einen varianzstarken Faktor. Wenn wir
bauwortschatzes, die korrekte Rechtschrei-
uns allein auf die empirischen Zusammenhän-
bung dieser Wörter, flüssiger, idiomatisch
ge stützen würden oder könnten, müssten wir
angemessener und grammatisch richtiger
sagen, dass Fähigkeiten, Wissen und Interes-
Satzbau, Unterscheidung von Sprachebe-
sen im mathematischen Bereich „dasselbe“
nen sowie korrekte Aussprache. Von ei-
sind (ein Merkmal reflektieren), was konzeptu-
nem entsprechenden lehrzielorientierten
ell natürlich nicht sonderlich viel Sinn machen
Test muss gefordert werden, dass er diese
würde.
Inhalte möglichst umfassend, angemessen
Inhaltsvalidität spielt besonders bei sog. kri- gewichtet und auf dem adäquaten Schwie-
teriumsorientierten Verfahren (I Kap. 3.6.2 rigkeitsniveau operationalisiert. Dagegen
sowie 16.2.3) eine zentrale Rolle. Mit kriteri- wäre Inhaltsvalidität des Tests problema-
umsorientierten Tests soll das Erreichen oder tisch, wenn etwa wesentliche Inhalte des
Verfehlen eines bestimmten Verhaltenskriteri- Lehrziels nicht vertreten sind (hier liegt ei-
ums bzw. -ziels (z. B. eines Lehrziels bei ei- ne zu enge Operationalisierung der Lehrzie-
nem Schüler) festgestellt werden. In diesem le vor), bestimmte Inhalte unangemessen
Fall liefern inhaltliche Überlegungen meist die gewichtet werden (z. B. essenzielle Aspek-
wichtigste Quelle zur angemessenen Interpre- te des Lehrziels im Test unterrepräsentiert
tation der Testwerte. In solchen Tests wird ein sind) oder die Testdecke zu niedrig oder zu
Kriterium inhaltlich bestimmt und anschlie- hoch ist (die Items angesichts des Lehrziels
ßend in Form von Testitems umgesetzt. Im zu leicht oder schwierig sind).
Geographie-Unterricht einer bestimmten Klas-
senstufe könnte ein derartiges Ziel beispiels-
Werden kriteriumsorientierte Verfahren zur
weise die Kenntnis wichtiger geographischer
Bestimmung der Erreichung eines Lehr- oder
Gegebenheiten der näheren Umgebung sein.
anderen Interventionsziels eingesetzt, steht
Im Rahmen eines Selbstsicherheitstrainings
man manchmal vor dem Problem, dass durch
könnte ein Ziel im Erlernen der Fertigkeit be-
ein Modifikationsprogramm Verhaltensände-
stehen, in sozialen Konfliktsituationen seine
rungen bewirkt werden, die nicht Teil des In-
Rechte zu behaupten. Die Testitems werden
terventionsziels sind. Nehmen wir als Beispiel
dabei durch Experten, die mit dem Inhalt eines
ein Lehrprogramm, durch das ein Schüler die
Lehr- oder Verhaltensziels vertraut sind (z. B.
Fähigkeit zum logischen Denken erwerben
Geographie-Lehrer oder Therapeuten), auf ih-
soll. Lange Zeit hat man diese Wirkung etwa
re Tauglichkeit zur Abbildung des Kriteriums
dem Latein-Unterricht zugeschrieben. Würde
hin überprüft.
man nun einen entsprechenden lehrzielorien-
Die Analyse der inhaltlichen Validität krite- tierten Test (etwa mit Aufgaben, deren Lö-
riumsorientierter Tests besteht in der Bestim- sung logisches Denken erfordert) konstruieren,

70
3.5 Validität

so würde man vermutlich eine weitgehende wa den Klausurnoten im laufenden oder letz-
Wirkungslosigkeit des Latein-Unterrichts fest- ten Semester, korreliert. Seine prädiktive oder
stellen. Tatsächlich führt dieser Unterricht zu Vorhersagevalidität könnte bestimmt werden,
anderen Kompetenzen, etwa Verständnis für indem die Testwerte vor Studieneintritt mit
grammatische Strukturen, Kenntnis der Wort- Maßen des späteren Studienerfolgs korreliert
stämme vieler Wörter der romanischen und werden. Die Bewährung eines Instruments an
germanischen Sprachen usw. Dieses Beispiel externen Kriterien des zu diagnostizierenden
verdeutlicht, dass die sinnvolle Festlegung von Merkmals, und ganz besonders die Vorhersage
Lehrzielen und deren Operationalisierung im- solcher Kriterien, gilt als ein zentraler Prüf-
mer auch Information darüber erfordert, was stein für dessen Validität. In unserem Beispiel
eine bestimmte Intervention tatsächlich be- würde man deutliche prädiktive Zusammen-
wirkt. Die Konsequenzen von Interventionen hänge sicherlich als stärkere Evidenz für die
müssen empirisch untersucht werden. Entspre- Validität des Tests bewerten als deutliche kon-
chend wird es dann auch stark von empiri- kurrente Assoziationen.
schen Analysen abhängen, in welcher Breite,
Es ist offensichtlich, dass für einen Test im All-
mit welcher Gewichtung und auf welchem Ni-
gemeinen mehrere, manchmal sogar sehr viele
veau die Einzelaspekte eines Zieles in krite-
Kriterien in Frage kommen, für die sich auch
riumsorientierten Tests operationalisiert wer-
recht unterschiedliche Zusammenhänge ein-
den.
stellen können. Dabei sind nicht immer sehr
hohe Korrelationen zu erwarten. Dies liegt
zum Teil daran, dass die Kriterien im Allge-
3.5.2 Kriteriumsvalidität meinen mehrfach determiniert sind, also außer
von dem durch den Test erfassten Merkmal
Evidenz zur Inhaltsvalidität eines Tests beruht noch von vielen weiteren Einflüssen abhän-
primär auf testinterner Information. Dagegen gen. Die Höhe der Korrelation zwischen ei-
bezieht sich der Begriff Kriteriumsvalidität nem Test und einem Kriterium ist darüber hin-
auf testexterne Sachverhalte (Kriterien), auf aus immer auch eine Frage der Reliabilität der
die mit Hilfe des Tests geschlossen werden Kriteriumsmessung. Reliabilitätsmängel der
soll. Zur Bestimmung der Kriteriumsvalidi- Kriteriumsvariablen drücken die Korrelation
tät werden Zusammenhänge zwischen Test- im Allgemeinen nach unten.
und Kriteriumsvariablen untersucht. Ein Test
Aus der oben dargestellten Reliabilitätstheo-
ist valide hinsichtlich eines Kriteriums, wenn
rie lässt sich eine Formel ableiten, durch die
der Zusammenhang stark genug ist, um auf
sich der „messfehlerbereinigte“ Zusammen-
Grundlage der Testwerte praktisch brauchba-
hang zweier Variablen schätzen lässt, wenn
re Aussagen hinsichtlich der Ausprägung des
deren Reliabilitäten bekannt sind. Sie heißt
Kriteriums zu machen.
Formel zur Minderungskorrektur und liefert
Je nachdem, ob das Kriterium nahezu gleich- einen Schätzwert für den Zusammenhang der
zeitig mit dem betreffenden Test oder erst nach wahren (messfehlerfreien) Werte T X und T Y
einem längeren Zeitintervall erhoben wird, un- zweier Variablen X und Y:
terscheidet man hier zwischen konkurrenter Kor(X,Y )
und prädiktiver Kriteriumsvalidität. Die kon- Kor(TX , TY ) = p p .
Rel(X) · Rel(Y )
kurrente oder Übereinstimmungsvalidität ei-
nes Studieneignungstests könnte man z. B. er- Die Formel macht auch ersichtlich, dass der
fassen, indem man die Testwerte mit Indika- Zusammenhang zweier Variablen durch deren
toren des gegenwärtigen Studienerfolgs, et- Reliabilitäten begrenzt wird. Die im Nenner

71
3 Merkmale und Gütekriterien psychologischer Tests

auftauchenden Wurzeln aus den Reliabilitäten beispielsweise angewendet werden, um zu be-


der Variablen stellen Schätzungen der Korre- urteilen, inwieweit eine Erhöhung des Test-
lationen zwischen den beobachteten und den Kriteriums-Zusammenhangs durch Verbesse-
wahren Werten der jeweiligen Variablen dar. rung der Reliabilität des Verfahrens erreicht
Da (unter der Annahme unkorrelierter Fehler- werden kann. In diesem Fall würde man nur
einflüsse) eine Variable nicht höher mit einer für die Unreliabilität der Testwerte korrigieren
anderen Variablen korrelieren kann als mit ih- und entsprechend die Korrelation der wahren
ren eigenen wahren Werten, stellt die Wurzel Testwerte mit den messfehlerbehaften Kriteri-
aus der Reliabilität eine theoretische Obergren- umswerten, Kor(TX ,Y ), erhalten. In unserem
ze für deren Korrelation mit anderen Variablen Beispiel würden wir eine geschätzte Korrelati-
dar. on von
0.40
√ = 0.45
Mit der angegebenen Formel wird eine dop- 0.80
pelte Minderungskorrektur durchgeführt, da erhalten, die wir theoretisch erreichen können,
sowohl die Reliabilität der Testwerte X als wenn die Reliabilität des Tests, aber nicht die
auch die der Kriterienwerte Y berücksichtigt des Kriteriums, auf Eins verbessert wird.
wird. Mit ihrer Hilfe lässt sich schätzen, wie
weit man die Validität durch Erhöhung der Re-
liabilitäten von Test und Kriterium maximal 3.5.3 Konstruktvalidität
steigern kann. Nehmen wir an, die prädikti-
ve Validität eines Eignungstests für ein Maß Konstruktvalidität ist der weiteste Begriff der
des beruflichen Erfolgs betrage .40. Der Eig- Trias. Wir hatten bereits gesehen, dass sich
nungstest weise eine Reliabilität von .80, das Konstrukte auf theoretisch postulierte latente
Maß des Berufserfolgs eine Reliabilität von Merkmale beziehen, von denen angenommen
.60 auf. Setzen wir diese Werte in die Formel wird, dass sie sich im Testverhalten nieder-
ein, erhalten wir schlagen. Ein Test ist in dem Maß konstrukt-
valide, als er sich als Indikator des in Rede
0.40 stehenden Merkmals eignet. Die Eignung wird
√ = 0.58.
0.80 · 0.60 daran beurteilt, wie gut sich ein Verfahren im
Hinblick auf Hypothesen, die sich aus dem
Modell des zu erfassenden Merkmals ableiten
Der Wert von .58 repräsentiert die maximal lassen, empirisch bewährt. Anhand theoreti-
zu erreichende Validität, wenn man sowohl scher Überlegungen werden hier die Beziehun-
den Test als auch das Kriterium so optimie- gen eines zu validierenden empirischen Indika-
ren könnte, dass sie eine Reliabilität von Eins tors (also eines Tests) zu weiteren Indikatoren
erreichen. Doppelte Minderungskorrekturen dieses Merkmals wie auch zu Indikatoren an-
werden häufig durchgeführt, um Zusammen- derer Merkmale bzw. Konstrukte festgelegt.
hänge zwischen Variablengruppen, die in un- Man postuliert also ein Netzwerk aus positi-
terschiedlichem Ausmaß fehlerbehaftet sind, ven, negativen und Nullbeziehungen eines zu
einfacher miteinander vergleichen zu können. validierenden Verfahrens mit anderen empiri-
schen Indikatoren und überprüft, ob sich das
Soll lediglich für die Unreliabilität einer der
vorhergesagte Muster empirisch nachweisen
beiden Variablen korrigiert werden (sog. ein-
lässt.
fache Minderungskorrektur), setzt man die Re-
liabilität der anderen Variablen einfach auf Der Begriff der Konstruktvalidität wurde ur-
Eins, wodurch der entsprechende Wurzelaus- sprünglich eingeführt, um Prozeduren zur Va-
druck im Nenner herausfällt. Die Formel kann lidierung für Testverfahren zu begründen, für

72
3.5 Validität

die keine einzelnen, klar geschnittenen exter- unerwünscht – im Allgemeinen wird erwar-
nen Kriterien existieren. Cronbach und Meehl tet (oder erhofft), dass Untersuchungsresultate
(1955) definieren Konstruktvalidität als das über verschiedene methodische Zugänge gene-
Ausmaß, in dem das Testverhalten ein hypo- ralisierbar sind. In der Praxis sind Methoden-
thetisches (latentes) Merkmal oder Attribut effekte jedoch unvermeidbar, so dass es darauf
reflektiert, mit dem sich Personen beschrei- ankommt, ihr Ausmaß abschätzen zu können.
ben lassen. Als relevante Prozeduren hierfür
Campbell und Fiske (1959) sprechen Tests
wurden u. a. Untersuchungen von Gruppen-
als „trait-method units“ an. Gemeint ist, dass
unterschieden, Faktoren- und Itemanalysen,
die Testwerte gewissermaßen ein Amalgam
Experimente sowie Verlaufsstudien betrachtet.
aus Merkmals- und Methodeneinflüssen dar-
Der Begriff ist damit soweit gefasst, dass er
stellen. Korrelationen zwischen verschiede-
nicht nur Kriteriums- und Inhaltsvalidität, son-
nen Verfahren, die ähnliche Methoden ver-
dern auch Teile der Reliabilität als spezielle
wenden, können deshalb im Prinzip auf (a)
Aspekte beinhaltet. Es wurden jedoch auch
geteilten Merkmals- oder (b) auf geteilten Me-
Konzepte eingeführt, die über diese Aspekte
thodeneffekten beruhen. Wie gerade erwähnt,
hinausweisen.
sind starke Methodeneffekte allgemein uner-
Von zentraler Bedeutung sind hier die Begriffe wünscht. Ein Verdacht auf Methodeneffekte
der konvergenten und diskriminanten Validität. wäre z. B. gegeben, wenn zwei Fragebogen-
Etwas vereinfacht formuliert, steht hinter die- verfahren zur Erfassung aggressiver Verhal-
sen Begriffen die Idee, dass im Rahmen der tenstendenzen hoch korreliert wären (gleiche
Validierung eines Tests nicht nur gezeigt wer- Methode), aber nur gering mit Beobachtungs-
den muss, was der Test misst, sondern auch, indikatoren aggressiven Verhaltens zusammen-
was er nicht misst. Die Begriffe der konver- hängen würden (unterschiedliche Methoden).
genten und diskriminanten Validität wurden Methodeneffekte stellen bei Fragebogenver-
von Campbell und Fiske (1959) als Möglich- fahren eine lange bekannte und diskutierte
keit der Präzisierung des Begriffs der Kon- Quelle möglicher Artefakte dar (I Kap. 10).
struktvalidität eingeführt. Der Konzeption von Das Ausmaß solcher Methodeneffekte kann
Campbell und Fiske zufolge besitzen mehre- mit Multitrait-Multimethod-Analysen geprüft
re Indikatoren eines Konstrukts konvergente werden.
Validität, wenn sie hoch korreliert sind; sie
Multitrait-Multimethod-Analysen erfordern
besitzen diskriminante Validität, wenn sie nur
recht umfangreiche Untersuchungen, da meh-
niedrige Korrelationen mit Indikatoren ande-
rere Merkmale mit mehreren methodischen
rer Konstrukte aufweisen.
Zugängen bei denselben Personen erhoben
Ein Ansatz zur Untersuchung der konver- werden müssen. Zur Illustration der Grundidee
genten und diskriminanten Validität ist die des Verfahrens betrachten wir ein einfaches
Multitrait-Multimethod-Analyse, anhand de- Beispiel mit zwei Merkmalen und zwei Metho-
rer Campbell und Fiske (1959) ihre Be- den. Nehmen wir einen Intelligenztest, der die
griffe entwickelten. Multitrait-Multimethod- getrennte Erfassung numerischer und verba-
Analysen gelten als eine der überzeugendsten ler Fähigkeiten ermöglichen soll. Die Autoren
Zugangsweisen zur Untermauerung der Kon- des Tests gehen davon aus, dass es sich hier
struktvalidität eines Testverfahrens. Sie sind um zwei zwar korrelierte, aber separierbare
besonders geeignet, um den Einfluss der zur Facetten der Intelligenz handelt. Der Test soll
Erfassung eines Merkmals verwendeten Me- sowohl als Papier-und-Bleistift-Verfahren als
thode auf die Messergebnisse abschätzen zu auch computergestützt durchgeführt werden
können. Solche Methodeneffekte sind meist können. Numerische und verbale Fähigkeiten

73
3 Merkmale und Gütekriterien psychologischer Tests

vertreten in diesem Beispiel die Merkmale ungefähr gleich sein. Würden sie hier deutli-
(Traits), die beiden Vorgabemodalitäten (Pa- che Divergenzen ergeben, wären Papier- und
pier und Computer) die Methoden. Für prak- Computerversion nicht äquivalent. Diese For-
tische Zwecke ist es wünschenswert, dass die derung wird allerdings nicht in allen Anwen-
Vorgabemodalität für die Ergebnisse des Tests dungen des Multitrait-Multimethod-Ansatzes
irrelevant ist, so dass beide Erhebungsmetho- erhoben.
den als austauschbar betrachtet werden kön-
nen. Die Zellen außerhalb der Diagonalen enthal-
ten die Korrelationen zwischen den vier Va-
Um dies zu prüfen, müssen beide In- riablen. Je nach gemessenem Merkmal und
haltsbereiche mit beiden Methoden getes- eingesetzter Methode spricht man dabei von
tet werden. Für jede Person werden al- Monotrait-Heteromethod-Korrelationen (MH,
so vier Werte erhoben, in abgekürzter das gleiche Merkmal wird mit verschiedenen
Schreibweise: „numerisch-Papier“, „verbal- Methoden erfasst), Heterotrait-Monomethod-
Papier“, „numerisch-Computer“ und „verbal- Korrelationen (HM, verschiedene Merkmale
Computer“. In unserem speziellen Anwen- werden mit der gleichen Methode erfasst) und
dungsfall würden wir in einem ersten Schritt Heterotrait-Heteromethod-Korrelationen (HH,
die Mittelwerte und Streuungen der ent- verschiedene Merkmale werden mit verschie-
sprechenden Papier- und Testverfahren auf denen Methoden erfasst). Wie aus der Tabelle
Gleichheit prüfen. Die Gleichheit der Vertei- ersichtlich ist, wird in unserem Beispiel jede
lungskennwerte über Methoden ist allerdings der drei Zusammenhangsarten durch jeweils
nicht in allen Anwendungen der Multitrait- zwei Korrelationen repräsentiert.
Multimethod-Analyse von Interesse.
Für konstruktvalide Verfahren haben Camp-
Generell liefern die sechs Korrelationen der bell und Fiske (1959) generelle Erwartungen
vier Testwerte, zusammen mit deren Reliabi- formuliert, deren Erfüllung zusammengenom-
litäten, die zur Bestimmung der Methoden- men konvergente und diskriminante Validität
effekte benötigte Information. Sie werden in anzeigt. Die drei wichtigsten lauten:5
einer Multitrait-Multimethod-Matrix organi-
siert, wie sie I Tab. 3.1 veranschaulicht. 1. Die MH-Korrelationen (im Beispiel
In die Diagonale der Matrix werden die Re- numerisch-Papier/numerisch-Computer
liabilitäten (R) für jede der vier Merkmals- und verbal-Papier/verbal-Computer) sind
Methoden-Kombinationen eingetragen. Die deutlich größer als Null.
Reliabilitäten liefern Referenzwerte, an de- 2. Die MH-Korrelationen sind höher als die
nen die Höhe der anderen Koeffizienten der HH-Korrelationen
Tabelle gemessen wird. Wir hatten ja bereits (numerisch-Papier/verbal-Computer und
gesehen, dass die Reliabilitäten eine (theore- numerisch-Computer/verbal-Papier).
tische) Obergrenze für die Korrelation zweier 3. Die MH-Korrelationen sind höher als die
verschiedener Tests festlegen. Die Testautoren HM-Korrelationen
würden sich natürlich wünschen, dass die Re- (numerisch-Papier/verbal-Papier und
liabilitäten für jede der Merkmals-Methoden- numerisch-Computer/verbal-Computer).
Kombinationen hoch ist. In unserem speziel-
5 Eine vierte Erwartung, die wir hier ausklammern, be-
len Beispiel wäre darüber hinaus zu erwarten,
zieht sich auf Relationen unter den Korrelationen ver-
dass die Höhe der Reliabilität nicht oder nur in
schiedener Merkmale: Das Korrelationsmuster zwi-
geringem Maße von der Methode abhängt: R1 schen Indikatoren verschiedener Merkmale innerhalb
und R3 sowie R2 und R4 sollten also jeweils einer Methode ist über die Methoden ähnlich.

74
3.6 Normen und Bezugssysteme

Tab. 3.1
Methode 1 Methode 2
Multitrait-Multimethod-Matrix. R = Reliabilitäten,
A B A B
MH = Monotrait-Heteromethod-Korrelationen,
HM = Heterotrait-Monomethod-Korrelationen, Methode 1
HH = Heterotrait-Heteromethod-Korrelationen. A R1
A und B sind verschiedene Merkmale. B HM R2
Methode 2
A MH HH R3
B HH MH HM R4

Die Erfüllung der beiden ersten Bedingungen der gleichen Methode gemessen werden. Im
spricht für konvergente Validität, die der drit- Beispielfall würden wir realistischerweise mit
ten indiziert diskriminante Validität. einem gewissen Methodeneinfluss auf die Er-
gebnisse rechnen, da Personen, die häufig mit
In unserem Beispiel würde man eine sehr deut- Computern arbeiten, in den beiden Computer-
liche Konvergenz der einander entsprechenden versionen vermutlich leichte Vorteile gegen-
Computer- und Papierversionen der Tests for- über anderen Personen besitzen werden.
dern. Wenn die Indikatoren im Wesentlichen
die zu messenden Intelligenzmerkmale reflek- Als Traits wurden in unserem Beispiel Fähig-
tieren, sollten sich die MH-Korrelationen den keitsmerkmale betrachtet, als Methods zwei
Reliabilitäten der Tests nähern. In anderen Vorgabemodalitäten der Tests. Dies sollte
Anwendungen des Multitrait-Multimethod- nicht darüber hinwegtäuschen, dass der An-
Ansatzes ist eine solche Forderung aller- satz sehr allgemein ist. An die Stelle von Traits
dings nicht zu erfüllen. Werden z. B. Selbstbe- könnten z. B. aktuelle Zustände treten. Me-
richt, Fremdbericht oder Verhaltensbeobach- thoden könnten z. B. auch verschiedene Be-
tung als Methoden eingesetzt, werden die MH- obachter oder Beurteiler sein. Die Multitrait-
Korrelationen niedriger ausfallen. Multimethod-Analyse, wie sie hier in ihrer
einfachsten Form skizziert wurde, stellt ein
Die Forderung, dass die MH-Korrelationen heuristisches Verfahren zur Abschätzung der
höher ausfallen als die HH- und HM- konvergenten und diskriminanten Validität von
Korrelationen, bedeutet nicht unbedingt, dass Messungen dar. Die Idee des Ansatzes wird
für letztere Koeffizienten um Null erwartet zur Zeit auf der Basis konfirmatorischer Fak-
werden. In unserem Fall würden wir z. B. von torenanalysen und komplexerer Verfahren zur
vornherein positive Korrelationen erwarten, da Analyse von Kovarianzstrukturen weiterentwi-
verbale und numerische Fähigkeiten von der ckelt (Nussbeck, Eid, Geiser, Courvoisier &
allgemeinen Intelligenz abhängen. Cole, 2008; Schermelleh-Engel & Schweizer,
2008).
Ein markanter Einfluss der Methode auf die
Ergebnisse würde sich darin bemerkbar ma-
chen, dass Korrelationen zwischen Indikato-
ren, die mit der gleichen Methode gewonnen 3.6 Normen und Bezugssysteme
wurden, relativ hoch und Korrelationen zwi-
schen Indikatoren, die mit unterschiedlichen Testwerte können mit Hilfe verschiedener Be-
Methoden gewonnen wurden, relativ niedrig zugssysteme interpretiert werden. Diese Be-
ausfallen. Methodeneffekte inflationieren die zugssysteme liefern Maßstäbe oder Standards,
Korrelationen zwischen Merkmalen, die mit die helfen, einen konkreten Testwert sinnvoll

75
3 Merkmale und Gütekriterien psychologischer Tests

einzuordnen. Bei vielen Testverfahren wird die Interpretation von Testwerten. Der zen-
ein normorientiertes Bezugssystem verwendet. trale Zweck des gewonnenen Bezugssytems
Hier werden Testresultate an der Verteilung besteht darin, künftige Testergebnisse anderer
der Ergebnisse in einer Bezugsgruppe gemes- Personen relativ zur Normierungsstichprobe
sen. Bei einem kriteriumsorientierten Bezugs- einordnen zu können.
system werden die Testergebnisse dagegen mit
inhaltlich definierten Zielen verglichen. Wie Für die Erstellung von Normen bestehen ver-
gut eine Person im Vergleich zu Anderen ab- schiedene Möglichkeiten. Am häufigsten fin-
geschnitten hat, ist dabei irrelevant. Die Inter- den sich
pretation von Testwerten kann sich schließlich
auch an individuellen Bezugsgrößen orientie- • Standardnormen (Abweichungs-, Variabili-
ren: Hier interessieren meist Veränderungen tätsnormen),
im Erleben und Verhalten einer Person über • Prozentränge (Perzentilränge),
verschiedene Zeitpunkte, etwa vor und nach
• Standardnormäquivalente sowie
einer therapeutischen Intervention. Eine Va-
riante sind ipsative Vergleiche, die sich auf • Alters- und Klassenäquivalente,
verschiedene Variablen (z. B. Interessen für
diverse Gebiete) bei einer Person beziehen. die im Folgenden besprochen werden.

3.6.1 Normorientierte Vergleiche Standardnormen

Standardnormen werden in den meisten psy-


Erfahren wir, dass eine Person in einem Wis-
chologischen Testverfahren berichtet. Sie lie-
senstest 45 von 50 Aufgaben gelöst hat, könn-
fern Werte auf einer Skala, aus der die Position
ten wir geneigt sein, von einer guten Leistung
einer Person relativ zum Mittelwert und der
zu sprechen. Unsere Interpretation wird sich
Streuung der Bezugsgruppe in direkter Weise
allerdings ändern, wenn wir wissen, dass der
ersichtlich ist. Basis sind standardisierte (z-
Test sehr leicht war und 90 Prozent der Perso-
transformierte) Werte, woher der Name der
nen mehr als 45 Aufgaben korrekt bearbeitet
Normen rührt. Andere gängige Bezeichnun-
haben. Tatsächlich sind die von einem Test
gen für diese Normen sind Variabilitäts- oder
zunächst gelieferten Werte, die Rohwerte ge-
Abweichungsnorm.
nannt werden, für sich genommen nicht son-
derlich informativ. Um informativere Werte Standardnormen werden erstellt, indem für je-
zu gewinnen, werden Tests normiert (geeicht). den möglichen Rohwert eines Tests der zuge-
Hierfür wird der Test einer großen und mög- hörige z-Wert berechnet wird. Hierfür benötigt
lichst repräsentativen Stichprobe der Zielpo- man lediglich den Mittelwert und die Standard-
pulation, der Normierungs- oder Eichstichpro- abweichung der Rohwerte in der Normierungs-
be, vorgelegt. An Größe und Repräsentativität stichprobe. Die z-Transformation wird durch-
dieser Stichprobe werden strengere Kriterien geführt, indem von jedem Wert einer Variablen
angelegt als an Stichproben, die in der Erpro- ihr Mittelwert abgezogen und die resultieren-
bungsphase eines Tests gewählt werden. Die de Differenz durch die Standardabweichung
Verteilung der Rohwerte in der Normierungs- der Variablen geteilt wird:
stichprobe liefert dann den Maßstab, der an
individuelle Testwerte angelegt wird. Wir er- xi − x̄
halten ein normorientiertes Bezugssystem für zi = .
Std(X)

76
3.6 Normen und Bezugssysteme

4 7 12 17 20 17 12 7 4
Stanine
1 2 3 4 5 6 7 8 9
Wert−
punkte
1 2 3 4 5 6 7 8 9 10 12 14 16 18

IQ
55 65 75 85 95 105 115 125 135 145

T
20 25 30 35 40 45 50 55 60 65 70 75 80

PR
0.1 1 5 10 20 40 60 80 90 95 99 99.9

Abb. 3.4 z
Gebräuchliche Skalen −3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3

Beträgt dieser Mittelwert z. B. 15, die Stan- Teilweise aus historischen, teilweise aus prak-
dardabweichung 5, würden wir für einen Roh- tischen Gründen werden anstelle von z-trans-
wert von 10 einen z-Wert von formierten Werten meist andere lineare Trans-
formationen der Rohwerte verwendet. Sie un-
10 − 15 terscheiden sich von z-Werten durch die Fest-
= −1
5 legung anderer Mittelwerte und Standardab-
weichungen. Das bekannteste Beispiel ist die
erhalten. Rohwerte und zugehörige Standard-
IQ-Skala, deren Mittelwert auf 100 und de-
werte werden üblicherweise im Anhang des
ren Standardabweichung auf 15 fixiert ist. IQ-
Testmanuals tabelliert. Die z-Transformation
Werte können aus z-Werten über die Transfor-
liefert eine neue Variable mit einem Mittel-
mation
wert von 0 und einer Standardabweichung von
IQ = 100 + 15z
1; z-Werte geben also an, um wieviele Stan-
dardabweichungen der Testwert einer Person gewonnen werden. Die Verwendung dieser
vom Mittelwert der Normierungsstichprobe Skala ist historisch bedingt: Der von Stern
abweicht. Approximiert die Rohwertevertei- (1912) definierte Intelligenzquotient (100 ·
lung eine Normalverteilung, lassen sich aus Intelligenzalter/Lebensalter) wies bei Kin-
den z-transformierten Werten zudem in einfa- dern innerhalb einer bestimmten Altersspan-
cher Weise Aussagen über den prozentualen ne in etwa eine Standardabweichung von 15
Anteil von Personen in der Vergleichsgruppe auf. In der Neufestlegung der IQ-Skala durch
machen, die höhere oder niedrigere Werte er- Wechsler (1939) wurde dies übernommen
reichen. Eine Abschätzung ist auch mit den (I Kap. 12).
beiden unteren Skalen in I Abb. 3.4 möglich.
Eine zweite beliebte Skala sind T-Werte, die
Für normalverteilte Variablen erhält man den
einen Mittelwert von 50 und eine Standardab-
Anteil der Personen, die unter einem gegebe-
weichung von 10 aufweisen. Man erhält sie
nen z-Wert liegen (unterste Skala) durch Ab-
aus z-Werten über
lesen des entsprechenden Prozentrangs (PR)
auf der darüber liegenden Skala. Für einen z- T = 50 + 10z.
Wert von −1 erhalten wir beispielsweise ein
Prozentrang von 16. Prozentränge werden im IQ- und T-Werte werden üblicherweise auf
nächsten Abschnitt genauer besprochen. ganze Zahlen gerundet. Ihre Verwendung wird

77
3 Merkmale und Gütekriterien psychologischer Tests

damit begründet, dass sie kein Hantieren mit einem Wissenstest einen altersspezifischen T-
negativen Zahlen oder mehreren Dezimalstel- Wert von 70 erreicht hat, liegt weit über dem
len erforderlich machen. Durchschnitt anderer 9-jähriger Kinder, weiß
aber in dem geprüften Bereich möglicherwei-
Leser von Testmanualen werden mit einer se weniger als ein 11-jähriges Kind mit einem
großen Zahl weiterer Skalen konfrontiert. Wie altersspezifischen T-Wert von 50.
IQ- und T-Werte lassen sie sich aus z-Werten
durch Multiplikation mit der Standardabwei- Will man Testwerte (etwa für ein Gutachten)
chung der Skala und anschließender Addition verbal etikettieren, bietet es sich an, Werte, die
ihres Mittelwerts gewinnen. Erstaunlicherwei- innerhalb eines Bereichs von einer Standard-
se benutzen einige dieser Skalen recht undif- abweichung um dem Mittelwert liegen, als
ferenzierte Einteilungen. In der sog. Stanine- durchschnittlich zu bezeichnen, Werte außer-
Skala (gesprochen: standard nine), deren Mit- halb dieses Bereichs entsprechend als unter-
telwert 5 und deren Standardabweichung auf oder überdurchschnittlich. Für T-Werte würde
2 festgelegt ist, werden z. B. nur ganzzahlige der Durchschnittsbereich beispielsweise zwi-
Werte von 1 bis 9 vergeben. Solche Skalen schen 40 und 60 liegen, für IQ-Werte zwischen
werden gerne verwendet, wenn die Testwerte 85 und 115. Werte, die niedriger ausfallen als
selbst, etwa aufgrund einer geringen Iteman- 2 Standardabweichungen unter dem Durch-
zahl, nur innerhalb eines engen Bereichs streu- schnitt oder höher als 2 Standardabweichun-
en. Mit der Verwendung einer einfacheren Ska- gen über dem Durchschnitt können entspre-
la will man es vermeiden, einen Differenzie- chend als weit unter- bzw. überdurchschnitt-
rungsgrad der Messung vorzuspiegeln, der gar lich beschrieben werden.
nicht existiert.
Möchte man den Messfehler in die verbale
Bei Tests für Merkmale, die altersbezogenen Ettikettierung inkorporieren, so umschreibt
Veränderungen unterworfen sind, also etwa man den Testwert entsprechend der unteren
bei Fähigkeits- und Leistungstests, werden al- und oberen Grenze des Konfidenzintervalls
tersspezifische Normen erstellt. Die Normen (I Kap. 3.4.2). Hat sich für einen Testwert
werden hier also separat für altershomogene z. B. eine untere Grenze des Konfidenzinter-
Gruppen berechnet, so dass etwa die Leistung valls von T = 36 und eine obere Grenze von
eines 9-jährigen Kindes mit der Leistung ande- T = 44 ergeben, so würde man von einer „un-
rer 9-jähriger Kinder verglichen wird. Neben terdurchschnittlichen bis durchschnittlichen“
dem Alter kommen auch andere Einteilungs- Ausprägung des gemessenen Merkmals spre-
gesichtspunkte in Betracht. Manche Tests ent- chen. Bühner (2011) schlägt zusätzlich vor,
halten z. B. zusätzlich separate Normen für einen Testwert in jedem Fall als „durchschnitt-
Kinder aus Hauptschulen, Realschulen und lich“ zu charakterisieren, wenn das Konfidenz-
Gymnasien. Dies ermöglicht es, Leistungen re- intervall den Mittelwert der Normstichprobe
lativ zum besuchten Schultyp zu lokalisieren. (bei T-Werten also z. B. 50) überdeckt. Die
Auch geschlechtsspezifische Normen werden bei der Berechnung des Konfidenzintervalls
in einigen Tests verwendet. zugrunde gelegte Wahrscheinlichkeit sollte in
jedem Fall mit angegeben werden.
Mit gruppenspezifischen Normwerten ist es
natürlich unmöglich, Aussagen über die „abso- Eine einheitliche Konvention für verbale Um-
lute“ Leistung einer Person zu machen. Diese schreibungen existiert nicht. Die in man-
sind vielmehr immer auf die Bezugsgruppe chen älteren Manualen angebotenen deutlich
zu relativieren. Ein 9-jähriges Kind, das in wertenden Kategorien (z. B. „schwachsinnig“

78
3.6 Normen und Bezugssysteme

oder „genial“) sind unangemessen und sollten Für den Testwert 3 errechnet man z. B. einen
vermieden werden (I Kap. 12). Prozentrang (90 + 70)/2 = 80. Prozentränge
ordnen damit den Personen Werte zu, die der
mittleren kumulierten prozentualen Häufigkeit
Prozentränge innerhalb jeder Stufe entsprechen.
Eine alternative Prozedur besteht darin, den
Prozentränge (PR) oder Perzentilränge sind auftretenden Testwerten Ränge zuzuordnen,
sehr einfach zu interpretierende Kennwerte. die von 1 bis zur Anzahl der Personen (n) rei-
Sie geben an, wieviel Prozent der Referenz- chen. Der niedrigste Testwert erhält dabei den
gruppe geringere oder maximal gleiche Aus- Rang 1, der höchste den Rang n. Wenn sich
prägungen auf dem gemessenen Merkmal auf- mehrere Testwerte den gleichen Rangplatz tei-
weisen. Ein Prozentrang von 60 besagt also, len, werden die entsprechenden Ränge gemit-
dass 60 Prozent der Referenzgruppe niedrigere telt. Prozentränge für jede Kategorie k werden
Ausprägungen aufweisen, 40 Prozent dagegen dann nach
höhere.
R(k) − 0.5
Für die empirische Bestimmung von Prozent- PR(k) = 100 ·
n
rängen gibt es verschiedene Konventionen, die
bei einer geringen Zahl von Skalenabstufun- berechnet, wobei für R(k) die (mittleren)
gen zu etwas unterschiedlichen Werten führen Rangplätze der Wertekategorien einzusetzen
können. In der psychometrischen Literatur ist sind. Personen mit dem Testwert 1 teilen sich
es üblich, von den kumulierten prozentualen in unserem Beispiel die Ränge 21 bis 80, im
Häufigkeiten der Testwerte auszugehen und Mittel also 50.5, so dass sich für PR(1) wie-
diese jeweils zwischen den einzelnen Stufen derum 25 ergibt.
(Testwerten) zu mitteln.
Prozentränge sind einfach verständliche Nor-
I Tab. 3.2 illustriert das Vorgehen an einem men, die sich gut für die Kommunikation mit
sehr einfachen Beispiel eines Tests mit vier Personen ohne testtheoretische Vorbildung eig-
Aufgaben, der Werte (Lösungshäufigkeiten) nen. Sie können deshalb insbesondere in Gut-
von 0 bis 4 liefert. Für die Bestimmung von achten, soweit angebracht, verwendet werden
Prozenträngen zählt man zunächst die Häu- (I Kap. 13).
figkeiten aus, mit der die einzelnen Testwerte
Bei ihrer Interpretation muss jedoch beach-
vorkommen. Im Beispiel haben 20 Personen
tet werden, dass es sich um eine nichtlinea-
der insgesamt 200 Personen keine der Aufga-
re Transformation der Ausgangswerte han-
ben gelöst, 60 haben eine Aufgabe gelöst usw.
delt. Die Skaleneigenschaften der Rohwerte
Die entsprechenden prozentualen Häufigkei-
gehen dabei verloren. So entspricht etwa eine
ten werden anschließend kumuliert, d. h. suk-
z-Wert-Differenz von 1 im Mittelbereich der
zessive addiert. Sie geben den prozentualen
Skala größeren Prozentrang-Differenzen als
Anteil der Personen an, die einen bestimmten
dies im hohen und niedrigen Bereich der Fall
Testwert erreicht haben oder darunter lagen.
ist (I Abb. 3.4). Intervallen auf der Rohwert-
Prozentränge werden dann gebildet, indem die oder Standardskala entsprechen auf der Pro-
kumulierte prozentuale Häufigkeit einer Stufe zentrangskala also ganz andere Intervalle. Wei-
(Testwertkategorie) mit der kumulierten pro- tere Berechnungen, etwa die Bestimmung
zentualen Häufigkeit der vorhergehenden Stu- von Gruppenmittelwerten, sollten mit Prozent-
fe gemittelt wird, wobei man für die niedrigs- rängen deshalb nicht angestellt werden. Hier-
te Stufe 0 als vorhergehenden Wert ansetzt. für greift man auf die Rohwerte zurück.

79
3 Merkmale und Gütekriterien psychologischer Tests

Tab. 3.2
Testwert
Berechnung von
Kennwert 0 1 2 3 4
Prozenträngen
Häufigkeit 20 60 60 40 20
Prozentuale Häufigkeit 10 30 30 20 10
Kumulierte prozentuale Häufigkeit 10 40 70 90 100
Prozentrang 5 25 55 80 95

Standardnormäquivalente sierte Werte sind im Allgemeinen nicht exakt


normalverteilt. Eine nachträgliche Normalisie-
Standardnormäquivalente stellen eine weitere rung von Variablen, die markant von der Nor-
Form der Normierung dar. Auch hier werden malverteilung abweichen, obwohl eine Nor-
die Rohwerte nichtlinear transformiert und malverteilung erwartet wird, ist jedoch proble-
zwar so, dass sich die transformierten Wer- matisch. Wird nämlich angenommen, dass das
te normal verteilen. Man spricht hier auch zu erfassende Merkmal in der Population nor-
von einer Normalisierung der Werte: Nicht- malverteilt ist, verweisen nichtnormalverteilte
normalverteilte Werte werden in normalver- Werte darauf, dass die Aufgabenzusammen-
teilte überführt. stellung suboptimal ist oder die Stichprobe
die Population nicht gut repräsentiert (oder
Für die Normalisierung ordnet man den Roh- beides). Solange die Aufgabenzusammenstel-
werten zunächst Prozentränge zu, wie gera- lung nicht optimal ist, besteht normalerweise
de beschrieben. Diese Prozentränge werden kein Grund für eine Normierung des Tests.
anschließend in diejenigen z-Werte zurück- Wenn die Stichprobe die Population nicht gut
übersetzt, die sich bei einer Normalverteilung repräsentiert, liefert auch die Normierung un-
der Werte ergeben hätten. Für eine grobe Nä- angemessene Werte. Das Vorgehen ist primär
herung kann man wiederum die beiden unte- geeignet, leichtere, stichprobenbedingte Ab-
ren Skalen der I Abb. 3.4 verwenden. Einem weichungen von der Normalverteilung gewis-
Prozentrang von 80 würde also ein normali- sermaßen kosmetisch zu korrigieren. Da es
sierter z-Wert von 0.8 zugeordnet werden, ei- sich auch hier wie bei Prozenträngen um eine
nem Prozentrang von 50 ein z-Wert von 0 usw. nichtlineare Transformation handelt, bleiben
Dies sind die Standardnormäquivalente. Ande- Intervalle auf der Rohwertskala nicht erhalten.
re Standardnormäquivalente lassen sich gewin- Bei kleineren Abweichungen von der Normal-
nen, indem die z-Werte in T-Werte oder ande- verteilung kann dies jedoch ignoriert werden.
re Skalen umgerechnet werden, wie oben be-
schrieben wurde. Stanine-Werte werden prak-
tisch immer mittels dieses Vorgehens gebildet.
Wie im oberen Teil der I Abb. 3.4 angedeutet Äquivalentnormen
ist, werden hier den 4 % niedrigsten Werten
eine Stanine von 1, den 7 % nächst höheren
Werten eine Stanine 2 zugeordnet usw. (Mit Eine weitere Art von Normen sind sog. Al-
diesem Vorgehen erhält man einen Mittelwert tersäquivalente. Derartige Normen finden sich
von 5 und eine Standardabweichung von 2.) häufig in Fähigkeits- und Leistungstests für
Kinder und Jugendliche. Mit Altersäquivalen-
Ein Vorteil solcher Standardnormäquivalente ten werden den Leistungen in einem Tests die-
wird in der direkten Korrespondenz zu Pro- jenigen Altersabschnitte zugeordnet, in denen
zenträngen gesehen. Rohwerte und standardi- sie typischerweise erbracht werden können.

80
3.6 Normen und Bezugssysteme

Das klassische Beispiel für eine Altersäqui- Gruppe nahe bei 7.0 Jahren liegt. Anschlie-
valentnorm ist das Intelligenzalter. Mit dieser ßend berechnet man den Leistungsmittelwert
Norm charakterisierten bereits Binet und Kol- oder -median getrennt für alle Altersgruppen.
legen den intellektuellen Entwicklungsstand (Der Median entspricht dem Wert, den ein
von Kindern (I Kap. 2). Wird einem Kind bei- Kind erreicht, das genau in der Mitte der Roh-
spielsweise ein Intelligenzalter von 8 Jahren wertverteilung liegt; er wird dem arithmeti-
und 6 Monaten attestiert, so bedeutet dies, dass schen Mittelwert bei der Bildung von Alters-
seine Leistung in dem absolvierten Test der normen üblicherweise vorgezogen, da er die
typischen (durchschnittlichen) Leistung von typische Leistung besser repräsentiert, wenn
Kindern entspricht, die achteinhalb Jahre alt asymmetrische Verteilungen vorliegen.) Tabel-
sind. Die Leistung des Kindes hat ein Alters- liert man anschließend die Altersmittelwerte
äquivalent von achteinhalb Jahren. Der Ver- gegen die berechneten typischen Rohwerte,
gleich zwischen Intelligenzalter und Lebensal- lassen sich für gegebene Rohwerte die entspre-
ter ermöglicht Rückschlüsse über den kogniti- chenden Altersäquivalente ablesen. In unseren
ven Entwicklungsstand des Kindes. Würde das Beispieldaten entspricht etwa ein Rohwert von
Intelligenzalter von achteinhalb von einem sie- 14 einem Altersäquivalent von 8 Jahren. Bei
benjährigen Kind erreicht werden, so könnte Rohwerten, die nicht in der Tabelle vorkom-
man dem Kind einen Entwicklungsvorsprung men, kann man interpolieren, einem Rohwert
in dem geprüften Leistungsbereich bescheini- von 12 z. B. ein Altersäquivalent von sieben-
gen. einhalb Jahren zuordnen.
Neben Altersäquivalenten gibt es noch eine
Tab. 3.3 Beispieldaten zur Erstellung von zweite populäre Art von Äquivalentnormen,
Altersnormen nämlich Klassenstufenäquivalente. Sie wer-
den häufig in Tests berichtet, die im Schul-
Altersgruppe Mittlerer Rohwert
kontext eingesetzt werden. An die Stelle von
6 8 Altersabschnitten als Referenzwert treten hier
7 10 Klassenstufen, in denen bestimmte Leistun-
8 14 gen typischerweise gezeigt werden. Ein Kind
9 17 mit einem Klassenstufenäquivalent von 5 in
einem Rechentest erbringt in diesem Bereich
10 20
also Leistungen, die einem durchschnittlichen
11 22
Fünftklässler entsprechen.
12 26
Äquivalentnormen verdanken ihre Beliebtheit
vor allem ihrer Anschaulichkeit; auch Laien
Die Erstellung von Altersnormäquivalenten ist können mit diesen Normen sofort etwas an-
möglich, solange deutliche altersbezogene Ver- fangen. In der diagnostischen Literatur sind
änderungen innerhalb eines bestimmten Ver- sie jedoch sehr umstritten (siehe z. B. Cron-
haltensbereichs vorliegen. Sie können relativ bach, 1990). Der Grund hierfür liegt darin,
einfach gewonnen werden. Zunächst werden dass die Leistung eines Kindes hier mit einer
die Kinder in Altersgruppen eingeteilt. In dem Bezugsgruppe verglichen wird, zu der es unter
in I Tab. 3.3 gezeigten Beispiel wurden alle Umständen gar nicht gehört. Dies kann sehr
Kinder, die älter als sechseinhalb und jünger leicht zu Fehlinterpretationen führen. Nehmen
als siebeneinhalb Jahre alt sind, der Alters- wir an, das Kind mit dem Klassenstufenäqui-
gruppe 7 zugeordnet. Diese Art der Einteilung valent von 5 im Rechnen sei in der siebten
gewährleistet, dass der Altersmittelwert der Klasse. Man könnte dies als einen massiven

81
3 Merkmale und Gütekriterien psychologischer Tests

Leistungsrückstand im Rechnen interpretieren. zu erkennen (I Kap. 12). Die Ursachen


Tatsächlich lässt sich jedoch ohne weitere In- des Anwachsens dieser Leistungen über
formation nicht mehr sagen, als dass das Kind die Generationen sind noch nicht geklärt.
die durchschnittliche Leistung von Siebtkläss- Der Effekt ist nach dem Autor benannt, der
lern nicht erreicht hat. Es könnte durchaus sein, ihn als erster systematisch dokumentiert hat
dass ein Viertel der Klassenkameraden des (Flynn, 1987; vgl. auch Dickens & Flynn,
Kindes nur ein Äquivalent von 5 oder weniger 2001; Neisser et al. 1996).
erreicht, was die Interpretation des Rückstands
doch sehr relativieren würde. Ohne Streuungs-Geprüft werden muss auch, ob die Eichstich-
angaben können Äquivalentnormen leicht zu probe für eine konkrete Testanwendung über-
unangemessenen Schlussfolgerungen Anlass haupt sinnvolle Referenzwerte liefert. So ist
geben. Standardnormen oder Prozentrangnor- z. B. die Interpretation von Leistungen aus-
men, mit denen Kinder relativ zu ihrer Alters-
ländischer Kinder in einem Intelligenztest, der
oder Klassenstufe eingeordnet werden, ist des-
bei deutschen Kindern normiert wurde, proble-
halb der Vorzug zu geben. matisch. Wenn die für die Durchführung des
Tests wichtigen Bedingungen in der Anwen-
Verwendung von Normen dung nicht hergestellt werden können, führen
natürlich auch aktuelle und „passende“ Nor-
Vor der Verwendung von Normen muss ge- men in die Irre.
prüft werden, ob diese für die zu testenden
Personen überhaupt angemessen sind. Auf drei
Fragen sollte dabei besonderes Augenmerk ge- 3.6.2 Kriteriumsorientierte
richtet werden: Vergleiche
1. Wie lange liegt die Normierung zurück?
2. Wie war die Eichstichprobe zusammenge- Normorientierte Interpretationen von Testwer-
setzt? ten werden häufig mit kriteriumsorientierten
3. Können die für die Testbearbeitung essen- Interpretationen kontrastiert. Kriteriumsorien-
ziellen Bedingungen der Eichstichprobe in tierte Vergleiche liefern eine zweite grundle-
der konkreten Testanwendung realisiert wer- gende Möglichkeit der Interpretation von Test-
den? werten. Hier ergibt sich die Bedeutung der
Testwerte nicht durch die Position der Person
Tests, deren Normierung längere Zeit zurück- relativ zu den Testwerten anderer Personen,
liegt, liefern unter Umständen keine angemes- sondern relativ zu einem definierten Kriteri-
senen Bezugssysteme mehr. So werden z. B. um, d. h. einem bestimmten Ziel oder einer be-
bestimmte Intelligenztests, deren Normen ver- stimmten Anforderung. Solche Kriterien könn-
altet sind, aufgrund des sog. Flynn-Effekts zu ten etwa sein:
hohe IQ-Werte liefern.
(a) Fähigkeit zum Lösen mathematischer
Flynn-Effekt Gleichungen mit einer Unbekannten,
(b) Beherrschung des englischen Grundwort-
Beim Flynn-Effekt handelt es sich um eine schatzes,
seit langem bekannte säkulare Zunahme der (c) Fahreignung,
Leistungen in Intelligenztests, die durch- (d) Fähigkeit zur Reflexion eines kontrover-
schnittlich etwa drei IQ-Punkte pro Dekade sen politischen Themas,
beträgt und vor allem die Fähigkeit betrifft, (e) Angstfreiheit in öffentlichen Redesituatio-
Relationen zwischen abstrakten Symbolen nen.

82
3.6 Normen und Bezugssysteme

Wie die Beispiele illustrieren, sind Kriterien andererseits können wir sie im Hinblick auf
nicht immer klar umrissen; entsprechend kön- die Erreichung eines festgelegten Richtwerts
nen sie auch nicht immer vollständig in ein beurteilen (also kriteriumsorientiert vorgehen).
objektives Testformat umgesetzt werden. In Beide Bezugssysteme haben logisch wenig
den Fällen (a) und (b) wäre dies offensichtlich miteinander zu tun. Eine Person könnte norm-
noch relativ einfach. Für die Prüfung von (b) orientiert deutlich unter dem Durchschnitt der
könnte es etwa genügen, eine Stichprobe von Leistungen anderer Personen liegen, das Kri-
Vokabeln zusammenzustellen, die die Schüler terium aber dennoch klar erfüllen.
übersetzen sollen. Die einzige Komplikation
ergibt sich hier in der Festsetzung eines Richt- Manchmal spricht man von norm- bzw. kriteri-
werts, der angibt, ab wann das Kriterium als umsorientierten Messungen oder sogar norm-
erreicht gelten soll. Bei (c) lassen sich zumin- bzw. kriteriumsorientierten Tests, was nahe-
dest wichtige Teilaspekte des Kriteriums, näm- legt, dass es sich hier um Eigenschaften von
lich das erforderliche Wissen über Verkehrsre- Messungen oder Tests handelt, nicht allein
gelungen, basale technische Kenntnisse usw. um mögliche Interpretationen von Testwer-
über Tests erfassen. Auch bei (d) werden be- ten. Dies ist deswegen gerechtfertigt, weil bei
stimmte Wissensvoraussetzungen eine Rolle vielen Tests nur eines der beiden Bezugssys-
spielen, die man über Tests prüfen kann. (An teme interessiert oder doch im Vordergrund
dem, was wir hier intuitiv für besonders re- steht, was sich in einem unterschiedlichen Auf-
levant erachten, würde ein Wissenstest aber bau der entsprechenden Verfahren niederschla-
vorbei laufen.) Kriterienorientierte Interpreta- gen kann. Normorientierte Tests zielen näm-
tionen können auch Verhaltens- und Erlebens- lich darauf ab, Unterschiede zwischen Perso-
merkmale außerhalb des Leistungsbereichs be- nen (interindividuelle Differenzen) in einem
treffen, wie in Beispiel (e). Bei kriteriumsori- Merkmal möglichst gut zu reflektieren. Dies
entierten Interpretationen von Testwerten in- kann zu einer anderen Zusammenstellung von
teressiert, ob oder inwieweit ein Ziel erreicht Aufgaben führen als bei kriteriumsorientier-
wurde. Dabei bezieht man sich auf Maßstäbe, ten Tests, in der solche Unterschiede eventuell
die „in der Sache begründet“ sind, weshalb wenig oder gar nicht interessieren. Tatsächlich
hier auch von sachlichen Bezugsnormen ge- können kriteriumsorientierte Tests so konstru-
sprochen wird (Rheinberg & Fries, 2010). Mit iert werden, dass sie zwar die relevante An-
sachlichen Bezugsnormen wird der Grad der forderung gut erfassen, aber nur sehr grobe
Zielerreichung spezifiziert. Information über die relativen Positionen von
Personen liefern (I Kap. 16.2.3).
Die Differenzierung zwischen Norm- und Kri-
teriumsorientierung betrifft das Bezugssys-
tem, in das individuelle Testwerte eingeord-
net werden, also die Interpretation von Test- 3.6.3 Individuelle und ipsative
werten. Prinzipiell können Testwerte in bei- Vergleiche
den Bezugssystemen lokalisiert werden, d. h.
die gleiche Leistung kann sowohl normorien-
tiert als auch kriteriumsorientiert interpretiert Ein drittes Bezugssystem für die Interpretation
werden. Nach Durchführung eines Englisch- von Testwerten liefert das frühere Verhalten ei-
Vokabeltests können wir z. B. eine Person ei- ner Person. Der aktuelle Testwert einer Person
nerseits hinsichtlich ihrer Leistung relativ zu wird hier in Relation zu einem oder mehre-
den anderen getesteten Personen charakteri- ren in der Vergangenheit erhobenen Werten
sieren (und damit normorientiert vorgehen), gesetzt. Da hier Veränderungen im Erleben

83
3 Merkmale und Gütekriterien psychologischer Tests

und Verhalten einzelner Personen interessie- trum standen dabei die Begriffe Objektivität,
ren, spricht man von individuellen Bezugssys- Reliabilität und Validität, die als die Hauptgü-
temen. Individuelle Bezugssysteme spielen in tekriterien von Tests betrachtet werden. Auch
vielen Praxisfeldern der psychologischen Dia- die Verfügbarkeit von Normen ist für viele
gnostik eine zentrale Rolle. In pädagogischen Testanwendungen wichtig. Zentrale Gesichts-
Kontexten könnte etwa der Zuwachs an Wis- punkte für die Bewertung von Tests liefern
sen und Kompetenzen bei Schülern nach einer darüber hinaus Nutzenanalysen, auf die wir im
Unterrichtseinheit interessieren, in klinischen Rahmen der Darstellung entscheidungstheore-
Kontexten der Abbau von Angst bei einer pho- tischer Modelle in I Kap. 6 näher eingehen
bischen Person nach einer Verhaltenstherapie. werden.
Eine Variante individueller Maßstäbe sind sog. Für die Bewertung von Tests existieren noch
ipsative Vergleiche. Auch hier orientiert sich weitere Qualitätsmerkmale, die sich allerdings
das Bezugssystem zur Einordnung der Test- teilweise aus den Hauptgütekriterien ableiten
werte an der Person selbst (lateinisch ipse). oder doch mit ihnen überlappen. Sie werden
Von ipsativen Vergleichen spricht man dabei, häufig als Nebengütekriterien angesprochen,
wenn zwei oder mehr Testwerte miteinander womit angedeutet wird, dass sie einen eher
in Bezug gesetzt werden, die unterschiedli- ergänzenden Charakter besitzen und nicht für
che Merkmale reflektieren. Sie werden häu- alle Verfahren gleichermaßen bedeutsam sind.
fig bei der Bestimmung von Präferenzen ver- Hierher gehören die äußere Testgestaltung, die
wendet. In einem Berufsinteressentest könnten Zumutbarkeit des Verfahrens für die Proban-
z. B. Präferenzen für naturwissenschaftlich- den, die Störanfälligkeit und Verfälschbarkeit
technische, künstlerische und sprachliche The- des Tests, die Bandbreite erfasster Merkmale,
men geprüft werden. Diagnostisch relevant wä- die Testökonomie sowie die Akzeptanz des
ren hier weniger die absoluten Ausprägungen Verfahrens durch die Probanden. Für letztere
der Interessenstärken für diese oder weitere ist neben der Zumutbarkeit vor allem die sog.
Gebiete als vielmehr deren relatives Niveau Augenscheinvalidität – die Gültigkeit (und da-
(I Kap. 10.4). mit auch die Fairness) eines Verfahrens in den
Natürlich schließt die Einordnung von Test- Augen von Laien – verantwortlich (Testkura-
werten in ein individuelles Bezugssystem die torium der Föderation Deutscher Psychologen-
gleichzeitige Verwendung norm- oder kriteri- vereinigungen, 2009).
umsorientierter Bezugssysteme nicht aus. In
An Tests, die für praktisch folgenreiche Ent-
manchen Fällen ist es sinnvoll und wünschens-
scheidungen eingesetzt werden, müssen hohe
wert, Testwerte in allen drei Bezugssystemen
Qualitätsanforderungen gestellt werden. Zur
gleichzeitig zu lokalisieren. Wir erhalten dann
Sicherung und Unterstützung dieser Anfor-
Information über die Merkmalsausprägung (a)
derungen wurden in einigen Ländern stan-
relativ zu anderen Personen, (b) einem defi-
dardisierte Systeme zur Testinformation und
nierten Kriterium und (c) früheren Ausprägun-
-beurteilung eingerichtet. Auch im deutschen
gen des Merkmals bei der Person (Rheinberg
Sprachraum existieren Initiativen, ein einheit-
& Fries, 2010).
liches System zu etablieren. Kersting (2006)
diskutiert verschiedene existierende Systeme.
3.7 Testbewertung Wie wir sahen, lassen sich Gütemerkmale von
Items (z. B. deren Trennschärfe) und Tests
In diesem Kapitel wurden grundlegende Merk- (z. B. Reliabilität) teilweise numerisch be-
male psychologischer Tests behandelt. Im Zen- schreiben. An manchen Stellen hatten wir an-

84
3.7 Testbewertung

gegeben, ab welchem Wert solche Indices als Weiterführende Literatur


„ausreichend“ oder „gut“ angesehen werden.
Derartige Werte sind jedoch lediglich als Ori-
Weiterführende Darstellungen der Testheorie
entierungspunkte zu verstehen. Fixe, anwen-
und -konstruktion finden sich in den Büchern
dungsübergreifende Grenzen lassen sich sach-
von Bühner (2011), Eid und Schmidt (2014)
lich nicht begründen. Der Wert eines Tests
sowie Moosbrugger und Kelava (2008). Die
muss vielmehr im Kontext einer konkreten
mathematischen Grundlagen der Klassischen
Anwendung beurteilt werden. Interessieren im
Testtheorie werden ausführlich von McDonald
Rahmen einer Untersuchung z. B. nur Grup-
(1999) sowie Steyer und Eid (1993) dargelegt.
penmittelwerte, können Reliabilitätsanforde-
rungen niedriger angesetzt werden als bei indi-
vidualdiagnostischen Entscheidungen, die für
die betroffenen Personen gravierende Konse- Fragen zur Wissenskontrolle
quenzen besitzen.
Überdies muss bedacht werden, dass sich nicht 1. Welche Hauptgütekriterien werden an psy-
alle Idealforderungen an Tests gleichzeitig er- chologische Tests angelegt?
füllen lassen, da sie teilweise konfligieren. Ein 2. Was beinhaltet Cronbachs Unterscheidung
kurzer und für die Probanden wenig belasten- zwischen „tests of maximum performance“
der Test ist z. B. meist weniger zuverlässig und und „tests of typical response“?
valide als ein längeres Verfahren. Schließlich 3. Wie ist die Trennschärfe eines Items defi-
lassen sich essenzielle Gütemerkmale, insbe- niert?
sondere solche, welche die Inhalts- und Kon- 4. Welche grundlegenden Zugangsweisen zur
struktvalidität betreffen, nicht zu handlichen Schätzung der Reliabilität gibt es?
numerischen Kennwerten bündeln. Hier müs- 5. Was versteht man unter konvergenter und
sen die Angemessenheit der konzeptuellen diskriminanter Validität?
Grundlagen sowie Umfang, Qualität und Re- 6. Welche Bezugssysteme zur Einordnung von
sultate der empirischen Untersuchungen zum Testwerten lassen sich differenzieren?
Test berücksichtigt werden.

85
4 Modelle psychologischen Testens

4.1 Faktorenanalytische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 87


4.1.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.1.2 Ein-Faktor-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1.3 Mehr-Faktoren-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2 Item-Response-Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.1 Probleme linearer Modelle . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.2 Logistische Testmodelle . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.2.3 1PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.2.4 2PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.2.5 3PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.2.6 Lokale Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.2.7 Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.2.8 Informationsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

Die Klassische Testtheorie, deren Konzepte hungen zwischen dem Merkmal, den beob-
und analytisches Instrumentarium im letzten achteten Antworten und hieraus abgeleiteten
Kapitel dargestellt wurden, ist in erster Li- Größen werden dagegen nicht expliziert.
nie auf ganze Tests abgestimmt. Wie Fischer
(1974) bemerkt, geht die Klassische Testtheo- Während die Klassische Testtheorie an „gan-
rie von gegebenen Messungen aus – im Allge- zen“ Tests orientiert ist, setzen die im vorlie-
meinen Summenwerten – und fragt, wie relia- genden Kapitel behandelten Modelle eine Ebe-
bel und valide diese Messungen sind. Wie die ne tiefer an, nämlich an den Antworten auf
Messung selbst begründet werden kann, wird einzelne Items. Die Antworten werden hier
dagegen nicht thematisiert. So bleibt zum Bei- durch Einführung latenter Variablen, die sich
spiel unklar, inwiefern es eigentlich legitim ist, auf Persönlichkeitseigenschaften oder aktuelle
einen Testwert als Indikator der Ausprägung Zustände beziehen, mathematisch dargestellt
eines psychologischen Merkmals anzusehen. und damit – in einem später noch zu präzisie-
renden Sinn – erklärt.
Zur Rechtfertigung werden hier vor allem in-
haltliche Überlegungen und pragmatische Ar- Das Kapitel gliedert sich in zwei größere Ab-
gumente angeführt, die sich z. B. auf (nach- schnitte. Im ersten Abschnitt werden fakto-
trägliche) Untersuchungen der externen Kor- renanalytische Modelle behandelt. Solche Mo-
relate einer Testvariablen berufen. Die Bezie- delle sind für die Analyse der Struktur von

86
4.1 Faktorenanalytische Modelle

Tests, die quantitative Items beinhalten, ge- turen von Variablen untersucht werden kön-
eignet. Faktorenanalytische Modelle, deren nen. Das generelle Ziel der Faktorenanalyse
Grundlagen von Spearman (1927) und Thur- ist es, die Zusammenhänge einer Reihe ma-
stone (1947) ausgearbeitet wurden, haben sich nifester Variablen durch eine kleinere Zahl
für die Testkonstruktion und -evaluation als latenter Variablen zu beschreiben. Manifeste
außerordentlich fruchtbar erwiesen. Die Be- Variablen sind beobachtbare Größen, wie sie
gründer der Klassischen Testtheorie stützten z. B. mit Item- oder Testwerten vorliegen. La-
sich stark auf die Ergebnisse Spearmans, so tente Variablen beziehen sich auf Größen, die
dass es ganz natürlich erscheint, die Faktoren- nicht direkt beobachtbar oder mit einfachen,
theorie zur Optimierung der Item- und Test- etablierten Messoperationen zu erfassen sind
analyse zu nutzen. Im zweiten Abschnitt des (I Kap. 3). Die im Rahmen der Faktorenana-
Kapitels werden drei grundlegende logistische lyse betrachteten latenten Variablen werden
Testmodelle dargestellt, die für die Analyse Faktoren genannt. In unserem Kontext reprä-
binärer Items konzipiert wurden. Diese Mo- sentieren Faktoren die Ausprägung von Perso-
delle werden zur Item-Response-Theorie ge- nen auf bestimmten Merkmalen.
zählt, einem neueren Ansatz, der besonders
durch die Pionierarbeiten von Rasch (1960) Faktorenanalytische Techniken werden in vie-
und Birnbaum (in Lord & Novick, 1968) ge- len Bereichen der Psychologie eingesetzt, um
prägt wurde. Variablen statistisch zu klassifizieren. Dabei
sollen Gruppen von Variablen identifiziert wer-
Die Entwicklung der Faktorentheorie und den, innerhalb derer hohe und zwischen denen
der Item-Response-Theorie wurde lange Zeit niedrige Zusammenhänge bestehen. Durch ge-
mehr oder weniger isoliert voneinander vor- eignete Kombinationen der Variablen, die zur
angetrieben. Manchmal wurden sie als kon- selben Gruppe gehören, lässt sich dann der mit
kurrierende Modelle des Testverhaltens auf- den Variablen erfasste Merkmalsbereich ein-
gefasst. In neuerer Zeit setzt sich jedoch die facher darstellen. Anstatt ein Profil aus, sagen
Sichtweise durch, dass beide zusammengehö- wir, zwanzig korrelierten Variablen zu betrach-
ren. Faktoren-Modelle sind angemessen, so- ten, könnte es sich z. B. als hinreichend erwei-
lange eine im Wesentlichen lineare Beziehung sen, Personen durch drei oder vier kombinierte
zwischen dem zu messenden Merkmal und Variablen zu charakterisieren, welche die mit
den Itemantworten vorausgesetzt werden kann. den Ausgangsvariablen erfassten Unterschiede
Item-Response-Modelle sind dagegen ange- gut wiedergeben.
bracht, wenn diese vereinfachende Vorausset-
zung nicht gegeben ist, also nichtlineare Zu- Im Rahmen der Item- und Testanalyse ist Va-
sammenhänge zwischen Merkmal und Ant- riablenklassifikation nur ein Ziel, das mit Fak-
worten angenommen werden müssen.1 torenanalysen verfolgt wird. Tatsächlich steht
dieses Ziel nicht immer im Vordergrund. Ge-
nerell geht es darum, ein Modell des Zustande-
kommens von Antworten zu formulieren. Mit
4.1 Faktorenanalytische Modelle
Hilfe eines solchen Modells kann z. B. geklärt
werden, ob die Items eines Tests eine homo-
Faktorenanalysen sind multivariate statistische gene Gruppe bilden, wie gut einzelne Items
Verfahren, mit denen Zusammenhangsstruk- den Faktor reflektieren und wie genau der Test
1 Diese Grenzen zwischen beiden Modellfamilien ver- misst.

schwimmen. Inzwischen gibt es z. B. nichtlineare Va-


rianten der Faktorenanalyse, die mit bestimmten Item- In diesem Abschnitt des Kapitels stellen wir
Response-Modellen identisch sind. zunächst Begriffe dar, die für das Verständnis

87
4 Modelle psychologischen Testens

der Faktorenanalyse wichtig sind. Anschlie- Lambda) und λ j2 (Gewicht des zweiten Fak-
ßend beschreiben wir die Prüfung der Homo- tors). Der Einfachheit halber wählen wir für
genität und die Bestimmung der Reliabilität unser Beispiel die Gewichte so, dass die ma-
im Rahmen des Ein-Faktor-Modells. Im drit- nifesten Variablen X1 und X2 nur von Faktor 1
ten Unterabschnitt skizzieren wir basale An- abhängen – wir setzen also die Gewichte für
wendungen mehrfaktorieller Modelle bei der Faktor 2 hier auf Null –, die Variablen X3 und
Testkonstruktion und -analyse. X4 dagegen nur von Faktor 2 – hier werden die
beiden Gewichte für Faktor 1 auf Null gesetzt.
Für die beiden ersten Variablen wählen wir
4.1.1 Grundlegende Begriffe (willkürlich) Gewichte von 0.8 und 0.9, für
die dritte und vierte Variable 0.4 und 0.7. Für
Faktoren sind latente Variablen, die ein be- X5 und X6 produzieren wir dagegen Abhän-
stimmtes Zusammenhangsmuster unter mani- gigkeiten von beiden Faktoren: Wir wählen
festen Variablen stiften. Aus dem Zusammen- Gewichte von λ51 = 0.6 und λ52 = 0.2 sowie
hangsmuster, den Korrelationen oder Kovari- λ61 = 0.3 und λ62 = 0.7. Die Variable X5 wird
anzen der manifesten Variablen, sollen (a) die also primär, aber nicht ausschließlich, durch
Zahl der Faktoren und (b) deren Bedeutung für den ersten Faktor, X6 dagegen primär durch
die einzelnen Variablen rekonstruiert werden. den zweiten Faktor bestimmt. Die Gewichte
spielen in Faktorenmodellen eine zentrale Rol-
Für das Verständnis der Faktorenanalyse ist
le und werden daher mit einem eigenen Na-
hilfreich, zunächst ein Szenario zu betrach-
men belegt: Sie heißen Faktorladungen oder
ten, in dem wir Faktoren und manifeste Varia-
einfach Ladungen. Auf deren Bedeutung ge-
blen selbst konstruieren. Wir bilden als erstes
hen wir gleich noch genauer ein.
zwei Faktoren F1 und F2 , indem wir mit einem
Zufallsgenerator zwei große Zahlenreihen er- Bislang sind die sechs manifesten Variablen
zeugen, sagen wir jeweils 500 für jeden Fak- durch die beiden Faktoren genau festgelegt. Im
tor. Die Ziehung von Zufallszahlen repräsen- dritten Schritt heben wir dies auf, indem wir
tiert hier die Erhebung einer Personenstichpro- auf jeden der Werte eine Zufallszahl addieren.
be. Die Zahlenpaare stellen die Ausprägungen Die jeweils 500 Zufallszahlen pro Variable
zweier latenter Merkmale bei den Personen notieren wir mit E j . Um die Zufallseinflüsse
dar, deren Faktorwerte. Aufgrund ihrer Kon- nicht allzu groß werden zu lassen, standardisie-
struktion durch Zufallsprozesse sind F1 und ren wir diese Variablen und multiplizieren sie
F2 in der Population unkorreliert. Wenn wir mit kleinen Werten. Für unser Beispiel wählen
viele Zahlen generieren, gilt dies mit guter Nä-wir Multiplikatoren von 0.4 für die Variablen
herung auch für die Stichprobe. Die beiden X1 bis X3 und 0.5 für die Variablen X4 bis X6 .
Faktoren werden standardisiert, so dass sich Die Multiplikatoren legen die Standardabwei-
jeweils Mittelwerte von Null und Streuungen chungen der E-Variablen fest, ihre Varianzen
von Eins ergeben. betragen entsprechend 0.16 bzw. 0.25. Kon-
struktionsbedingt sind die E-Variablen weder
Im zweiten Schritt simulieren wir sechs ma-
untereinander noch mit den Faktoren korre-
nifeste Variablen X1 bis X6 . Diese Variablen
liert. Die manifesten Variablen setzen sich nun
bilden wir so, dass sich unterschiedlich starke
wie in I Abb. 4.1 gezeigt zusammen.
Zusammenhänge mit den Faktoren ergeben.
Hierfür multiplizieren wir die Faktorwerte je- Die sechs Variablen haben Anteile, die sie
weils mit variablenspezifischen Gewichten λ j1 mit mindestens einer anderen Variable teilen
(Gewicht des ersten Faktors für die manifes- – also gemeinsame Anteile, die hier durch die
te Variable j; λ ist der griechische Buchstabe Teilausdrücke λ F repräsentiert werden – und

88
4.1 Faktorenanalytische Modelle

X1 = 0.8 · F1 + 0 · F2 + E1 mit Var(E1 ) = 0.16


X2 = 0.9 · F1 + 0 · F2 + E2 mit Var(E2 ) = 0.16
X3 = 0 · F1 + 0.4 · F2 + E3 mit Var(E3 ) = 0.16
Abb. 4.1 X4 = 0 · F1 + 0.7 · F2 + E4 mit Var(E4 ) = 0.25
Beispiel für ein X5 = 0.6 · F1 + 0.2 · F2 + E5 mit Var(E5 ) = 0.25
Faktorenmodell. X6 = 0.3 · F1 + 0.7 · F2 + E6 mit Var(E6 ) = 0.25

spezifische Anteile, die durch die aufaddier- Faktoren, wie in unserem Beispiel, gilt also
ten Zufallszahlen E dargestellt werden. Die
Teilausdrücke 0 · F könnte man natürlich her- Cov(X j , Xk ) = λ j1 λk1 + λ j2 λk2 , (4.1)
auslassen, sie illustrieren jedoch die Struktur so dass wir für die Kovarianz von X5 und X6
unserer Konstruktion. Da die spezifischen An- z. B. 0.6 · 0.3 + 0.2 · 0.7 = 0.32 erhalten.
teile weder untereinander noch mit den Fakto-
ren korreliert sind, können die Zusammenhän- Die Varianz einer Variablen wird bestimmt, in-
ge unter den manifesten Variablen nur auf die dem man die Quadrate ihrer Ladungen auf al-
gemeinsamen Anteile zurückgehen. Ihre Vari- len Faktoren summiert und hierauf die Varianz
anzen hängen dagegen von gemeinsamen und ihrer spezifischen Anteile addiert. In unserem
spezifischen Anteilen ab. Dies sind die bei- Fall berechnet man also:
den essenziellen Punkte der Faktorenanalyse. 2 2
Var(X j ) = λ j1 + λ j2 + Var(E j ). (4.2)
Tatsächlich definieren die sechs Gleichungen
zusammen ein Zwei-Faktoren-Modell der ma- Für die Variable X5 ergibt sich z. B. eine Va-
nifesten Variablen. rianz von 0.62 + 0.22 + 0.25
√ = 0.65 und eine
Standardabweichung von 0.65 = 0.806, für
Unter den genannten Bedingungen (Standar- X ergibt sich eine Varianz von 0.32 + 0.72 +
6
disierung der Faktoren, Unkorreliertheit der 0.25 = 0.83 und eine Standardabweichung
Faktoren, Unkorreliertheit der Zufallseinflüs- von √0.83 = 0.911.
se, Unkorreliertheit der Zufallseinflüsse mit
den gemeinsamen Faktoren) lassen sich Ko- Aus den Kovarianzen und Standardabweichun-
varianzen, Varianzen und damit auch die Kor- gen lassen sich nun auch die Korrelationen
relationen unter den X-Variablen in der Po- berechnen, in dem man die Kovarianz durch
pulation in recht einfacher Weise bestimmen, das Produkt der Standardabweichungen teilt.
wie sich algebraisch zeigen lässt (siehe z. B. Für die Korrelationen zwischen X5 und X6 er-
McDonald, 1999). halten wir z. B.
Cov(X5 , X6 )
Die Kovarianz zwischen zwei Variablen X j Kor(X5 , X6 ) =
Std(X5 ) · Std(X6 )
und Xk kann bestimmt werden, indem man die
Ladungen der diesen Variablen gemeinsamen 0.32
=
Faktoren multipliziert. Für die Kovarianz von 0.806 · 0.911
X1 und X2 ergibt sich z. B. 0.8 · 0.9 = 0.72, da = 0.44.
diese Variablen nur vom ersten Faktor abhän-
gen, für die Kovarianz zwischen X1 und X3 Wir können nun alle Kovarianzen bzw. Kor-
ergibt sich 0, da keine gemeinsame Einfluss- relationen zwischen den Variablen berech-
größe vorliegt. Generell berechnet man die nen und in einer Tabelle zusammenfassen. In
Ladungsprodukte für jeden Faktor und sum- I Tab. 4.1 haben wir dies für die Korrelatio-
miert die Produkte auf. Für zwei unabhängige nen getan. Diese Korrelationen repräsentieren

89
4 Modelle psychologischen Testens

Tab. 4.1
X1 X2 X3 X4 X5 aj1 aj2
Korrelationen und korrelative
X1 1 .89 0
Ladungen in der Population
X2 .82 1 .91 0
X3 0 0 1 0 .70
X4 0 0 .58 1 0 .81
X5 .67 .68 .18 .20 1 .74 .25
X6 .29 .30 .54 .63 .44 .33 .77

die Zusammenhänge in der Population, wie X-Variablen an. Eine standardisierte Ladung
sie sich durch unsere Konstruktion ergeben. von 0.5 besagt also, dass ein um eine Einheit
erhöhter Faktorwert sich in der betreffenden
Wie gerade erwähnt, heißen die Gewichte (λ ),
manifesten Variablen in einer Erhöhung um
mit deren Hilfe wir die Kovarianzen und Kor-
0.5 Standardabweichungen bemerkbar macht.
relationen berechnet haben, Faktorladungen.
Standardisierte Ladungen notieren wir im Fol-
Ladungen geben an, wie bedeutsam der ent-
genden mit a. I Tab. 4.1 enthält die standar-
sprechende Faktor für das Zustandekommen
disierten Ladungen für unser Beispiel in den
der jeweiligen Variable ist. Technisch handelt
beiden letzten Spalten.
es sich um ein Regressionsgewicht: Eine um
eine Einheit (Standardabweichung) erhöhter Korrelationen sind spezielle Kovarianzen,
Faktorwert schlägt sich in der Variablen X j nämlich Kovarianzen standardisierter Varia-
durchschnittlich in einer Erhöhung von λ j Ein- blen. Betrachtet man standardisierte manifeste
heiten (in deren Skala) nieder. Neben diesen Variablen Z j und Zk , kann man die Gleichung
sog. unstandardisierten Ladungen werden bei 4.1 so schreiben:
einer Faktorenanalyse auch standardisierte La- Cov(Z j , Zk ) = Kor(X j , Xk )
dungen betrachtet. (4.3)
= a j1 ak1 + a j2 ak2 .
Standardisierte Ladungen erhält man, indem
Aus den korrelativen Ladungen lassen sich
man die unstandardisierten Ladungen durch
die Interkorrelationen der X-Variablen also di-
die Standardabweichung der jeweiligen Varia-
rekt berechnen. Für den spezifischen Anteil
ble teilt. (Die Faktoren hatten wir bereits stan-
bei standardisierten Variablen ergibt sich dann
dardisiert, so dass deren Streuung hier nicht
nach 4.2:
berücksichtigt werden muss.) Wir erhalten als
standardisierte Ladung der Variable X5 auf 1 = a2j1 + a2j2 + Var(EZ j ),
dem ersten Faktor z. B. Var(E ) = 1 − (a2 + a2 ). (4.4)
Zj j1 j2
0.6/0.806 = .74. Wir haben die spezifischen Anteile hier mit
Z indiziert, um deutlich zu machen, dass sie
Standardisierte Ladungen sind für die Bewer-
sich auf standardisierte X-Variablen beziehen
tung der Bedeutung eines Faktors für eine
und daher nicht mit den spezifischen Antei-
Variable sehr nützlich, da sie (bei Modellen
len der unstandardisierten Variablen identisch
mit unabhängigen Faktoren wie in unserem
sind. Die spezifischen Anteile standardisierter
Beispiel) Korrelationen zwischen dem Faktor
Variablen lassen sich aus denen für unstandar-
und der Variablen darstellen. Standardisierte
disierte durch Division mit der Varianz der
Ladungen werden daher auch als korrelati-
Variablen gewinnen,
ve Ladungen bezeichnet. Sie geben den Ef-
fekt des Faktors in Standardabweichungen der Var(EZ j ) = Var(E j )/Var(X j ).

90
4.1 Faktorenanalytische Modelle

Tab. 4.2 Empirische Korrelationen sowie modellimplizierte Korrelationen (in Klammern) und
korrelative Ladungen für ein Ein-Faktor-Modell

X1 X2 X3 X4 X5 aj1
X1 0.89
X2 .81 (.80) 0.91
X3 .03 (.09) .05 (.09) 0.10
X4 −.04 (.03) −.03 (.03) .56 (.00) 0.04
X5 .66 (.67) .68 (.69) .21 (.08) .19 (.03) 0.76
X6 .32 (.36) .34 (.37) .55 (.04) .60 (.02) .47 (.31) 0.41

Sie geben den Anteil der Varianz einer Varia- gekehrt formuliert – wie gut das Modell auf
blen an, die nicht durch Faktoren aufgeklärt die Daten passt. Bei einem perfekt passenden
wird. Modell wären modellimplizierte und empiri-
sche Kovarianzen identisch, alle Diskrepanzen
In unserem Beispiel hatten wir die Ladungen
also Null.
mehr oder weniger willkürlich gewählt und
daraus (unter Zugrundelegung unseres Wis-
Praktisch beginnt man mit einem Ein-Faktor-
sens über das Zustandekommen der Variablen)
Modell: Man extrahiert, wie man auch sagt,
die Korrelationsmatrix berechnet. Die Fakto-
einen Faktor aus den Zusammenhängen der
renanalyse ist die umgekehrte Prozedur: Hier
Variablen. Ist die Passung dieses Modells nicht
ist eine Kovarianzmatrix oder eine Korrelati-
zufriedenstellend, extrahiert man einen zwei-
onsmatrix gegeben, aus der – wiederum un-
ten Faktor, dann einen dritten usw., bis die
ter Zugrundelegung bestimmter Annahmen –
Passung gut ausfällt. Die Festlegung der Zahl
Faktorladungen, spezifische Anteile und eini-
zu bildender Faktoren ist – neben der Angabe
ge weitere Kennwerte rekonstruiert werden
der zu verwendenden Daten- oder Kovarianz-
sollen. Die zentralen Größen, die rekonstru-
matrix – die wesentliche Spezifikation bei der
iert werden sollen, sind dabei die Ladungen.
Durchführung einer Faktorenanalyse. Je mehr
Mit ihrer Hilfe können weitere interessierende
Faktoren ein Modell enthält, desto geringer
Kennwerte berechnet werden.
wird die Diskrepanz zwischen Modell und Em-
Faktorenanalysen sind Suchprozeduren: Ge- pirie. Die Kehrseite der Diskrepanzreduktion
sucht wird nach Ladungen, aus denen sich vor- ist eine höhere Komplexität des Modells.
gegebene (im Allgemeinen: empirisch ermit-
telte) Kovarianzen (bzw. Korrelationen) gut Zu Demonstrationszwecken bilden wir nun
reproduzieren lassen. Gut reproduzieren heißt zunächst unsere „empirischen“ Daten, indem
dabei, dass die Diskrepanzen zwischen den wir, wie oben besprochen, für jede X-Variable
aus den Ladungen berechneten Kovarianzen – 500 Werte konstruieren. In einer realen An-
den modellimplizierten Kovarianzen – und den wendung könnten die Variablen X1 bis X6 Ant-
empirisch ermittelten Kovarianzen minimal worten von 500 Personen auf die sechs Items
werden. Den Ladungssatz, der diesem Kriteri- eines kleinen Tests darstellen. Wir berechnen
um genügt – minimale Diskrepanz zwischen nun die Korrelationen zwischen den Variablen.
Modell und Empirie – präsentiert die Fakto- (Wir verwenden hier Korrelationen, weil sie
renanalyse uns als wesentliches Ergebnis. Dar- für eine Betrachtung von Diskrepanzen an-
über hinaus erhalten wir auch Information dar- schaulicher sind als Kovarianzen.) Diese Kor-
über, wie hoch die Diskrepanz ist oder – um- relationen sind in I Tab. 4.2 aufgeführt. Sie

91
4 Modelle psychologischen Testens

entsprechen den berechneten Populationsver- Tab. 4.3 Resultate für das


hältnissen, die wir bereits kennen, recht gut, Zwei-Faktoren-Modell
aber nicht genau (I Tab. 4.1). Die Abwei-
Variable aj1 aj2 Var(EZj )
chungen gehen darauf zurück, dass wir nur
eine Stichprobe aus der Population ziehen kön- X1 0.893 −0.002 0.202
nen (sog. Stichprobenfehler). X2 0.910 0.016 0.172
X3 0.035 0.700 0.509
Wir extrahieren aus der empirischen Matrix zu- X4 −0.046 0.809 0.343
nächst einmal nur einen Faktor – gewisserma- X5 0.742 0.274 0.374
ßen wider besseres Wissen – und erhalten als
X6 0.357 0.763 0.290
Resultat der Analyse einen Ladungssatz. Der
Ladungssatz (korrelative Ladungen) ist eben- Eigenwert 2.308 1.802
falls in I Tab. 4.2 aufgeführt. Aus den korre- Varianz 0.385 0.300
lativen Ladungen berechnen wir die modellim-
plizierten Korrelationen nach Gleichung (4.3).
noch Werte nahe Null auf. Das Zwei-Faktoren-
Da nur ein Faktor vorhanden ist, genügt es
Modell passt also nahezu perfekt auf die Da-
hier, die korrelativen Ladungen jeweils zweier
ten, so dass wir keinen weiteren Faktor mehr
Variablen zu multiplizieren. Für einen Faktor
extrahieren müssen.
und korrelative Ladungen gilt also
Die Ergebnisse einer Faktorenanalyse werden
in der Ladungsmatrix festgehalten, welche die
Kor(X j , Xk ) = a j · ak .
Faktorladungen der manifesten Variablen auf
den extrahierten Faktoren wiedergibt. Mit Hil-
Die modellimplizierten Korrelationen sind in fe der Ladungsmatrix lassen sich weitere sum-
I Tab. 4.2 in Klammern neben den empiri- marische Kennwerte berechnen, die bei der
schen aufgeführt. Wie ersichtlich, lassen sich Interpretation der Ergebnisse einer Faktoren-
in unserem Beispiel mit einem Faktor nur die analyse hilfreich sind und deshalb häufig mit-
Korrelationen, in die die Variablen X1 und X2 angegeben werden.
eingehen, gut reproduzieren, die anderen Kor- 2
relationen dagegen nicht. Für eine gute Repro- Die Kommunalität (abgekürzt h ) ist der An-
duktion gilt als Faustregel, dass alle korrelati- teil der Varianz einer Variablen, die durch alle
ven Diskrepanzen kleiner als 0.1 sein sollten. extrahierten Faktoren erklärt wird. Sie wird be-
Dies ist für die Korrelationen zwischen den rechnet, indem man die korrelativen Ladungen
Variablen X3 bis X6 bei uns nicht der Fall. Ins- der jeweiligen Variable quadriert und aufsum-
gesamt zeigt das Ein-Faktor-Modell also keine miert. Für X6 ergibt sich z. B. eine Kommuna-
2 + 0.7632 = 0.71. Es werden
gute Passung. lität von 0.357
also 71 % der Varianz von X6 durch die bei-
den Faktoren aufgeklärt. (Die einfache Sum-
Das ändert sich, wenn wir einen zweiten Fak-
mierung ist möglich, wenn die Faktoren unab-
tor bilden. Die korrelativen Ladungen für das
hängig sind.) Zwischen Kommunalitäten und
Zwei-Faktoren-Modell sind in I Tab. 4.3 zu-
spezifischen Anteilen besteht die Beziehung
sammengestellt. Wie man durch Vergleich mit 2
h = 1 − Var(EZ j ).
I Tab. 4.1 feststellen kann, entsprechen diese
Ladungen sehr gut den korrelativen Ladun- Summiert man die Quadrate aller korrelati-
gen in der Population. Die reproduzierten Kor- ven Ladungen, die zu einem Faktor gehören,
relationen sind daher praktisch identisch mit erhält man den Eigenwert des Faktors. Der
den empirischen, die Diskrepanzen weisen nur Eigenwert beschreibt die durch einen Faktor

92
4.1 Faktorenanalytische Modelle

aufgeklärte Varianz der manifesten Variablen. Faktorenanalysen können weitgehend datenge-


Den Anteil der aufgeklärten Varianz erhält leitet oder hypothesentestend eingesetzt wer-
man, indem man den Eigenwert durch die den. Im ersten Fall spricht man von einem
Zahl der manifesten Variablen teilt. Für den explorativen, im zweiten von einem konfirma-
ersten Faktor ergibt sich in unserem Beispiel torischen Vorgehen. In explorativen Faktoren-
2.308/6 = 0.385. Der Faktor klärt also ca. analysen überlässt man die Bestimmung der
39 % der Varianz aller Variablen auf. Der zwei- Anzahl von Faktoren sowie die ihrer Zusam-
te Faktor erklärt bei uns weitere 30 % der Va- menhänge allein statistischen Techniken und
rianz, so dass durch beide Faktoren insgesamt Kriterien. Abgesehen von einigen technischen
ca. 69 % der Varianz erklärt werden. Eigenwer- Annahmen (siehe S. 107), welche die Faktor-
te zeigen mithin die Bedeutung der Faktoren lösung und deren Interpretierbarkeit sichern
für die Zusammenhänge unter den Variablen sollen, wird bei diesem Vorgehen gewisser-
an. maßen nur die Minimalhypothese investiert,
dass sich die Variablen überhaupt statistisch
Die Ladungen und die aus ihnen abgeleiteten
gruppieren lassen. In der gerade durchgeführ-
Kennwerte bilden die Grundlage für die inhalt-
ten Beispielanalyse sind wir explorativ vorge-
liche Interpretation der Faktoren. Dabei zieht
gangen. Dies ist daran erkennbar, dass wir (a)
man Variablen heran, die nur auf einem Fak-
Faktoren sukzessive extrahiert haben, bis sich
tor betragsmäßig hohe Ladungen aufweisen,
eine gute Passung des Modells ergab und (b)
auf den anderen Faktoren dagegen betragsmä-
alle Faktorladungen schätzen ließen.
ßig niedrige. Variablen, die diesen Bedingun-
gen genügen, werden als Markiervariablen In konfirmatorischen Analysen werden dage-
des Faktors bezeichnet. Für die Beurteilung gen Modellannahmen in einem strikteren Sin-
der Ladungen kann man die gleichen Orien- ne geprüft. Diese Annahmen können die Zahl
tierungswerte heranziehen wie für die Trenn- der Faktoren, deren Zusammenhänge oder die
schärfen (vgl. S. 52): Ladungen, deren Betrag Faktorladungen betreffen. In der Praxis wer-
kleiner als .30 ist, werden als niedrig bzw. ver- den mit konfirmatorischen Faktorenanalysen
nachlässigbar angesehen, ab .40 kann man von meist drei Arten von Hypothesen geprüft, näm-
einer moderaten, ab .60 von einer hohen La- lich erstens Hypothesen über die Anzahl von
dung sprechen. In unserem Beispiel wird der Faktoren, die für die Erklärung der Zusam-
erste Faktor durch die Variablen X1 , X2 und menhänge unter den Variablen notwendig sind,
X5 markiert, der zweite durch die Variablen zweitens Hypothesen über Zusammenhänge
X3 und X4 . Die Variable X6 ist – diesen Krite- unter Faktoren und drittens Hypothesen über
rien zufolge – keine Markiervariable, da sie Zusammenhänge zwischen Faktoren und ma-
auf beiden Faktoren Ladungen größer als .30 nifesten Variablen. Beispiele für solche Hypo-
zeigt. thesen sind: Die Zusammenhänge unter den
Variablen lassen sich durch zwei Faktoren dar-
Um die Faktoren zu interpretieren und ggf.
stellen; die beiden Faktoren sind nicht korre-
mit einer griffigen Bezeichnung zu belegen,
liert; die manifeste Variable X1 korreliert nur
überlegt man nun, was Variablen, die zu ei-
mit dem ersten Faktor, aber nicht mit dem
nem Faktor gehören, gemeinsam haben und
zweiten; X1 korreliert mit dem ersten Faktor
was Variablen, die zu verschiedenen Fakto-
genauso hoch wie die Variable X2 .
ren gehören, voneinander absetzt. Im Rahmen
der Testanalyse stützt man sich dabei auf die Die Unterscheidung explorativ vs. konfirma-
Iteminhalte. Gesucht wird also nach der inhalt- torisch betrifft nicht die hinter dem Verfahren
lichen Gemeinsamkeit der Markiervariablen stehende Mathematik – die ist in beiden Fäl-
(hier: Markieritems) eines Faktors. len die gleiche –, sondern vielmehr die Ver-

93
4 Modelle psychologischen Testens

wendung des Verfahrens. In einigen Schritten auch statistisch bewähren. Die Bewährungs-
der Testkonstruktion wird man eher explorativ, probe besteht in der Passung des Ein-Faktor-
in anderen konfirmatorisch vorgehen. Explo- Modells. Tests, die diese Bewährungsprobe
rativ werden Faktorenanalysen zum Beispiel bestehen, werden als faktoriell homogen oder
eingesetzt, um aus einer anfänglichen Item- faktoriell einfach bezeichnet: Die Zusammen-
menge diejenigen auszuwählen, die das zu hänge unter den Items des Tests lassen sich
messende Merkmal am besten repräsentieren. dann auf einen Faktor zurückführen. (Andern-
Mittels konfirmatorischer Analysen kann an- falls spricht man von einem faktoriell kom-
schließend an einem neuen Datensatz geprüft plexen Test.) Wurde faktorielle Homogenität
werden, inwieweit sich die Zusammenstellung nachgewiesen, kann man auf der Basis des
bewährt. Die Überprüfung eines zunächst ex- Modells die Güte einzelner Items und die Re-
plorativ erstellten Modells anhand einer un- liabilität des Tests bestimmen.
abhängigen Stichprobe wird als Kreuzvalidie-
rung bezeichnet.
Annahmen

4.1.2 Ein-Faktor-Modell Bezeichnen wir die Itemvariablen mit


X1 , X2 , . . . Xm und den ihnen zugrunde liegen-
Nachdem wir zentrale Begriffe der Fakto- den gemeinsamen Faktor mit F, so können
renanalyse dargestellt haben, diskutieren wir wir das Modell folgendermaßen notieren:
nun die Anwendung der Faktorenanalyse zur
Xj = µ j + λ jF + E j. (4.5)
Untersuchung von Test- und Itemeigenschaf-
ten. Wir beschäftigen uns dabei zunächst mit Hierbei handelt es sich um eine abgekürzte
dem einfachsten Modell der Familie, dem Schreibweise für ein Gleichungssystem, dass
Ein-Faktor-Modell. Als Ausgangsvariablen be- m (Anzahl der Items) Gleichungen umfasst
trachten wir hier quantitative Items. (für jedes Item eine Gleichung). Ausgeschrie-
Mit Hilfe des Ein-Faktor-Modells lassen sich ben würden wir für einen Test mit vier Items
die folgenden, für Test- und Itemanalysen zen- vier Gleichungen erhalten, nämlich
tralen, Fragen beantworten:
X1 = µ1 + λ1 F + E1 ,
1. Reflektieren die Items (oder Testteile) das X2 = µ2 + λ2 F + E2 ,
gleiche Merkmal, bilden sie eine (statis-
X3 = µ3 + λ3 F + E3 ,
tisch) homogene Gruppe?
2. Welche Items repräsentieren die mit dem X4 = µ4 + λ4 F + E4 .
Test gemessene Eigenschaft gut, welche we-
Die interessierende Personeigenschaft wird in
niger gut?
den Gleichungen durch F vertreten. Es handelt
3. Wie reliabel ist der Test?
sich um die Ausprägung der Person auf dem
Wie in Kapitel 3 dargestellt wurde, hat Ho- in Frage stehenden (durch die Items indizier-
mogenität sowohl inhaltliche als auch statis- ten) Merkmal, den gemeinsamen Faktor (engl.
tische Aspekte. In konkreten Anwendungen common factor). Der Ausdruck „gemeinsam“
stellt man die Items eines Tests zunächst nach besagt dabei, dass der Einfluss des Faktors von
theoretischen und inhaltlichen Gesichtspunk- mehreren Variablen (Items) geteilt wird. Im
ten zusammen. Faktorenanalysen werden an- Ein-Faktor-Modell ist es ein Faktor, der allen
schließend zur Prüfung der Frage eingesetzt, Items gemeinsam ist und die Korrelationen un-
inwieweit sich die inhaltlichen Überlegungen ter den Items stiftet. Bei der Wahl der Skala für

94
4.1 Faktorenanalytische Modelle

F ist man frei, so dass der Einfachheit halber voneinander unabhängig, d. h.


eine Standardskala (Mittelwert 0, Standardab-
weichung 1) verwendet wird. Da sich in den Cov(E j , Ek ) = 0 für j 6= k,
Itemantworten nur ein Merkmal niederschla-
gen soll, muss der Faktor hier nicht indiziert und nicht mit dem gemeinsamen Faktor korre-
werden. liert,
Cov(F, E j ) = 0.
µ j und λ j stehen für Eigenschaften der Items.
Die µ-Werte repräsentieren dabei die Itemmit- Die Modellgleichung zusammen mit beiden
telwerte bzw. -schwierigkeiten. (Die konnten Bedingungen definiert mathematisch, was un-
wir oben auslassen, weil sie konstruktionsbe- ter einem Faktor verstanden wird.
dingt Null waren.) Die λ -Werte stellen die Es ist an dieser Stelle sinnvoll, die Gemein-
bereits vorgestellten Faktorladungen dar. In samkeiten und Unterschiede zwischen dem in
unserem Kontext liefern die Faktorladungen Kapitel 3 behandelten klassischen Modell und
ein Maß dafür, wie gut einzelne Items zwi- dem Faktorenmodell hervorzuheben. Wenden
schen Personen mit hohen und niedrigen Aus- wir das klassische Modell paralleler Tests auf
prägungen auf dem Faktor trennen oder dis- die einzelnen Items eines Tests an, erhalten
kriminieren, also Kennwerte der Trennschärfe wir als Modellgleichung
der Items (I Kap. 3.3.3).
Für die Interpretation der Ladungshöhe ist es Xj = T + E j, (4.6)
hilfreich, neben den (unstandardisierten) La-
wobei als Zusatzbedingungen Unkorreliertheit
dungen auch standardisierte oder korrelative
der wahren Werte (T ) und Fehler sowie Un-
Ladungen zu betrachten. Diese würde man di-
korreliertheit der Fehler untereinander ange-
rekt erhalten, wenn man anstelle der Itemroh-
nommen wird – wie im Faktorenmodell. Ge-
werte die Faktorenanalyse mit standardisierten
genüber dem Modell paralleler Items muss
Items durchführen würde. In Modellen mit ei-
man im Faktorenmodell weniger restriktive
nem Faktor sowie in Modellen mit mehreren
weitere Annahmen machen. In den in Kapitel
unabhängigen Faktoren sind standardisierte
3 dargestellten Ableitungen wurden Gleich-
Ladungen identisch mit der Korrelation zwi-
heit der wahren Werte und der Fehlervarianzen
schen Item und Faktor, wie wir bereits gesehen
der Messungen vorausgesetzt. Dies impliziert,
hatten.
dass die Messungen gleiche Mittelwerte und
Bei E j handelt es sich um Restwerte (Residu- Streuungen aufweisen und die wahren Wer-
en), die Einflüsse auf die Itemantworten re- te gleich gut reflektieren. Diese sehr strengen
präsentieren, die nicht auf den gemeinsamen Voraussetzungen werden im Faktorenmodell
Faktor zurückgehen und daher jeweils nurein nicht gemacht. Das Modell lässt es zu, dass
Item betreffen. Im Kontext der Testanalyse Items unterschiedliche Mittelwerte und Streu-
stellen diese Einflüsse Fehler dar, im gleichen ungen aufweisen. Darüber hinaus wird auch
Sinne wie in der Klassischen Testtheorie. Hier- zugelassen, dass Items unterschiedlich gute In-
her rührt die Abkürzung E (für error). dikatoren des Faktors sind. Die Flexibilität des
Faktorenmodells rührt daher, dass hier Mittel-
Die Gleichungen spezifizieren Regressionen
werte (Schwierigkeiten) und Ladungen (Trenn-
der Items auf den Faktor, wobei µ das Inter-
schärfen) als zusätzliche Parameter vertreten
zept, λ das Regressionsgewicht und E das Re-
sind, die von Item zu Item variieren können.
siduum ist. Wie in der im vorhergehenden Ka-
pitel dargestellten Fehlertheorie sind im Fak- Wie wir bereits besprochen hatten, ist es bei
torenmodell diese spezifischen Komponenten der Testkonstruktion meist zweckmäßig, Items

95
4 Modelle psychologischen Testens

unterschiedlicher Schwierigkeit aufzunehmen, den Modellbedingungen ableiten, dass zwei


um eine breite Differenzierung der Proban- beliebige Kovarianzen zwischen Items iden-
den durch die Testvariable sicherzustellen tisch mit dem Produkt der zugehörigen Faktor-
(I Kap. 3.3.1). Aufgrund der bei Items ge- ladungen sein müssen,
gebenen Abhängigkeit zwischen Schwierig-
Cov(X j , Xk ) = λ j λk , (4.7)
keit und Streuung werden damit aber auch
die Streuungen zwischen den Items differie- und dass sich die Varianz der Items aus der
ren. Darüber hinaus stellen in praktischen An- Summe der quadrierten Faktorladung eines
wendungen nicht alle Items gleich gute In- Items sowie seiner spezifischen Varianz ergibt,
dikatoren des zu erfassenden Merkmals dar.
Einige Items werden etwas besser sein, ande- Var(X j ) = λ j2 + Var(E j ). (4.8)
re schlechter. Während das Modell paralleler Dies sind spezielle Versionen der Formeln
Messungen für ganze Tests zutreffen kann, ist (4.1) und (4.2), die für das Ein-Faktor-Modell
es für Items eines Tests häufig zu restriktiv. gelten. Wie bereits beschrieben wurde, impli-
Ein Faktorenmodell ist hier besser geeignet. zieren diese Gleichungen ein bestimmtes Mus-
Die Anwendung der Faktorenanalyse im Rah- ter aus Varianzen und Kovarianzen der Items,
men der Testkonstruktion involviert zwei das genutzt werden kann, um die Passung des
Schritte. Im ersten Schritt wird geprüft, ob Modells zu bewerten.
die Kovarianzen der Items im Wesentlichen Für die Durchführung einer Faktorenanalyse
ein Merkmal reflektieren. Dies geschieht, in- werden mindestens drei Items (bzw. Variablen)
dem die Passungsgüte des Ein-Faktor-Modells benötigt. Dieser „minimale Fall“ ist insofern
getestet wird. Sofern die Passung akzeptabel speziell, als sich hier die Faktorladungen und
ist, kann man in einem zweiten Schritt die Re- damit auch die Fehlervarianzen direkt berech-
liabilität des Tests aus den Modellparametern nen lassen, also nicht gesucht bzw. geschätzt
– Ladungen und Fehlervarianzen – berechnen. werden müssen: Hier liegen drei (bekannte)
Wir betrachten im Folgenden zunächst die bei- Kovarianzen zwischen den Items vor, aus de-
den Schritte in allgemeiner Form. Anschlie- nen sich nach Gleichung (4.7) die drei (un-
ßend illustrieren wir das Vorgehen an einem bekannten) Faktorladungen direkt berechnen
konkreten Beispiel. lassen. Sobald die Ladungen bekannt sind, las-
sen sich nach Gleichung (4.8) auch die Feh-
lervarianzen bestimmen. Die Passung eines
Modelltest
Ein-Faktor-Modells, das nur drei manifeste
Variablen beinhaltet, ist damit immer perfekt.
Wir wollen prüfen, ob die Items eines Tests
Umgekehrt bedeutet dies allerdings auch, dass
faktoriell homogen sind. Für die Prüfung die-
sich hier keine empirisch prüfbaren Folgerun-
ser Hypothese sind deren Implikationen für
gen ergeben. Die Passung des Modells ist trivi-
die Kovarianzen und Varianzen der Items ent-
al. Erst ab mindestens vier Items können sich
scheidend, wie wir bereits sahen. Unter den
Diskrepanzen zwischen Modell und Empirie
Modellbedingungen können die Kovarianzen
einstellen, so dass es Sinn macht, von einem
zwischen den Items allein von den Faktorla-
Test des Modells zu sprechen.
dungen abhängen: Außer dem Faktor F trägt
im Modell ja nichts zur gemeinsamen Vari- Nachdem wir die Faktorenanalyse durchge-
anz der Items bei. Entsprechend hängen die führt haben, können wir die modellimplizier-
Varianzen der Items nur von den jeweiligen ten mit den empirisch ermittelten Korrelatio-
Faktorladungen plus den Varianzen der Feh- nen oder Varianzen und Kovarianzen verglei-
lerkomponenten ab. Tatsächlich lässt sich aus chen und die Passung des Modells beurteilen.

96
4.1 Faktorenanalytische Modelle

Wie erwähnt, wird erwartet, dass alle korrela- wird berechnet nach
tiven Diskrepanzen betragsmäßig kleiner als s
p p
0.1 ausfallen. Darüber hinaus kann man sum- ∑ j=1 ∑k< j r2jk
marische Kennwerte heranziehen, die von Pro- SRMR = , mit
p(p + 1)/2
grammen zur Durchführung von Faktorenana- s jk σ̂ jk
lysen mit ausgegeben werden. Summarische r jk = √ √ − p √ .
s j j skk σ̂ j j σ̂kk
Kennwerte beschreiben die generelle Passung
(„Fit“) oder Fehlanpassung („Misfit“) eines Dabei steht s für empirische Varianzen
bestimmten Modells bezüglich der Daten. (wenn die Indices gleich sind) und Kova-
Faktorenanalysen werden meist über speziel- rianzen, σ̂ für modellimplizierte Varian-
le numerische Methoden berechnet, auf deren zen und Kovarianzen, p ist die Anzahl der
Basis statistische Prüfgrößen abgeleitet wer- Items. (Das Dach über einem Kennwert
den können, über die sich die Abweichung zeigt an, dass es sich um eine Schätzung
eines Modells von den Daten formell prüfen auf der Grundlage eines Modells handelt.)
lässt. Bei der heute gebräuchlichen Maximum-
Likelihood-Methode handelt sich um einen
Chi-Quadrat-Wert, der bei guter Passung des Die Komponenten r jk , deren Quadrate in der
Modells Werte nahe 0 annimmt und insignifi- Formel summiert werden, repräsentieren je-
kant ausfällt, bei schlechter Passung dagegen weils Differenzen zwischen empirischen und
hohe positive Werte aufweist und signifikant modellimplizierten Korrelationen, wie aus der
wird. Diese Prüfgröße ist allerdings sehr sen- Definition des Ausdrucks hervorgeht, es sind
sitiv für den Stichprobenumfang: Bei großen also die Restkorrelationen. Bei perfekter Pas-
Stichproben, wie sie im Rahmen der Testkon- sung würden alle Restkorrelationen und da-
struktion allgemein vorliegen, kann sie man- mit auch der SRMR 0 werden. Die Division
gelnde Passung des Modells bereits bei ver- durch p(p+1)/2 bewirkt, dass die Summe der
nachlässigbaren Abweichungen anzeigen. Um- quadrierten Restkorrelationen auf die Anzahl
gekehrt reagiert sie bei kleinem Stichproben- der nichtredundanten Elemente der Varianz-
umfang oft zu unempfindlich auf Abweichun- Kovarianz-Matrix bezogen wird, die anschlie-
gen. Man hat daher versucht, alternative Kenn- ßend gezogene Wurzel kompensiert die Qua-
werte zu entwickeln, die dieses „Fehlverhal- drierung. Beim SRMR indizieren Werte klei-
ten“ nicht zeigen. Zwei dieser Kennwerte sind ner als 0.08 eine akzeptable Passung.
das SRMR (Standardized Root Mean Square
Residual) und der RMSEA (Root Mean Square
Error of Approximation). RMSEA
Beide Kennwerte sind Diskrepanzindices, die In den RMSEA gehen neben dem χ 2 -Wert
wie der χ 2 -Wert gegen 0 gehen, wenn die Pas- dessen Freiheitsgrade (df ) und der Stichpro-
sung des Modells gut ist und hohe Werte an- benumfang (N) ein. Er lässt sich berechnen
nehmen, wenn die Passung schlecht ist. nach
s
χ 2 − df
RMSEA = .
SRMR df (N − 1)
Der SRMR ist eine Funktion der mittle-
ren Abweichung zwischen empirischer und Ist der χ 2 -Wert kleiner als die Zahl der Frei-
modellimplizierter Korrelationsmatrix. Er heitsgrade, wird der RMSEA auf 0 gesetzt.

97
4 Modelle psychologischen Testens

Da die Anzahl der Freiheitsgrade mit der Kom- Modellgleichung (4.5). Wir erhalten
plexität des Modells sinkt, „bevorzugt“ der
RMSEA einfache gegenüber komplexen Mo- Y = ∑ X j = ∑ µ j + (∑ λ j )F + ∑ E j . (4.9)
j j j j
dellen. Darüber hinaus wird die Abweichung
zwischen Empirie und Modell bei großen Der erste Summand (die Summe der Itemmit-
Stichproben geringer gewichtet als bei klei- telwerte) ist dabei identisch mit dem Mittel-
nen. In der Formel tauchen Abweichungen wert von Y , µY . Der zweite Summand reprä-
zwischen empirischen und modellimplizier- sentiert den Teil von Y , der auf den gemeinsa-
ten Kovarianzen nicht explizit auf, sie sind men Faktor zurückgeht, der dritte Summand
jedoch implizit im χ 2 -Wert enthalten. Im Un- den Teil, der von spezifischen Eigenschaften
terschied zu anderen Passungsindices kann für der einzelnen Items verantwortet wird. Notiert
den RMSEA der Standardfehler und damit man den gemeinsamen Teil in Analogie zum
auch ein Konfidenzintervall berechnet werden. klassischen Fehlermodell mit TY , den spezi-
Üblicherweise wird dabei ein 90 %-Intervall fischen Teil mit EY , lässt sich die Gleichung
zugrunde gelegt. Beim RMSEA werden für (4.9) so schreiben:
akzeptable bzw. gute Modellpassung Werte
kleiner als 0.08 (dieser Grenzwert wird für Y = µY + TY + EY .
kleinere Stichproben mit einem Umfang von
N < 250 empfohlen) bzw. 0.06 (für größere In Begriffen des Fehlermodells stellt TY den
Stichproben) gefordert. wahren und EY der Fehleranteil der mit Y ge-
gebenen Messung dar. Für die Bestimmung
Die beiden Indices sind für unterschiedliche der Reliabilität benötigen wir die Varianzen
Aspekte der Modellabweichung sensitiv und von TY und EY . Im Ein-Faktor-Modell ergeben
werden daher meist gemeinsam, zusätzlich sich diese Varianzen aus dem Quadrat der sum-
zum χ 2 -Test, betrachtet. Neben dem SRMR mierten Faktorenladungen und der Summe der
und dem RMSEA wurde eine Vielzahl weite- Fehlervarianzen der einzelnen Items, d. h.
rer Indices der Modellpassung vorgeschlagen.
Welche dieser Indices – oder welche Kombi- Var(Y ) = Var(TY ) + Var(EY )
nation von Indices – für die Beurteilung der
= (∑ λ j )2 + ∑ Var(E j ).
Passung optimal ist, lässt sich noch nicht sa-
gen (für Übersichten und praktische Empfeh- Setzt man diese Ausdrücke in die Definition
lungen siehe Beauducel & Wittmann, 2005; der Reliabilität („wahre Varianz geteilt durch
Bühner, 2011; Eid, Gollwitzer & Schmitt, Gesamtvarianz“) ein, erhält man einen Relia-
2011; Hu & Bentler, 1999; Schermelleh-Engel, bilitätskoeffizienten, der mit ω (Omega) be-
Moosbrugger & Müller, 2003). zeichnet wird:
Var(TY )
ω=
Schätzung der Messpräzision Var(Y )
Var(TY )
=
Wenn ein Ein-Faktor-Modell auf die Daten Var(TY ) + Var(EY )
passt, lässt sich die Reliabilität des Tests aus (∑ λ j )2
den Ladungen und den Fehlervarianzen der = . (4.10)
(∑ λ j )2 + ∑ Var(E j )
Items bestimmen. Auf der Basis des Ein-
Faktor-Modells ergibt sich der Testwert Y – Der Koeffizient gibt das Ausmaß an, in dem
also die Summe der Itemwerte – einer Per- eine Testvariable von den Items geteilte Vari-
son durch Summierung der Teilausdrücke der anz reflektiert. Omega hat drei grundlegende

98
4.1 Faktorenanalytische Modelle

Eigenschaften (McDonald, 1999, S. 89f), die schätzen, ist also problematisch. Auch α kann
den Kennwert als Reliabilitätsschätzer prädes- nur dann sinnvoll als Reliabilitätskoeffizient
tinieren: interpretiert werden, wenn der Test faktori-
ell homogen ist. Die Homogenität eines Tests
1. Der Koeffizient ist identisch mit der Korre-
muss also vorab geprüft werden. Als Neben-
lation zweier Tests, deren Items aus einer
effekt dieser Prüfung erhält man gleichzeitig
homogenen Itemmenge stammen, und de-
die für die Berechnung von ω benötigte Infor-
ren mittlere Ladungen und mittlere spezifi-
mation.
sche Varianzen gleich sind. Die Korrelation
zweier paralleler Tests ist ein Spezialfall
hiervon. Speziellere Modelle
2. Die Wurzel aus ω ist die Korrelation zwi- Das Ein-Faktor-Modell stellt für sich ge-
schen der Testvariablen und dem gemeinsa- nommen bereits relativ strikte Bedingun-
men Faktor und liefert daher ein Maß der gen an die Items eines Tests. Items oder
Präzision, mit dem der Test das von den generell Messungen, die faktoriell homo-
Items gemeinsam erfasste Merkmal (den gen sind, werden in der Literatur auch als
Faktor) misst. kongenerisch bezeichnet. Weisen die Items
3. Die Fehlerquelle, die sich in ω ausdrückt, eines Tests zusätzlich alle die gleichen Fak-
besteht darin, dass aus einer potenziell un- torladungen auf, sind sie essenziell tau-
endlich großen, homogenen Itemmenge nur äquivalent. (Tau steht für den wahren Wert;
eine begrenzte, evtl. kleine Zahl von Items essenziell tau-äquivalente Items reflektie-
für die Messung des Merkmals verwendet ren „im Wesentlichen“, d. h. bis um eine
wird. Der Koeffizient gibt an, wie gut man Verschiebung um eine Konstante den glei-
auf Grundlage der im Test verwendeten chen wahren Wert.) Liegt essenzielle tau-
Items auf diese Menge schließen kann. Äquivalenz vor, liefert α eine genaue Schät-
Omega liefert einen Schätzer der Reliabilität zung der Reliabilität. Sind die Items essen-
eines Tests, mit dessen Hilfe sich der Stan- ziell tau-äquivalent und weisen zusätzlich
dardmessfehler, Effekte der Testverlängerung die gleichen Fehlervarianzen auf, sind sie
oder -verkürzung und weitere Größen, in die parallel. Parallele Items weisen gleiche Ko-
die Reliabilität eingeht, bestimmen lassen. Der varianzen auf, reflektieren das zugrunde
Koeffizient weist eine enge Beziehung zu der liegende Merkmal also mit gleicher Prä-
in Kapitel 3 behandelten internen Konsistenz zision. Besitzen die Items überdies noch
(Cronbachs α) auf. Ist ein Test faktoriell ho- die gleichen Mittelwerte, spricht man von
mogen und weisen zusätzlich alle Items des strikt parallelen Items. Formelle Tests auf
Tests die gleichen Faktorladungen auf, liefert Äquivalenz bzw. Parallelität lassen sich vor-
die Formel für Cronbachs α dieselbe Reliabili- nehmen, indem man in Programmen zur
tätsschätzung wie ω. Ist die zweite Bedingung Durchführung konfirmatorischer Faktoren-
(gleiche Ladungen) nicht erfüllt, wird die Re- analysen die Ladungen bzw. zusätzlich die
liabilität des Tests durch α unterschätzt. Es Fehlervarianzen als gleich spezifiziert. Es
gilt also α ≤ ω, so dass α eine untere Gren- lässt sich dann prüfen, ob diese strikteren
ze für die Reliabilität eines homogenen Tests Modelle noch eine akzeptable Passung auf
darstellt. Diese Beziehung gilt für faktoriell die Daten besitzen.
inhomogene Tests allerdings nicht: Hier kann
α die Reliabilität durchaus überschätzen. Die
Idee, die Reliabilität bzw. deren untere Grenze
ohne den „Umweg“ der Faktorenanalyse zu

99
4 Modelle psychologischen Testens

Tab. 4.4 Korrelationen und Varianzen (in der Diagonalen) der Items eines Angstfragebogens

Item 1 2 3 4 5 6 7
1 0.529
2 .507 0.381
3 .402 .558 0.302
4 .562 .758 .543 0.420
5 .175 .366 .283 .232 0.341
6 .285 .429 .407 .371 .442 0.313
7 .099 .326 .252 .252 .207 .482 0.299
Anmerkung. Items 1 bis 4 beziehen sich auf Emotionalität, Items 5 bis 7 auf Besorgnis.

Ein Beispiel tenz substanzieller Korrelationen zwischen


den Items noch nichts über die Homoge-
Um die Berechnung der Kennwerte zu illus- nität des Tests aussagt. Die Anforderungen
trieren benutzen wir einen realen, wenn auch des Ein-Faktoren-Modells sind strenger. Wie
einfachen Datensatz. In einem psychologi- dargestellt, müssen hierfür bestimmte Rela-
schen Experiment wurde den Teilnehmern zu tionen zwischen den Itemkovarianzen bzw.
Beginn der Untersuchung ein Fragebogen zu -korrelationen erfüllt sein.
aktuellen Gefühlen vorlegt, der u. a. die fol-
genden vier Items zur Messung der Emotiona- Die Homogenität der Skala soll getestet wer-
litätskomponente der Zustandsangst (Aufge- den. Hierfür prüfen wir, ob sich die Zusam-
regtheit; I Kap. 10) enthielt: menhänge der Items mittels eines Ein-Faktor-
Modells hinreichend gut beschreiben lassen.
Die Spezifikation des Modells ist mit neue-
1. Ich fühle mich angespannt ... rer Software für die Berechnung konfirmatori-
2. Ich bin nervös ... scher Faktorenanalysen recht einfach. Im We-
3. Ich bin verkrampft ... sentlichen übergibt man dem Programm die
4. Ich bin aufgeregt ... Daten oder die zu analysierende Kovarianzma-
trix zusammen mit einer jeweils programm-
Die Antwortoptionen und ihre Kodierung wa- spezifischen Beschreibung des zu prüfenden
ren gar nicht (1), ein wenig (2), ziemlich (3) Modells. Die Programmausgabe enthält im
und sehr (4), so dass die Testsummenwerte, Allgemeinen eine Reihe von Passungs- bzw.
die als Indikator der Emotionalität verwendet Diskrepanzindices sowie die Ladungen und
werden sollen, prinzipiell zwischen 4 und 16 Fehlervarianzen für das angegebene Modell.
variieren können. I Tab. 4.4 zeigt die Korre-
Im unserem Beispielfall weisen die Passungs-
lationen und Varianzen (in der Diagonale) der
indices auf einen sehr guten „Fit“ des Ein-
Items. Relevant sind zunächst nur die Items 1
Faktor-Modells hin. Der χ 2 -Wert ist insigni-
bis 4. Auf die drei weiteren Items werden wir
fikant, der SRMR beträgt 0.012, der RMSEA
unten eingehen.
ist 0. Bei weniger guter Passung ist es sinn-
Da alle Items in gleicher Richtung gepolt sind, voll, sich die Diskrepanzmatrix ausgeben zu
erwartet man hier deutlich positive Korrela- lassen, da man hierdurch Hinweise auf die
tionen, was im Beispiel der Fall ist. Es ist al- Ursachen für die mangelnde Passung des Mo-
lerdings wichtig zu notieren, dass die Exis- dells erhalten kann. In unserem Fall sind die

100
4.1 Faktorenanalytische Modelle

Tab. 4.5
Unstandardisiert Standardisiert
Ladungen und
Item Ladung Fehlervarianz Ladung Fehlervarianz
Fehlervarianzen der
Items des 1 0.450 0.326 0.618 0.617
Beispieldatensatzes 2 0.528 0.102 0.855 0.269
3 0.348 0.181 0.632 0.600
4 0.574 0.091 0.885 0.216

Abweichungen nur gering; die maximale Ab- Für die Berechnung der Reliabilität addieren
weichung zwischen der empirischen und der wir zunächst die unstandardisierten Ladungen
modellimplizierten Korrelationsmatrix beträgt und quadrieren die resultierende Summe:
0.022, liegt also deutlich unter 0.1.
(∑ λ j )2 = (0.450 + 0.528 + 0.348 + 0.574)2
Zwischen empirisch ermittelten und modell-
implizierten Kovarianzen bzw. Korrelationen = 3.608.
sind immer Abweichungen zu erwarten und
zwar allein aufgrund der Tatsache, dass die Anschließend summieren wir die Fehlervari-
Daten an Stichproben gewonnen wurden. Wie anzen:
andere Parameter auch, sind die ermittelten
Kennwerte nur Schätzungen der Zusammen- ∑ Var(E j ) = 0.326 + 0.102 + 0.181 + 0.091
hänge in der Population und werden deshalb = 0.701.
von Stichprobe zu Stichprobe variieren. Ge-
ringfügige Abweichungen zwischen „Theorie Nach Einsetzen in die Formel zur Berechnung
und Empirie“ würden sich aufgrund des Stich- von ω erhalten wir als Reliabilitätsschätzung
probenfehlers also auch dann ergeben, wenn
ein Modell die Verhältnisse in der Population 3.608/(3.608 + 0.701) = 0.837.
exakt widerspiegeln würde.
Zu beachten ist dabei, dass ω auf der Basis der
Da das Modell auf unsere Daten passt, können unstandardisierten Ladungen berechnet wer-
wir nun die Ladungen und Fehlervarianzen den muss.
betrachten. I Tab. 4.5 führt die unstandardi-
sierten Ladungen und die entsprechenden Feh- In Abschnitt 3.3.3 hatten wir bereits die Ver-
lervarianzen auf. Zum Vergleich sind auch die wendung von Trennschärfen für die Itemse-
standardisierten (korrelativen) Ladungen an- lektion besprochen. Die Kennwerte des Fakto-
gegeben. Es ist ersichtlich, dass die Items 2 renmodells liefern hierfür jedoch geeignetere
und 4 höhere Ladungen und geringere Feh- Größen. Für Zwecke der Itemselektion stützt
lervarianzen aufweisen als die Items 1 und man sich auf die Faktorladungen und Fehlerva-
3. Für die korrelativen Ladungen ergibt sich, rianzen, nicht auf die Item-Testkorrelationen.
wie zu erwarten ist, das gleiche Bild. „Nervös“ In der Praxis orientiert man sich dabei meist
und „aufgeregt“ scheinen also etwas bessere an den standardisierten Ladungen. Werden die
Indikatoren des durch alle Items gemessenen Testwerte (wie üblich) durch Summen- oder
Konstrukts zu sein als „angespannt“ und „ver- Mittelwertbildungen aus den Itemantworten
krampft“. Die korrelativen Ladungen weisen gewonnen, liefern im Rahmen des Modells die
jedoch alle Items als recht geeignet aus, da Verhältnisse aus unstandardisierten Ladungen
deren Werte jeweils sehr deutlich über 0.40 und Fehlervarianzen jedoch besser geeignete
liegen. Kennwerte (siehe McDonald, 1999).

101
4 Modelle psychologischen Testens

X1 E1 .62
.62

.86 X2 E2 .27
1 F .63
.89 X3 E3 .60

Abb. 4.2
Pfaddiagramm für ein X4 E4 .22
Ein-Faktor-Modell.

Pfaddiagramme tete Pfade zwischen zwei verschiedenen Varia-


blen repräsentieren Kovarianzen oder Korrela-
tionen. Die Verwendung von zwei Pfeilspitzen
Faktoren-Modelle lassen sich anschaulich
soll dabei andeuten, dass hier keine Einfluss-
in Form sog. Pfaddiagramme darstellen
richtung spezifiziert wird. (Letztere kommen
(I Abb. 4.2). In solchen Diagrammen werden
in unserem Modell nicht vor, wir werden sie
alle Variablen eines Modells durch Rechtecke
aber später noch benötigen.)
oder Ellipsen (bzw. Kreise) dargestellt. Recht-
ecke symbolisieren dabei manifeste Variablen,
in unserem Beispielfall die vier Items des Fra- Beim Lesen solcher Diagramme muss man
gebogens. Ellipsen stehen dagegen für latente beachten, dass das Weglassen möglicher Pfa-
Variablen, in unserem Fall den gebildeten Fak- de zwischen verschiedenen Variablen von es-
tor sowie die Fehler. senzieller Bedeutung ist. So meint z. B. das
Fehlen eines Pfads zwischen F und E1 , dass
Neben Rechtecken und Ellipsen werden in zwischen den entsprechenden Variablen kei-
Pfaddiagrammen zwei Arten von Linien, sog. ne direkten Beziehungen (seien sie gerichtet
Pfade, verwendet. Gerade Linien mit einer oder ungerichtet) bestehen sollen. Das Weglas-
Pfeilspitze, die zwei Variablen verknüpfen, sen eines solchen Pfads impliziert in diesem
heißen gerichtete Pfade. Hier wird in einem Beispiel Unkorreliertheit, da weder F noch E1
sehr allgemeinen Sinn ein Einfluss einer Varia- von einer anderen Variablen im betrachteten
blen auf eine andere angenommen. Dabei kann System abhängt.
es sich um kausale Zusammenhänge handeln,
die in einem Modell postuliert werden, oder Für Variablen, die von einer oder mehreren
– wie in unserem Kontext – um Beziehungen anderen der im Modell thematisierten Größen
zwischen Konstrukten (Faktoren) und ihren beeinflusst werden, bedeutet das Weglassen
empirischen Indikatoren (Items). Die über den von Pfaden dagegen nicht unbedingt Unkorre-
gerichteten Pfaden stehenden Werte heißen liertheit. In unserem Modell betrifft dies die
Pfadkoeffizienten. Die Koeffizienten über den Items X j . Auch wenn zwischen diesen Varia-
vom Faktor ausgehenden Pfaden sind in un- blen keine direkten Pfade eingezeichnet sind,
serem Fall die (standardisierten) Faktorladun- so müssen sie doch (wenn das Modell zutrifft)
gen. Gebogene Linien mit zwei Pfeilspitzen korreliert sein. Diese Korrelationen gehen je-
repräsentieren ungerichtete Pfade. Ein unge- doch allein darauf zurück, dass alle Itemvaria-
richteter Pfad einer Variablen auf sich selbst blen von dem gemeinsamen Faktor abhängen.
kennzeichnet dabei deren Varianz. Ungerich- Zwischen ihnen bestehen deshalb keine direk-

102
4.1 Faktorenanalytische Modelle

ten Beziehungen; ihre Zusammenhänge gehen Häufig hat man jedoch ein breiteres bzw. ab-
vielmehr auf den gemeinsamen Faktor zurück. strakteres Merkmal im Auge, das sich in ver-
schiedene Komponenten oder Facetten aufglie-
Die Modellgleichung und die Bedingungen dern lässt (z. B. Zustandsangst). In diesem Fall
des Modells (Unkorreliertheit der Fehlerkom- wird man von vornherein mit einer multifakto-
ponenten; Unkorreliertheit des Faktors und der riellen Struktur rechnen und daher zwei oder
Fehlerkomponenten; Standardisierung des ge- mehr Faktoren bilden. Wie wir bereits sahen,
meinsamen Faktors) werden in dem Pfaddia- reduziert die Einführung weiterer Faktoren die
gramm also in übersichtlicher Weise repräsen- Diskrepanzen zwischen Modell und Daten.
tiert. Für die Darstellung eines so einfachen
Modells wie in unserem Beispiel sind Pfaddia- Zur Illustration von Mehr-Faktoren-Modellen
gramme allerdings nicht unbedingt erforder- erweitern wir unseren Emotionalitätsfragebo-
lich. Nützlich sind sie besonders zur Darstel- gen zu einem Angstfragebogen, indem wir
lung komplexerer Modelle, die im folgenden ihn um die drei folgenden Items ergänzen,
Abschnitt skizziert werden. welche die Besorgniskomponente der Angst
(I Kap. 10) ansprechen sollen:

5. Ich bin besorgt.


4.1.3 Mehr-Faktoren-Modelle 6. Ich denke an die Möglichkeit einer
schlechten Bewertung meiner Leistung.
Eine inakzeptable Passung des Ein-Faktor- 7. Ich habe das Gefühl, dass ich mit den
Modells an die Daten weist darauf hin, dass Aufgaben nicht gut zurecht kommen wer-
ein Faktor nicht genügt, um die Variabilität im de.
Antwortverhalten der Probanden hinreichend
gut abzubilden. In diesem Fall kann man versu- Diese Items wurden den Probanden in der ge-
chen, die Passung des Modells auf die Daten nannten Untersuchung zusammen mit den vier
zu verbessern, indem man Items eliminiert, Emotionalitätsitems vorgelegt, nachdem sie
die für die mangelnde Passung verantwortlich kurz mit der bevorstehenden Aufgabe vertraut
sind. Ziel ist es dabei, eine Untermenge von gemacht worden waren. Das Antwortformat
Items zu identifizieren, die zusammen einen war das gleiche wie bei den Emotionalitäts-
homogenen Test ergeben. Hilfreich kann hier items.
eine genaue Inspektion der Diskrepanzen zwi-
In unserem Fall sprechen die Items des Fra-
schen den empirischen und den modellimpli-
gebogens zwei inhaltlich recht klar unter-
zierten Korrelationen sein. Manchmal sind es
scheidbare Verhaltensmerkmale an, Emotio-
nur einzelne Items, die für die Abweichung
nalität und Besorgnis, weshalb die Hypothese
verantwortlich sind. Diese werden dann aus
eines Zweifaktoren-Modells naheliegend ist.
dem Test entfernt oder umformuliert. Der re-
Um diese Hypothese zu untermauern, ist es
vidierte Test wird dann anhand einer neuen
sinnvoll, zunächst das sparsamere Ein-Faktor-
Stichprobe auf Homogenität geprüft. Auch
Modell zu testen. Wenn wir dieses Modell ver-
die Durchführung explorativer Faktorenana-
werfen müssen, wissen wir, dass mindestens
lysen kann zu diesem Zweck nützlich sein.
zwei Faktoren benötigt werden.
Die Elimination oder Neuformulierung von
Items wird man vor allem dann in Betracht zie- Wie eine Inspektion der Korrelationen in
hen, wenn die Erfassung eines eng umgrenzten I Tab. 4.4 zeigt, sind die Zusammenhänge
Merkmals intendiert ist (z. B. die Emotionali- unter den drei Besorgnisitems im Mittel et-
tätskomponente der Zustandsangst). was geringer als die der Emotionalitätsitems.

103
4 Modelle psychologischen Testens

Die Korrelationen zwischen den beiden Item- nen I Abb. 4.3 einige aufführt. Modell A ist
gruppen sind alle positiv, im Durchschnitt aber das sparsamste. Hier wird angenommen, dass
kleiner als die Korrelationen innerhalb der den Antworten zwei unkorrelierte Faktoren
Gruppen. Ein derartiges Muster kann man für zugrunde liegen. Der erste Faktor repräsen-
zwei korrelierte Facetten eines abstrakteren tiert die Emotionalitäts-, der zweite die Besorg-
Merkmals erwarten. Erwartungsgemäß zeigt niskomponente der Angst. Die Unkorreliert-
das Ein-Faktor-Modell eine schlechte Passung heit der beiden Komponenten kommt in der
(hochsignifikanter χ 2 -Wert, SRMR = 0.083, graphischen Darstellung darin zum Ausdruck,
RMSEA = 0.131). Ein Blick auf die Diskre- dass zwischen den beiden Faktoren kein unge-
panzen ergibt, dass besonders die Korrelatio- richteter Pfad eingezeichnet ist. Die Passung
nen unter den Besorgnisitems durch das Mo- des Modells ist schlecht (hochsignifikanter χ 2 -
dell nicht gut aufgeklärt werden. Wert, SRMR = 0.199, RMSEA 0.130), was
zu erwarten ist, da unkorrelierte Faktoren al-
Betrachten wir, trotz der schlechten Passung
lein die Kovariationen innerhalb der beiden
des Modells, die Faktorladungen als Indikato-
Gruppen, nicht aber die Kovariationen zwi-
ren der Trennschärfe für den ersten Faktor. Die
schen den Gruppen aufklären können. Für die
korrelativen Ladungen betragen für die vier
Korrelationen zwischen den beiden Itemgrup-
Emotionalitätsitems 0.60, 0.88, 0.65 und 0.84,
pen impliziert dieses Modell Nullwerte, die
sind also alle recht hoch. Die Ladungen der
empirisch nicht vorliegen.
drei Besorgnisitems fallen demgegenüber ab.
Sie betragen 0.39, 0.52 und 0.36. Beide Befun- Modell B berücksichtigt die substanziellen
de könnten es nahelegen, Besorgnisitems (be- Zusammenhänge zwischen den Itemgruppen.
ginnend mit Item 7) sukzessive aus dem Frage- Dies geschieht dadurch, dass die Korrelation
bogen auszuscheiden und das Modell mit dem zwischen den beiden Faktoren explizit zuge-
kleineren Itemsatz neu zu berechnen, um eine lassen und geschätzt wird. Deshalb ist in der
homogene und reliable Skala zu erhalten. Die- graphischen Darstellung des Modells ein Ko-
ses Vorgehen ist möglich, nur muss man sich varianz/Korrelationspfad zwischen den beiden
darüber im Klaren sein, dass man hiermit das Faktoren eingezeichnet. Inhaltlich drückt das
mit dem Test indizierte Merkmal verändert. In Modell aus, dass zwei separate Itemgruppen
unserem Beispiel würden nach einer solchen, (engl. independent clusters) angenommen wer-
gewissermaßen rein technischen, Itemselekti- den, die unterschiedliche, aber mehr oder we-
on anhand von Ladungen oder Trennschärfen niger stark korrelierte Merkmale reflektieren.
nur die Emotionalitätsitems übrig bleiben. Wir Modelle dieser Art werden als Independent-
erhalten dann zwar eine homogene Skala, die Cluster-Modelle bezeichnet.
aber ein enger umgrenztes Merkmal als das
Eine solche Struktur ist in unserem Fall ei-
eigentlich intendierte erfasst und für letzteres
ne konzeptuell sehr plausible Hypothese. Das
vermutlich nicht valide wäre. Man spricht hier
Modell zeigt insgesamt eine gute Passung. Der
(etwas abfällig) von „bloated specifics“: Dies
χ 2 -Wert bleibt zwar signifikant, SRMR (=
sind sehr ähnlich formulierte Items, die die
0.044) und RMSEA (= 0.014) fallen aber deut-
Reliabilität eines Tests künstlich in die Höhe
lich unter die Grenzwerte von 0.08 bzw. 0.06,
treiben, dessen Validität aber beeinträchtigen,
so dass wir die auf der Basis des Modells ge-
da sie nur einen sehr spezifischen Teil des in-
schätzten Parameter verwenden können. Sie
tendierten Merkmals ansprechen.
sind in I Abb. 4.3 B ebenfalls dargestellt (ge-
Gehen wir zu Zwei-Faktoren-Modellen über. zeigt sind standardisierte Kennwerte). Wie er-
Selbst in unserem sehr simplen Beispiel exis- sichtlich ist, sind alle korrelativen Ladungen
tieren hier mehrere spezielle Modelle, von de- substanziell. Wir können also davon ausgehen,

104
4.1 Faktorenanalytische Modelle

(A) X1 E1 (B) X1 E1 .63


.61

X2 E2 .87 X2 E2 .24
1 F1 1 F1 .64
X3 E3 .86 X3 E3 .58

X4 E4 X4 E4 .26
.57

X5 E5 .50 X5 E5 .74

.86
1 F2 X6 E6 1 F2 X6 E6 .25
.54

X7 E7 X7 E7 .70

(C) X1 E1 (D) X1 E1

X2 E2 X2 E2
1 F1 1 F1
X3 E3 X3 E3

1 G X4 E4 X4 E4

X5 E5 X5 E5

1 F2 X6 E6 1 F2 X6 E6

X7 E7 X7 E7

Abb. 4.3 Faktoren-Modelle: (A) zwei unabhängige Faktoren, (B) Independent-Cluster-Modell,


(C) hierarchisches Modell, (D) explorative Faktorenanalyse.

dass die Items brauchbare Indikatoren der Fak- on zwischen den Summenwerten der beiden
toren darstellen. Itemgruppen, die in unserem Fall 0.46 beträgt.
Der jetzt interessante Kennwert ist die Korre- Der Grund hierfür liegt darin, dass Korrelatio-
lation der beiden Faktoren, die mit 0.57 eben- nen zwischen Faktoren (und anderen latenten
falls recht hoch ausfällt. Diese Korrelation ist Variablen) frei von Messfehlern sind. Korrela-
höher als die empirisch ermittelte Korrelati- tionen zwischen Faktoren entsprechen (zumin-

105
4 Modelle psychologischen Testens

dest ungefähr) den Korrelationen zwischen Ladungen des Independent-Cluster-Modells


messfehlerbereinigten Variablen, wie sie sich mit der Quadratwurzel der Faktorkorrelation.
mit Hilfe der Formel zur Minderungskorrektur Für die korrelative Ladung von Item 1 er-
schätzen lassen, I Kap. 3.4.3. haltenpwir zum Beispiel eine g-Ladung von
0.61 · (0.57) = 0.46. Die Ladungen auf den
Für eine Reihe von Zwecken kann es nun sinn-
hierarchischen Gruppenfaktoren lassen sich
voll sein, einen globalen Angstwert zu betrach-
durch Multiplikation mit der Quadratwurzel
ten, den man durch Summierung oder Mitte-
des Gegenwerts (1 minus der Faktorkorrela-
lung aller sieben Itemantworten gewinnt. In
tion) berechnen;pfür Item 1 erhalten wir zum
diesem Fall stellt sich die Frage, wie sich die
Beispiel 0.61 · (1 − 0.57) = 0.40. Die Be-
Reliabilität der globalen Angstvariablen be-
stimmung der unstandardisierten Ladungen
stimmen lässt. Um die Frage zu beantworten,
des hierarchischen Modells erfolgt in analo-
betrachten wir ein drittes Modell. Es handelt
ger Weise. Wie man sieht, werden die Ladun-
sich um ein sog. hierarchisches Modell, des-
gen aus dem Independent-Cluster-Modell im
sen Struktur in I Abb. 4.3 C dargestellt ist.
hierarchischen Modell auf den g-Faktor und
Anstelle zweier korrelierter Faktoren werden
jeweils einen Gruppenfaktor verteilt, wobei
in diesem Modell drei unkorrelierte Faktoren
die jeweiligen „Portionen“ von der Höhe der
postuliert, die allerdings auf zwei miteinander
Faktorkorrelation abhängen. Je höher die Fak-
verschachtelten Hierarchieebenen angesiedelt
torkorrelation ist, desto größer fällt der Anteil
sind (daher der Name der Modellfamilie). Auf
des g-Faktors und desto geringer der des Grup-
der unteren Ebene stehen die beiden Gruppen-
penfaktors aus.
faktoren, die jeweils nur Emotionalitäts- oder
Besorgnisitems beeinflussen. Den Gruppen- Die globale Angstvariable wird im hierarchi-
faktoren übergeordnet ist ein allgemeiner Fak- schen Modell durch den g-Faktor repräsentiert.
tor (general factor oder kurz g-Faktor), von Deren Reliabilität können wir nun auf der Ba-
dem alle Items abhängen. Der g-Faktor reprä- sis der (unstandardisierten) g-Ladungen und
sentiert den Teil der Antwortvariation, der den der Varianz der Variablen nach Formel (4.10,
Items beider Gruppen gemeinsam ist. Er ist da- S. 98) schätzen (Zinbarg, Revelle, Yovel &
mit auf einem höheren Abstraktionsniveau an- Li, 2005). In unserem Fall erhalten wir einen
gesiedelt. Solche Modelle, welche die Kovaria- Reliabilitätskoeffizienten von ω = 0.60, also
tionen von Items mit unabhängigen Faktoren einen nicht sonderlich hohen Wert. Für die Ge-
unterschiedlicher Breite repräsentieren (ein g- winnung einer reliableren Messung würde es
Faktor; mehrere bereichsspezifische Faktoren) hier notwendig sein, den Test zu verlängern.
werden auch Bifaktoren-Modelle genannt (Gi-
gnac, 2008; Reise, 2012). Hierarchische Modelle können auch zur Be-
antwortung der Frage eingesetzt werden, ob
Die hinter hierarchischen Modellen stehende es überhaupt lohnend ist, einen Test, der nicht
Algebra ist recht komplex. Für unsere Zwe- ganz den Homogenitätsanforderungen des Ein-
cke genügt es jedoch festzustellen, dass sich Faktor-Modells genügt, in mehrere Untertests
die Faktorladungen des hierarchischen Mo- aufzuspalten. Fallen die Ladungen auf den
dells C aus dem Independent-Cluster-Modell hierarchischen Gruppenfaktoren relativ gering,
B gewinnen lassen.2 Die Ladungen auf dem die auf dem g-Faktor relativ hoch aus, würde
g-Faktor erhält man durch Multiplikation der man diese Frage verneinen. In unserem Bei-
2 Die Möglichkeit, Ladungen eines hierarchischen Mo- spiel liegen alle g-Ladungen wie auch alle hier-
dells indirekt (über ein Independent-Cluster-Modell) zu
bestimmen ist instruktiv, jedoch nicht ganz identisch le Restriktionen vorgenommen werden (Gignac, 2008;
mit der direkten Berechnung, wenn hier nicht speziel- McDonald, 1999).

106
4.1 Faktorenanalytische Modelle

archischen Gruppenladungen über 0.30. Da- Ladungsmuster. (Beim Ein-Faktor-Modell ent-


mit wäre sowohl die Bildung einer globalen steht dieses Problem nicht, da wir hier nur eine
Angstvariablen als auch die zweier separater Achse haben.)
Variablen, die Emotionalität und Besorgnis re-
präsentieren, zu rechtfertigen. Um dieser Schwierigkeit zu begegnen, wur-
den eine Reihe von Rotationskriterien erfun-
Besonders in den anfänglichen Phasen der den, die eine interpretierbare Lösung sichern
Testkonstruktion können auch explorative Fak- sollen. Häufig verwendet werden die Varimax-
torenanalysen zur Strukturierung einer Item- und die Promax-Rotation. Beide versuchen,
menge sehr nützlich sein. Im Unterschied zu die Achsen so zu legen, dass die Items auf
den bislang dargestellten konfirmatorischen jeweils nur einem Faktor betragsmäßig hohe
(hypothesentestenden) Modellen werden hier Ladungen aufweisen, auf den anderen jeweils
Faktorladungen aller Items auf allen Fakto- geringe. Hiervon erhofft man sich eine Ver-
ren bestimmt, wie dies in I Abb. 4.3 D ange- einfachung der Faktoreninterpretation, da sich
deutet ist. Wie wir in Abschnitt 4.1.1 erläu- in diesem Fall eher distinkte Itemgruppen er-
tert hatten, geht man dabei so vor, dass man geben. Die Varimax-Rotation liefert unkorre-
die Zahl der spezifizierten Faktoren, begin- lierte Faktoren (bildlich: orthogonale Achsen),
nend mit 1, sukzessive erhöht, bis eine akzep- ähnelt also unserem Modell A. In unserem ein-
table Passung des Modells erreicht ist. Das führenden Beispiel (I Tab. 4.3, S. 92) wurde
Ladungsmuster dieses Modells und die auf diese Rotation verwendet, um die Faktorladun-
seiner Basis bestimmten Markieritems bilden gen für das Zwei-Faktoren-Modell zu bestim-
die Grundlage für die Interpretation der Fakto- men. Die Promax-Rotation liefert korrelierte
ren. Dabei sucht man für die Markieritems je- Faktoren (schiefwinklig zueinander stehende
des Faktors gewissermaßen den gemeinsamen Achsen), ähnelt also unserem Modell B.
semantischen Nenner. Unter anderem wegen
dieses „kreativen“ Teils der Prozedur werden Kein Rotationskriterium garantiert allerdings
explorative Faktorenanalysen manchmal etwas sinnvolle und interpretierbare Lösungen. Prak-
kritisch betrachtet. tische Ratschläge zum Umgang mit diesen und
weiteren Problemen im Rahmen psychome-
Es gibt darüber hinaus einige mathematische trischer Untersuchungen finden sich bei Mc-
Schwierigkeiten, die darin gründen, dass für Donald (1999). In unserem Beispieldatensatz
explorative Modelle mit zwei oder mehr Fak- würde ein exploratives Zwei-Faktoren-Modell
toren die Ladungen nicht genau identifizier- mit schiefwinkliger Rotation zu nahezu identi-
bar sind; die Modellannahmen sind hierfür zu schen Ergebnissen führen wie das konfirmato-
schwach. Dieser Sachverhalt wird als „Rota- rische Modell mit korrelierten Faktoren.
tionsproblem“ bezeichnet. Stellt man sich die
Faktoren als Achsen in einem mehrdimensio- Für die Testkonstruktion sind konfirmatori-
nalen Raum vor, die Variablen/Items als Punk- sche Analysen den explorativen vorzuziehen.
te, deren Ladungen die Position im Raum be- Im Allgemeinen sollte man hier ja Hypothesen
stimmen, so lassen sich in explorativen Ana- über die Struktur eines Datensatzes formulie-
lysen nur die relativen Positionen der Items ren können. Der Einsatz explorativer Metho-
zueinander festlegen, aber nicht ihre genauen den kann jedoch hilfreich sein, wenn die Hypo-
Koordinatenwerte. Man kann die Achsen um thesen (am Anfang eines Projekts) noch nicht
ihren Ursprung drehen und wenden, wie man sehr stark sind, sich plausible Alternativen for-
will, und erhält damit eine unendliche Zahl ma- mulieren lassen oder sich die theoretischen
thematisch gleichwertiger Lösungen für das Annahmen empirisch nicht bewähren und man

107
4 Modelle psychologischen Testens

Anhaltspunkte für eine geeignetere Strukturie- ansehen kann (McDonald, 1999), hier Schwie-
rung der Variablen gewinnen möchte. rigkeiten mit sich bringt.

4.2.1 Probleme linearer Modelle


4.2 Item-Response-Theorie
Die Anwendung der Faktorenanalyse auf Va-
riablen, die nur wenige diskrete Werte anneh-
Die Item-Response-Theorie umfasst eine in- men können, kann zu Problemen führen. Die-
zwischen sehr reiche Familie von Testmodel- se Probleme sind nicht auf binäre Items be-
len, die ursprünglich für die Analyse binärer schränkt, stellen sich hier allerdings besonders
Items konzipiert wurden. Wie die Bezeich- scharf, so dass wir sie an diesem Beispiel er-
nung der Familie nahelegt, zielen die Modelle läutern.
von vornherein auf die theoretische Behand-
lung der Antworten auf einzelne Items. Dies
steht in Kontrast zur Klassischen Testtheo- Schwierigkeitsfaktoren
rie, die, wie wir sahen, von ganzen Tests aus-
geht. Mit Hilfe der Item-Response-Theorie Ein seit langem bekanntes Problem der An-
lassen sich Antworten modellieren, für die wendung der Faktorenanalyse auf Itemebene
nichtlineare Beziehungen zu latenten Merkma- wird unter dem Schlagwort „Schwierigkeits-
len angenommen werden müssen. Die Model- faktoren“ diskutiert. Etwas vereinfacht ausge-
lierung nichtlinearer Zusammenhänge sowie drückt, ist hiermit der Sachverhalt gemeint,
die stärkere Anbindung der Item-Response- dass Faktorenanalysen Items manchmal nicht
Theorie an fundamentale wissenschafts- und nur nach den Personmerkmalen klassifizieren,
messtheoretische Konzepte bedingen einen im die sich in den Antworten ausdrücken, sondern
Vergleich zum klassischen Ansatz (und zur auch nach den Schwierigkeiten der Items. Es
Faktorentheorie) erhöhten Aufwand an forma- ergeben sich dann mehr Faktoren, als auf der
len Methoden. Der Aufwand lohnt jedoch, da Grundlage der Abhängigkeiten der Antworten
sich eine Reihe zentraler Fragen der Testkon- von dem/den Personmerkmal/en zu erwarten
struktion, -analyse und -anwendung erst auf sind, sog. „Schwierigkeitsfaktoren“. Das Pro-
der Basis von Item-Response-Modellen in ad- blem kann resultieren, wenn (a) der Wertebe-
äquater Weise beantworten lassen. reich der Antwortvariablen diskret ist und nur
wenige Stufen umfasst und (b) ihre Verteilun-
Wie wir eingangs dieses Kapitels erwähnt hat-
gen unterschiedlich ausfallen. Beides ist bei
ten, ist die Item-Response-Theorie ein relativ
Itemvariablen normalerweise der Fall.
junger Ansatz der Psychologischen Diagnos-
tik. Pionierarbeiten wurden hier von dem Dä- Es ist instruktiv, den Grund für das Auftau-
nen Georg Rasch und dem Amerikaner Allan chen von Schwierigkeitsfaktoren etwas näher
Birnbaum geleistet, nach deren Namen auch zu beleuchten. Generell können für zwei dis-
zwei grundlegende spezielle Item-Response- krete Variablen Kovarianz und Korrelation nur
Modelle benannt werden. Diese Modelle, die dann maximal werden, wenn die Verteilungs-
für binäre Items geeignet sind, werden im Fol- formen der Variablen gleich sind. Ist dies nicht
genden skizziert. Zuvor stellen wir dar, warum der Fall, können sich die Wertepaare der Varia-
die Anwendung der Klassischen Testtheorie blen nicht genau decken, entsprechend muss
und ihrer Weiterentwicklungen in der Form die Korrelation Werte kleiner als Eins anneh-
der dargestellten faktorenanalytischen Model- men. Die Beschränkung der maximal mögli-
le, die man als lineare Item-Response-Modelle chen Korrelation ist umso deutlicher, je stärker

108
4.2 Item-Response-Theorie

die Abweichung der Verteilungsformen der Tab. 4.6 Korrelationen unter sechs
beiden Variablen ist. Bei binären Items schlägt dichotomisierten Itemvariablen.
sich dies besonders stark nieder, da deren
X1 X2 X3 X4 X5 X6
Verteilung durch die Schwierigkeit der Items
vollständig festgelegt ist. Wenn nun in einem X1 1
Test Gruppen von Items mit unterschiedlicher X2 .31 1
Schwierigkeit vorhanden sind, werden die Kor- X3 .30 .29 1
relationen innerhalb dieser Gruppen tendenzi- X4 .16 .17 .16 1
ell höher ausfallen als zwischen den Gruppen; X5 .16 .17 .16 .30 1
dieses Muster kann dann durch einen Faktor
X6 .16 .17 .17 .28 .28 1
nicht mehr vollständig erklärt werden.
Zur Illustration der Effekte unterschiedlicher
Itemschwierigkeiten auf die Ergebnisse von Ausgangsvariablen herrührt. Im Hinblick auf
Faktorenanalysen betrachten wir einen simu- die Anzahl der Faktoren ist dieser Effekt je-
lierten Test, der aus drei leichten und drei doch nicht wichtig. Wichtig ist vielmehr, dass
schwierigen Aufgaben besteht. Wir gehen sich die beiden Schwierigkeitsgruppen, die
zunächst von normalverteilten quantitativen die Items 1 bis 3 und 4 bis 6 umfassen, in
Itemvariablen Q1 bis Q6 aus, von denen wir an- den Korrelationen abzeichnen; die Korrelatio-
nehmen, dass sie sich je zur Hälfte aus einem nen innerhalb der leichten und der schwieri-
gemeinsamen Faktor und spezifischen Einflüs- gen Items sind mit etwa .30 deutlich höher
sen erklären lassen. Hieraus ergibt sich, dass als die Korrelationen zwischen den Gruppen,
die Korrelationen aller Items jeweils 0.5 be- die jeweils etwa .16 betragen. Ein Ein-Faktor-
tragen. Eine Faktorenanalyse würde entspre- Modell zeigt entsprechend eine schlechte Pas-
chend sung. Erst ein Zwei-Faktoren-Modell zeigt
√ eine perfekte Passung mit Ladungen
von .5 = .71, spezifischen Anteilen von .5 eine gute Passung, mit hohen Ladungen der
und einer aufgeklärten Varianz von .5 ergeben. leichten Items auf dem einen und hohen La-
dungen der schwierigen Items auf dem ande-
Simulieren wir nun binäre Itemvariablen X1 ren Faktor. Hier wird eine falsche Schlussfol-
bis X6 . Hierfür dichotomisieren wir die quanti- gerung über die Zahl der den Antworten zu-
tativen Items künstlich. Die drei leichten Items grunde liegenden latenten Variablen nahege-
1 bis 3 betrachten wir als gelöst, wenn die legt.
korrespondierenden standardisierten quantita-
tiven Werte über einer Schwelle von -1 lie- Bei der Anwendung der Faktorenanalyse auf
gen; sie haben also Schwierigkeiten von etwa binäre Antwortvariablen können sich also Fak-
.84. Die schwierigen Items 4 bis 6 betrach- toren ergeben, die als Artefakte unterschied-
ten wir als gelöst, wenn eine Schwelle von 1 licher Itemschwierigkeiten betrachtet werden
überschritten wird. Diese Items weisen damit müssen. Das gleiche Problem kann auch bei
Schwierigkeiten von etwa .16 auf. I Tab. 4.6 Items mit mehr als zwei Antwortkategorien
zeigt die Effekte hinsichtlich der Korrelatio- auftreten. Allerdings handelt es sich hier nicht
nen. etwa um einen Defekt der Faktorenanalyse,
sondern um das Ergebnis ihrer Anwendung
Zwei Wirkungen fallen auf: Erstens sind al- auf Variablen, für die sie nicht gebaut ist. Die
le Korrelationen deutlich niedriger als die der Faktorenanalyse ist für die Beschreibung der
quantitativen Ausgangsvariablen Q. Dieser Ef- Struktur kontinuierlicher Variablen geeignet.
fekt ist auf den Informationsverlust zurück- Wendet man sie auf diskrete Variablen an,
zuführen, der von der Dichotomisierung der muss sichergestellt sein, dass die Ausprägun-

109
4 Modelle psychologischen Testens

1.0

Lösungswahrscheinlichkeit
Item 1
0.8

0.6
Item 2
0.4
Abb. 4.4 0.2
Lineare Beziehungen zwischen Item 3
Faktorwerten und Lösungs- 0.0
wahrscheinlichkeiten für drei Items. Faktorwert

gen der Variablen einem Kontinuum hinrei- I Abb. 4.4 für mehrere Items unterschied-
chend nahe kommen. Dies trifft für binäre Va- licher Schwierigkeiten und Ladungen ge-
riablen nicht zu. schehen ist. Solche Funktionen heißen Item-
Response-Funktionen oder Itemcharakteristi-
ken; sie spezifizieren die Abhängigkeit der
Modellierung von Antworten auf ein Item von dem zugrunde
Lösungswahrscheinlichkeiten liegenden Merkmal.
Wie ersichtlich, ist es bei linearen Item-
Bei binären Items entsteht noch ein weiteres, Response-Funktionen nicht ausgeschlossen,
schwerwiegenderes Problem: Es ist in der Be- dass für Personen mit hohen Faktorwerten
schränkung des Wertebereichs der Antwortva- Schätzungen von Lösungswahrscheinlichkei-
riablen auf Null und Eins in Verbindung mit ten resultieren, die größer als 1 sind. Umge-
der im Modell angenommenen Linearität der kehrt können sich für Personen mit niedrigen
Beziehung zwischen Faktor und Antwortva- Faktorwerten negative Lösungswahrschein-
riable begründet. Im Faktorenmodell erhalten lichkeiten ergeben. In der Abbildung sind die-
wir für ein Item j bei Personen mit der Aus- se Möglichkeiten durch die vertikalen gestri-
prägung f auf dem Faktor als Schätzwert chelten Linien angedeutet. Bei einer Person
mit einem relativ hohen Faktorwert (rechte
X̂ j = µ j + λ j f . (4.11) Linie) würde sich für Item 1 eine Lösungs-
wahrscheinlichkeit größer als 1 ergeben, bei
Wird das Faktorenmodell auf binäre Items einer Person mit relativ niedrigem Faktorwert
angewendet, repräsentiert X̂ j die geschätzte (linke Linie) würde bei Item 3 eine Lösungs-
Lösungswahrscheinlichkeit für Personen mit wahrscheinlichkeit unter 0 resultieren. Beides
einem Faktorwert von f , µ j die über Perso- ist natürlich nicht sinnvoll, da Wahrscheinlich-
nen gemittelte Lösungswahrscheinlichkeit des keiten nur innerhalb des Intervalls von 0 und
Items und λ j den erwarteten Anstieg der Lö- 1 variieren können. Je unterschiedlicher die
sungswahrscheinlichkeit bei Personen mit ei- Schwierigkeiten und Ladungen (Trennschär-
nem gegenüber f um eine Einheit (Standard- fen) der Items eines Tests sind, desto eher tritt
abweichung) erhöhten Faktorwert. das Problem auf.
Das Problem erkennt man am einfachsten, Modelle, die lineare Beziehungen zwischen
wenn man für mehrere Items eines Tests die dem latenten Merkmal und den Itemantwor-
erwarteten Lösungswahrscheinlichkeiten ge- ten zugrunde legen, können für Variablen mit
gen die Faktorwerte aufträgt, wie dies in wenigen diskreten Stufen von vornherein nur

110
4.2 Item-Response-Theorie

Näherungslösungen liefern. Die Näherung ist mit b) und Trennschärfen bzw. Diskrimina-
für quantitative Items (mit vier oder mehr von tionen (a) sowie ihre Anfälligkeit gegenüber
den Probanden genutzten Antwortoptionen) Ratetendenzen (c).
meist akzeptabel. Bei Tests, die aus binären
Allen hier behandelten Modellen sind zwei
Items bestehen, ist die Anwendung der Fakto-
Eigenschaften gemeinsam. Erstens gehen die
renanalyse jedoch problematisch. Hier werden
Modelle davon aus, dass das Antwortverhal-
Modelle benötigt, die der kategorialen Natur
ten von nur einer latenten Variablen (einem
der Antworten gerecht werden.
Personmerkmal) beeinflusst wird, es handelt
Bei Verfahren, die aus binären Items bestehen, sich um eindimensionale Modelle. Wie im Ein-
werden für die Berechnung von Faktorenanaly- Faktor-Modell wird vorausgesetzt, dass die
sen und hierauf aufbauender Kennwerte (etwa Zusammenhänge unter den Antwortvariablen
Reliabilitätsschätzungen) Items häufig nach durch genau ein Merkmal erklärt werden kön-
inhaltlichen und/oder statistischen (Schwierig- nen. Wenn zwei oder mehr Variablen existie-
keiten, Trennschärfen usw.) Gesichtspunkten ren, die das Antwortverhalten in unterschied-
zu Testteilen („Itembündeln“) zusammenge- licher Weise beeinflussen, sind die Modelle
fasst, also summiert. Hierdurch werden Varia- nicht angemessen.
blen gewonnen, die kontinuierlichen Messun-
gen näherkommen und daher für Faktorenana- Die zweite Gemeinsamkeit besteht in der Mo-
lysen besser geeignet sind. Dieses Vorgehen dellierung der Lösungswahrscheinlichkeiten.
ist sinnvoll, da es die beiden gerade bespro- Als Itemcharakteristiken werden hier nicht Ge-
chenen Probleme vermeidet. Der Nachteil der raden, sondern S-förmige Kurven verwendet,
Bündelung besteht aber darin, dass Informa- die den Wert 0 nicht unter- und den Wert 1
tion über das Funktionieren einzelner Items nicht überschreiten können. Mit dem Einsatz
verlorengeht: Die Faktorenanalyse wird hier solcher Itemcharakteristiken werden die gera-
nicht mehr als Item-Response-Modell einge- de beschriebenen Probleme linearer Modelle
setzt. vermieden.
Bei der Wahl des konkreten Funktionstyps ste-
hen dabei verschiedene Möglichkeiten offen.
4.2.2 Logistische Testmodelle Die in den folgenden Abschnitten dargestell-
ten Modelle verwenden die (kumulative) logis-
Im Folgenden werden drei grundlegende Item- tische Funktion, um Lösungswahrscheinlich-
Response-Modelle beschrieben, die für binäre keiten mit Person- und Itemparametern zu ver-
Antwortvariablen konstruiert wurden. In die- knüpfen. Solche Modelle werden daher auch
sen Modellen werden die Lösungswahrschein- als logistische Testmodelle bezeichnet.
lichkeiten der Items (bzw. die Wahrschein- Die logistische Funktion ist allgemein durch
lichkeiten für eine Antwort „in Schlüsselrich-
tung“) als Funktion jeweils eines Personpa- ex exp(x)
rameters und eines oder mehrerer Itempara- y= x
= (4.12)
1+e 1 + exp(x)
meter beschrieben. Der Personparameter ver-
tritt dabei die Ausprägung des zu messenden definiert. Dabei steht e für die Basis des na-
Merkmals. Er wird meist mit θ (dem griechi- türlichen Logarithmus, die ungefähr 2.718
schen Buchstaben Theta) notiert, was hier bei- beträgt. Der Ausdruck ex wird auch häufig
behalten wird. Die Itemparameter charakteri- exp(x) geschrieben; er bezeichnet die Expon-
sieren Eigenschaften der einzelnen Items eines tentialfunktion. Die logistische Funktion lie-
Tests, nämlich ihre Schwierigkeiten (notiert fert Werte, die nur zwischen Null und Eins

111
4 Modelle psychologischen Testens

variieren können. In Item-Response-Modellen 4.2.3 1PL-Modell


stehen an der Stelle von y die von den
Person- und Itemparametern abhängigen Lö- Modellgleichung und Itemcharakteristik
sungswahrscheinlichkeiten. Der Exponent (x)
wird durch eine für das jeweilige Modell spezi- Im 1PL-Modell werden für die Beschreibung
fische Kombination von Person- und Itempara- der Lösungswahrscheinlichkeiten eines Items
metern ersetzt. Die logistische Funktion wird ein Personparameter und ein Itemparameter,
anderen Möglichkeiten zur Spezifizierung S- nämlich die Schwierigkeit des Items, verwen-
förmiger Item-Response-Funktionen aufgrund det. Wie gesagt, bezeichnen wir den Person-
ihrer bequemen mathematischen Behandlung parameter mit θ . Er steht für die den Itemant-
vorgezogen. worten zugrunde liegende latente Personvaria-
Je nach Zahl der im Modell vorkommenden ble, entspricht also F im Faktorenmodell. Den
Itemparameter spricht man dabei vom Ein-, Schwierigkeitsparameter eines Items j notie-
Zwei- oder Drei-Parameter Logistischen Mo- ren wir mit b j . Der Ausdruck P(X j = 1 | θ ) be-
dell. Gängige Abkürzungen hierfür sind 1PL-, schreibt die bedingte Wahrscheinlichkeit, das
2PL- bzw. 3PL-Modell. Das einfachste Mo- Item j zu lösen als Funktion der Ausprägung
dell enthält nur einen Itemparameter, nämlich der latenten Variablen θ . Wir notieren diese
die Itemschwierigkeit. Es wird auch als Rasch- bedingten Wahrscheinlichkeiten auch kurz mit
Modell bezeichnet. Das 2PL- oder Birnbaum- Pj (θ ), die entsprechenden Gegenwahrschein-
Modell beinhaltet darüber hinaus noch einen lichkeiten (Nichtlösung) P(X j = 0 | θ ) mit
Diskriminationsparameter. Das 3PL-Modell, Q j (θ ). Korrekte Antworten kodieren wir mit
das keinen Zweitnamen besitzt, berücksichtigt 1, inkorrekte mit 0. Das 1PL-Modell (seine
neben Schwierigkeit und Diskrimination noch Itemcharakteristik) kann dann wie folgt ge-
itemspezifische Ratetendenzen. schrieben werden:

Die meisten Anwendungen dieser Modelle exp(θ − b j )


P(X j = 1 | θ ) = . (4.13)
betreffen Fähigkeits- und Leistungstests, de- 1 + exp(θ − b j )
ren Items gelöst oder nicht gelöst werden.
Für den Exponenten der logistischen Funktion
Modelliert werden in diesen Fällen die Lö-
in Gleichung (4.12) wird hier also die Diffe-
sungswahrscheinlichkeiten (oder Funktionen
renz θ − b j eingesetzt.
der Lösungswahrscheinlichkeiten). Die Mo-
delle können jedoch auch außerhalb des Leis- Betrachten wir zunächst die linke Seite der
tungsbereichs, also bei Persönlichkeits-, Ein- Gleichung. Hier stehen die personbedingten
stellungs-, Interessentests usw. mit binärem Lösungswahrscheinlichkeiten der Items. Per-
Antwortformat eingesetzt werden. In diesen sonbedingt bringt zum Ausdruck, dass diese
Fällen wird die Wahrscheinlichkeit von Ant- Wahrscheinlichkeiten von der Ausprägung des
worten in Schlüsselrichtung modelliert. Um Personmerkmals abhängen. Für die Interpreta-
umständliche Formulierungen zu vermeiden, tion dieser Wahrscheinlichkeiten können wir
sprechen wir im Folgenden nur von Lösungs- uns für jeden Punkt auf dem Merkmalskontinu-
wahrscheinlichkeiten; der Begriff ist hier also um Subpopulationen vorstellen, die jeweils die
generisch gemeint und soll nicht implizieren, gleiche Ausprägung aufweisen. P(X j = 1 | θ )
dass der Anwendungsbereich der Modelle auf ist dann die Wahrscheinlichkeit, dass ein zu-
Leistungstests beschränkt ist. fällig gewähltes Mitglied einer solchen homo-
genen Subpopulation das jeweilige Item j löst.
Ebenso möglich ist eine Interpretation in Be-
griffen des Anteils der Populationsmitglieder,

112
4.2 Item-Response-Theorie

die das Item korrekt beantworten. Wenn wir im dass diese Werte prinzipiell nach unten und
Folgenden einfach von Lösungswahrschein- oben offen sind, also zwischen −∞ und +∞ va-
lichkeiten Pj (θ ) sprechen, beziehen wir uns riieren können, in praktischen Anwendungen
immer auf diese bedingten Wahrscheinlichkei- aber deutlich begrenzter ausfallen. In unseren
ten. Beispielen umfasst der Wertebereich von −4
bis +4 die meisten Personen; θ -Werte von 0
I Abb. 4.5 stellt die Funktion für drei Items
repräsentieren eine mittlere Ausprägung des
unterschiedlicher Schwierigkeit dar. Die Funk-
Merkmals.
tion wird als Item-Response-Funktion, Item-
funktion oder Itemcharakteristik bezeichnet. Die Abbildung veranschaulicht eine essenziel-
Die graphische Darstellung heißt im Engli- le Eigenschaft des 1PL-Modells: alle Itemcha-
schen item characteristic curve, kurz ICC. Die rakteristiken verlaufen parallel. Die Kurven
Itemcharakteristik gibt an, wie sich die Lö- können entsprechend durch eine Verschiebung
sungswahrscheinlichkeit eines Items als Funk- entlang der Abszisse ineinander überführt wer-
tion des latenten Merkmals, dessen Indikator den. Die Tatsache, dass die Kurven parallel
es ist, verändert. sind, sich mithin nicht kreuzen, hat eine wich-
tige Implikation: die Schwierigkeitsrangreihe
Die Lösungswahrscheinlichkeiten hängen von
der Items bleibt bei Personen mit unterschiedli-
der Differenz zwischen der Merkmalsausprä-
cher Merkmalsausprägung immer die gleiche.
gung und dem Schwierigkeitsparameter eines
Sie hängt nicht vom Personmerkmal ab. Intui-
Items ab. Je höher die Merkmalsausprägung
tiv würde man dies von einem eindimensiona-
ist, desto höher ist auch die Lösungswahr-
len Modell auch erwarten. Es ist jedoch wich-
scheinlichkeit. Je höher der Schwierigkeits-
tig zu notieren, dass nichtüberlappende Item-
parameter eines Items ist, desto niedriger ist
charakteristiken weder im Ein-Faktor-Modell
die Lösungswahrscheinlichkeit. Diese Verhält-
noch in den beiden weiter unten besproche-
nisse entsprechen also genau dem, was man
nen Item-Response-Modellen garantiert sind.
intuitiv erwarten würde. Zu beachten ist, dass
Wie man sich leicht veranschaulichen kann,
die Polung des Schwierigkeitskennwerts der in
können im Ein-Faktor-Modell solche Über-
der Klassischen Testtheorie üblichen Polung
lappungen immer dann auftreten, wenn un-
entgegengesetzt ist.
terschiedliche Ladungen (Steigungen, Trenn-
Sind Personwert und Schwierigkeitsparameter schärfen) der Items zugelassen sind. Konse-
gleich (θ = b j ), so ist die Lösungswahrschein- quenz ist, dass ein Item j, das für Personen
lichkeit 0.5. Ist der Personwert höher als der mit niedrigen Faktorwerten schwieriger ist als
Schwierigkeitsparameter (θ > b j ), steigt die ein anderes Item k, für Personen mit hohen
Lösungswahrscheinlichkeit über 0.5 und nä- Faktorwerten leichter sein kann als k.
hert sich mit zunehmender Differenz asympto-
Die Kurven besitzen ihren Wendepunkt bei
tisch dem Wert 1. Ist der Personwert niedri-
θ -Werten, die den Schwierigkeitsparametern
ger als der Schwierigkeitsparameter (θ < b j ),
der Items entsprechen. Für Item 1 mit dem
sinkt die Lösungswahrscheinlichkeit unter 0.5
Schwierigkeitsparameter b1 = −2 liegt der
und nähert sich mit zunehmender Differenz
Wendepunkt zum Beispiel bei θ = −2. Wie
asymptotisch dem Wert 0.
erwähnt, ergeben sich an diesen Stellen Lö-
Die Interpretation der θ -Werte hängt von der sungswahrscheinlichkeiten von 0.5. Gleich-
gewählten Normierung ab. Hierfür existieren zeitig wirken sich hier Unterschiede in den
unterschiedliche Möglichkeiten, auf die wir Personmerkmalen stärker hinsichtlich der Lö-
noch kurz zu sprechen kommen. Für das Ver- sungswahrscheinlichkeit aus als an den ande-
ständnis des Folgenden genügt es zu wissen, ren Stellen, da die Kurven an ihrem Wende-

113
4 Modelle psychologischen Testens

1.0

Lösungswahrscheinlichkeit
0.8

0.6 Item 1 2 3

0.4

0.2

Abb. 4.5 0.0


Itemcharakteristiken des 1PL-Modells.
Die Schwierigkeiten der Items sind −2 −6 −4 −2 0 2 4 6

(Item 1), 0 (Item 2) und 3 (Item 3). Merkmalsausprägung

punkt am schnellsten steigen. Wie wir gleich Logit-Formulierung


noch darstellen werden, bedeutet dies, dass
die Information, die wir durch ein Item über
Das 1PL-Modell lässt sich in einer anderen,
die Merkmalsausprägung gewinnen, an die-
mathematisch äquivalenten Form schreiben,
sem Punkt am höchsten ist und mit zunehmen-
in der nicht die Lösungswahrscheinlichkeiten,
der Distanz geringer wird.
sondern bestimmte Transformationen der Lö-
Das 1PL-Modell kann um eine multiplikati- sungswahrscheinlichkeiten als abhängige Grö-
ve Konstante a ergänzt werden, die steilere ßen betrachtet werden. Verwendet wird die
oder flachere Itemcharakteristiken als die in Logit-Transformation, die durch
I Abb. 4.5 gezeigten zulässt. Das ergänzte
Modell lautet p
logit(p) = ln
1− p
exp[a(θ − b j )]
P(X j = 1 | θ ) = . (4.14)
1 + exp[a(θ − b j )] definiert ist. Dabei ist p ein Wahrscheinlich-
keitswert und ln der natürliche Logarithmus.
Für a = 1 erhalten wir das ursprüngliche
Modell (4.13). Für a > 1 resultieren steile- Der Teilausdruck p/(1 − p) heißt Wettquoti-
re (schneller ansteigende) Kurven, für a < 1 ent (englisch odds ratio). In unserem Kon-
entsprechend flachere (langsamer steigende). text gibt dieser Ausdruck an, wie hoch die
Diesen Steigungen korrespondieren im klas- Wahrscheinlichkeit, ein Item zu lösen, relativ
sischen Modell die Trennschärfen, im Fakto- zur Wahrscheinlichkeit, es nicht zu lösen, aus-
renmodell die Ladungen der Items, die in der fällt. Für eine Lösungswahrscheinlichkeit von
Item-Response-Theorie als Diskrimination be- 0.75 ergibt sich zum Beispiel ein Wettquoti-
zeichnet werden. Das Rasch-Modell schreibt ent von 3 (die Chancen stehen hier 75:25 oder
also keine bestimmte Diskrimination vor. We- 3:1 für die Lösung). Dieser Teil der Trans-
sentlich ist jedoch, dass alle Itemdiskrimina- formation bewirkt, dass die nach unten und
tionen gleich sein müssen. Ist dies nicht der oben geschlossene Wahrscheinlichkeitsskala
Fall, passt das Modell nicht auf die Daten. auf eine nach oben offene Skala gestreckt wird.

114
4.2 Item-Response-Theorie

Tab. 4.7
Wahrscheinlichkeit Wettquotient Logit
Wettquotienten und Logits für
ausgewählte Wahrscheinlichkeiten
0.01 0.01 −4.60
0.05 0.05 −2.94
0.10 0.11 −2.20
0.25 0.33 −1.10
0.50 1 0
0.75 3 1.10
0.90 9 2.20
0.95 19 2.94
0.99 99 4.60

Der zweite Teil der Transformation, die Lo- (4.14) anwenden, erhalten wir
garithmierung, öffnet auch die untere Gren-
ze, die beim Wettquotienten bei 0 liegt (für logit[P(X j = 1 | θ )] = θ − b j (4.15)
p = 0). Die Logit-Transformation liefert also bzw.
eine nach oben und unten offene Skala, die für
kleine Wahrscheinlichkeitswerte gegen −∞, logit[P(X j = 1 | θ )] = a(θ − b j ). (4.16)
für große Werte gegen ∞ strebt. Bei p = .5
ergibt sich ein Wert von 0. I Tab. 4.7 zeigt Für die logit-transformierten Wahrscheinlich-
die Wettquotienten und die Logits für einige keiten liefert das Rasch-Modell lineare Re-
ausgewählte Wahrscheinlichkeiten. Die Logit- gressionen mit konstanten Steigungen. Die
Werte stellen monotone Transformationen der logit-transformierten Lösungswahrscheinlich-
Wahrscheinlichkeitswerte dar. Am einfachsten keiten werden als einfache Differenz von Per-
denkt man hierbei an eine alternative Skala sonkennwert und Schwierigkeitskennwert be-
für die Beschreibung der Lösungswahrschein- schrieben, evtl. gewichtet mit einem konstan-
lichkeiten. Wenn wir also sagen, dass die Lö- ten Steigungsparameter.
sungswahrscheinlichkeit für ein Item bei einer Es existieren also zwei äquivalente Wege, den
bestimmten Persongruppe .75 beträgt, können Problemen bei der Anwendung des linearen
wir genauso gut sagen, dass der Logit-Wert des Modells auf Wahrscheinlichkeiten zu entge-
betreffenden Items für die Gruppe 1.1 beträgt. hen: Der eine besteht in der Veränderung der
Die Information ist die gleiche. Logit-Werte Funktionsgleichung, was sicherstellt, dass ihr
sind um einen Wahrscheinlichkeitswert von Wertebereich durch 0 und 1 begrenzt ist – sie-
0.5 symmetrisch, wie man anhand der Tabelle he Gleichung (4.13) –, der andere in der Stre-
erkennen kann. Im Schwierigkeitsbereich, der ckung der Wahrscheinlichkeitsskala auf einen
normalerweise für Testitems in Frage kommt Wertebereich, der nach beiden Seiten hin offen
(p zwischen .05 und .95), variieren die Logit- ist – Gleichung (4.15).
Werte ungefähr zwischen −3 und +3.
Im Rasch-Modell ist es die „Logit-
Warum in Logits anstatt in Wahrscheinlichkei- Formulierung“ (4.15), die den Ansatzpunkt für
ten denken? Die Antwort ist, dass diese klei- weitere Überlegungen liefert. Sie verdeutlicht,
ne Komplikation die Betrachtung der Eigen- dass Personen und Items im Rasch-Modell
schaften des Modells stark vereinfacht. Wenn auf einer gemeinsamen Skala lokalisiert
wir nämlich die Logit-Transformation auf bei- werden, deren Einheiten logit-transformierte
de Seiten der Modellgleichungen (4.13) bzw. Wahrscheinlichkeiten darstellen.

115
4 Modelle psychologischen Testens

Spezifische Objektivität ein beliebiges Item j aus dieser Menge heran.


Für die Logitvariablen erhalten wir hier
Eine besondere Eigenschaft von Items bzw. logit(P1 j ) = θ1 − b j für Person 1 und
Tests, die dem Rasch-Modell genügen, liegt logit(P2 j ) = θ2 − b j für Person 2.
darin, dass spezifisch objektive Vergleiche er-
möglicht werden. Vergleicht man nun die transformierten
Lösungswahrscheinlichkeiten der Personen
durch Bildung des Differenzwerts,
Spezifische Objektivität
logit(P1 j ) − logit(P2 j ) = θ1 − b j − θ2 + b j
Allgemein gesprochen sind Messungen spe-
zifisch objektiv, wenn = θ1 − θ2 ,

• Vergleiche zwischen den gemessenen so ist ersichtlich, dass der Schwierigkeitspara-


Objekten nicht davon abhängen, welche meter herausfällt. Die Differenz der transfor-
Instrumente zur Messung herangezogen mierten Lösungswahrscheinlichkeiten zweier
werden und Personen für beliebige Items hängt also allein
• Vergleiche zwischen Instrumenten nicht von der Differenz ihrer Merkmalsausprägun-
von den Objekten abhängen, die für den gen ab. Welches besondere Item für die Mes-
Vergleich verwendet werden. sung eingesetzt wird, ist irrelevant.
Die zweite Invarianzeigenschaft, die Itemver-
gleiche betrifft, lässt sich in analoger Weise de-
Dieser Begriff der Objektivität ist nicht iden-monstrieren. Für den Vergleich des Funktionie-
tisch mit dem in Kapitel 3 behandelten Test- rens zweier Items mit den Schwierigkeitspa-
gütekriterium gleichen Namens; er bringt viel- rametern b1 und b2 betrachten wir wiederum
mehr einen neuen Aspekt ins Spiel. Spezifisch die Differenz der Logit-Werte, diesmal jedoch
objektive Vergleiche sind invariant gegenüber bei „beliebigen“ Personen mit der Merkmals-
Instrumenten (in unserem Kontext: Items bzw. ausprägung θi . Wir erhalten
Tests) und Objekten (in unserem Kontext: Per-
logit(Pi1 ) = θi − b1 für Item 1 und
sonen). Rasch sah hierin ein wesentliches Prin-
zip wissenschaftlich begründeter Messungen logit(Pi2 ) = θi − b2 für Item 2.
(vgl. Fischer, 1988). Bildet man die Differenz, so ergibt sich b2 −
b ; der Personparameter fällt also heraus. Für
Betrachten wir zunächst die Vergleiche zwi- 1
Itemvergleiche sind also die Personwerte ir-
schen Personen. Spezifisch objektive Verglei-
relevant: Die Ergebnisse solcher Vergleiche
che zwischen Personen sind danach invariant
hängen allein von den Schwierigkeitsparame-
gegenüber den Items, die zur Messung des
tern ab.
Merkmals herangezogen werden. Dies bedeu-
tet, dass Ergebnisse des Vergleichs zweier Per- Im Ein-Faktor-Modell und den anderen noch
sonen mit den Merkmalsausprägungen θ1 und zu besprechenden Item-Response-Modellen
θ2 nicht von den Parametern der Items abhän- ist spezifische Objektivität nicht gewährleistet.
gen, mit denen der Vergleich vorgenommen Wie man sich anhand der entsprechenden Be-
wird. Gehen wir von einer rasch-homogenen rechnungen für das Faktorenmodell verdeutli-
Itemmenge aus, also Items, die zusammen die chen kann, hängen die Ergebnisse von Person-
Gleichungen (4.13) bzw. (4.15) erfüllen. Für vergleichen hier nicht nur von den Faktorwer-
den Vergleich der beiden Personen ziehen wir ten, sondern auch von der Ladung des jeweils

116
4.2 Item-Response-Theorie

herangezogenen Items ab (siehe Gleichung zulässt. Die Elimination von Items kann un-
4.11, S. 110); für die Differenz der Itemwerte ter Umständen zu einer substanziellen Reduk-
zweier Personen ergibt sich λ j ( f1 − f2 ). Für tion der Itemzahl führen, was auch in Item-
ein Item mit hoher Faktorladung resultieren Response-Modellen mit einer entsprechenden
also deutlichere Differenzen im Antwortver- Erniedrigung der Messpräzision einhergeht.
halten als für ein Item mit niedriger Ladung. In Dies kann in einigen Anwendungen nicht ak-
analoger Weise hängen Itemvergleiche nicht zeptabel sein. Auch die Ersetzung gestriche-
allein von den Schwierigkeiten der Items ab. ner Items durch modifizierte, von denen man
In Itemvergleiche gehen darüber hinaus eben- sich eine bessere Modellpassung erhofft, ist
falls die Ladungen, zusätzlich aber noch die manchmal schwer möglich, da die konzeptu-
Faktorwerte der herangezogenen Personen ein. ell treffendsten Items bereits erschöpft sind.
Mit der Verwendung eines erweiterten Mo-
Die Tatsache, dass rasch-homogene Items bzw. dells dagegen werden einige wünschenswerte
Tests spezifisch objektive Vergleiche ermögli- Eigenschaften des 1PL-Modells aufgegeben.
chen, liefert ein starkes Argument für den Ein- Insbesondere genügt das 2PL-Modell nicht der
satz des Modells in der Testkonstruktion. Im Forderung nach spezifischer Objektivität, wie
Hinblick auf die in diagnostischen Anwendun- wir gleich sehen werden.
gen besonders interessierenden Schätzungen
der Personparameter bedeutet spezifische Ob- Das 2PL- oder Birnbaum-Modell stellt eine
jektivität, dass Aussagen über Merkmalsunter- Generalisierung des 1PL-Modells dar, in dem
schiede zweier Personen unabhängig von der unterschiedliche Itemdiskriminationen zuge-
gewählten Normierung der Itemparameter (sie- lassen sind. Die Lösungswahrscheinlichkeiten
he Abschnitt 4.2.7), der Schwierigkeitsvertei- werden hier mit zwei Itemparametern model-
lung der Items sowie den Merkmalsausprägun- liert, nämlich Schwierigkeit (b j ) und Diskri-
gen anderer Personen sind (siehe Rost, 2004). mination (a j ). Für die Formulierung als logis-
Diese Invarianzeigenschaften sind weder im tisches Modell lautet die Modellgleichung
klassischen noch im Faktorenmodell gewähr- exp[a j (θ − b j )]
leistet. P(X j = 1 | θ ) = . (4.17)
1 + exp[a j (θ − b j )]
Für die Formulierung als Logit-Modell lautet
sie
4.2.4 2PL-Modell
logit[P(X j = 1 | θ )] = a j (θ − b j ). (4.18)
Die Voraussetzung konstanter Itemdiskrimi-
Im Unterschied zum Rasch-Modell ist die Dis-
nationen im Rasch-Modell bringt vorteilhafte
krimination hier nicht konstant. Vielmehr kann
Eigenschaften mit sich. Sie macht das Modell
sie von Item zu Item variieren. Das Rasch-
einfach und sichert spezifische Objektivität
Modell ist ein spezieller Fall des Birnbaum-
der Messung. Andererseits wird sie für man-
Modells: Setzt man a j auf einen konstanten
che Tests zu restriktiv sein. Will man bei ei-
Wert (etwa 1), geht das Birnbaum-Modell in
nem eindimensionalen Modell bleiben, steht
das Rasch-Modell über.
man vor der Wahl, entweder Items, die für
die mangelnde Passung des Modells verant- I Abb. 4.6 veranschaulicht die Effekte unter-
wortlich sind, aus dem Test zu eliminieren schiedlicher Diskriminationen auf die Item-
und eventuell durch neue Items zu ersetzen, charakteristiken. Der Diskriminationsparame-
oder ein erweitertes Modell zu verwenden, das ter gibt an, wie schnell sich die Lösungswahr-
unterschiedliche Diskriminationen der Items scheinlichkeiten mit der Merkmalsausprägung

117
4 Modelle psychologischen Testens

1.0
Item 1

Lösungswahrscheinlichkeit
0.8

0.6 Item 3

0.4

Item 2
0.2
Abb. 4.6
Itemcharakteristiken des 2PL-Modells.
Die Schwierigkeiten sind 0, 0 und 1, die 0.0
Diskriminationen sind 1, 0.5 und 0.5
(jeweils in der Reihenfolge der −6 −4 −2 0 2 4 6

Itemnummern). Merkmalsausprägung

verändern. Er ist ein Maß der Sensitivität eines Rangfolge der Lösungswahrscheinlichkeiten
Items für Merkmalsunterschiede, entspricht al- bei Personen mit θ = 2 für die drei Items
so den Trennschärfen bzw. Ladungen in linea- 1 > 2 > 3. Für Personen mit θ = −2 dagegen
ren Modellen. ist sie 2 > 3 > 1.
Mathematisch stellen die Itemdiskriminatio- Ein derartiger Effekt ist intuitiv wenig plau-
nen die Steigungen der Itemcharakteristiken sibel und könnte als Defekt des 2PL-Modells
an ihrem jeweiligen Wendepunkt b j dar. Für (und des Faktorenmodells) angesehen werden.
ein Item mit dem Schwierigkeitsparameter Natürlich wäre ein solcher Effekt praktisch
b j = 1 ist dies die Steigung am Punkt θ = 1. irrelevant, wenn er erst bei θ -Werten auftritt,
Wie im 1PL-Modell ist dies gleichzeitig der die außerhalb des normalen oder interessie-
Punkt im Merkmalskontinuum, an dem das renden Merkmalsbereichs liegen. Er illustriert
Item am schärfsten zwischen Personen mit jedoch, dass das 2PL-Modell keine spezifisch
unterschiedlichen Ausprägungen der Person- objektiven Messungen liefert. Vergleiche zwi-
variablen differenziert. schen den Items hängen hier von den jeweils
betrachteten Personen ab. Bei Personen mit
Eine bemerkenswerte Eigenschaft des 2PL- θ < 0 würde Item 2 leichter erscheinen als
Modells, die es mit dem linearen Faktorenmo- Item 1, bei Personen mit θ > 0 wäre dies um-
dell teilt, besteht darin, dass sich Itemcharak- gekehrt.
teristiken mit unterschiedlichen Diskrimina-
tionen auch in nichtextremen Bereichen des
Merkmalskontinuums überschneiden können.
In den Beispielkurven betrifft dies Item 1 (fet- 4.2.5 3PL-Modell
te Kurve), dessen Charakteristik sich mit der
der beiden anderen Items kreuzt. Dies hat Im 1PL- und 2PL-Modell nähern sich die
die Konsequenz, dass die Rangfolge der Lö- Lösungswahrscheinlichkeiten mit sinkender
sungswahrscheinlichkeiten bei Personen mit Merkmalsausprägung asymptotisch dem Wert
unterschiedlicher Merkmalsausprägung diffe- 0. Diese Annahme wird bei manchen Tests
rieren kann. In unserem Beispiel ist etwa die nicht für alle Items realistisch sein. Bei

118
4.2 Item-Response-Theorie

1.0

Lösungswahrscheinlichkeit
0.8 bj = 1, aj = 1

0.6

0.4

c2 = 0.25
0.2

c1 = 0
0.0

Abb. 4.7 −6 −4 −2 0 2 4 6

Itemcharakteristiken des 3PL-Modells. Merkmalsausprägung

Fähigkeits- und Leistungstests, in denen ein bereich gemacht werden. Bei Fähigkeits- und
Mehrfachwahlformat verwendet wird, besteht Leistungstests wird es allerdings in der Regel
für Personen, welche die korrekte Antwort tatsächlich so sein, dass Items in unterschiedli-
nicht kennen, eine gewisse Wahrscheinlich- chem Maße für Raten anfällig sind. Die Grund-
keit, das Item durch Raten zu lösen. Dies gleichung des resultierenden 3PL-Modells lau-
macht sich darin bemerkbar, dass die unte- tet:
re Asymptote der Itemcharakteristik größer
als 0 ausfällt: Sie wird ungefähr der Ratewahr- P(X j = 1 | θ ) =
scheinlichkeit entsprechen (1 / Anzahl der Ant- exp[ai (θ − bi )]
wortoptionen). Auch beim offenen Antwortfor- ci + (1 − ci ) . (4.19)
1 + exp[ai (θ − bi )]
mat können Ratetendenzen eine gewisse Rolle
spielen. Im Allgemeinen wird man hier jedoch
Wie ersichtlich, stellt dieses Modell eine Er-
versuchen, die Items so zu formulieren, dass
weiterung der bislang skizzierten Modelle dar,
entsprechende Effekte zu vernachlässigen sind.
das für c j = 0 (bei keinem Item wird „gera-
In Tests zur Messung von motivationalen Per-
ten“) in das Birnbaum-Modell übergeht. Auch
sönlichkeitseigenschaften, Einstellungen usw.
mit dem 3PL-Modell sind spezifisch objektive
können sich im Prinzip ebenfalls Asymptoten
Vergleiche nicht gewährleistet.
größer als 0 ergeben. Sie spielen hier aller-
dings keine so große Rolle wie in Fähigkeits- I Abb. 4.7 illustriert den Effekt des Ratepara-
tests. meters. Im Beispiel beträgt er für Item 2 c2 =
0.25. Generell gibt er die asymptotische Lö-
Um Ratetendenzen zu berücksichtigen, muss sungswahrscheinlichkeit an, die Personen mit
ein dritter Itemparameter ci in die Modellglei- niedriger Merkmalsausprägung erreichen. Ein
chung eingeführt werden. Er wird Rateparame- Wert von 0.25 wäre für ein Multiple-Choice-
ter oder Pseudo-Rateparameter genannt. Die Item mit vier Antwortoptionen zu erwarten,
Qualifikation „Pseudo“ soll andeuten, dass wenn (a) alle Optionen für Personen, die die
hier keine Annahmen über die Grundlage von Antwort nicht kennen, gleich attraktiv sind und
Asymptoten größer Null im unteren Merkmals- (b) all diese Personen raten.

119
4 Modelle psychologischen Testens

4.2.6 Lokale Unabhängigkeit wir nun merkmalshomogene Subpopulatio-


nen, so bedeutet dies, dass die Varianzquel-
len durch Konstanthalten ausgeschaltet wer-
Bislang wurden einige der basalen Eigen- den: innerhalb dieser Populationen variieren
schaften logistischer Testmodelle anhand ihrer die Faktoren nicht. Folglich müssen Abhän-
Grundgleichungen beschrieben. Diese Grund- gigkeiten zwischen den Items, die auf diese
gleichungen sind (ganz wie beim Faktorenmo- Quellen zurückgehen, verschwinden. Im Rah-
dell) nicht als Rechenformeln anzusehen, die men der Item-Response-Theorie ist es üblich,
man nach den interessierenden Person- und das „Verschwinden“ der Zusammenhänge un-
Itemparametern auflösen könnte. Vielmehr for- ter den Items bei Konstanthalten der zugrunde
mulieren sie einschränkende Bedingungen für liegenden Merkmale als lokale Unabhängig-
Items, die – im Sinne des jeweiligen Modells keit oder genauer lokale stochastische Unab-
– homogen sind, also den in den Gleichun- hängigkeit zu bezeichnen. Die Qualifikation
gen formulierten Bedingungen genügen. Um „lokal“ meint dabei, dass Unabhängigkeit für
Person- und Itemparameter in empirischen An- jeden Ort in dem betrachteten latenten Merk-
wendungen schätzen zu können, müssen wei- malsraum besteht.
tere einschränkende Bedingungen (Restriktio-
nen) formuliert werden. Die wichtigste ist die Im Ein-Faktor-Modell wird nur eine Quelle an-
sog. lokale Unabhängigkeit. genommen, die für die Kovariation der Items
verantwortlich ist; dies ist eine relativ strikte
Annahme. Auch in den hier betrachteten Item-
Lokale Unabhängigkeit Response-Modellen wird diese Annahme ge-
macht: Es handelt sich um eindimensionale
Lokale Unabhängigkeit bedeutet, dass sich Modelle. Entsprechend bezieht sich lokale Un-
die Zusammenhänge unter den Items voll- abhängigkeit auf die einzelnen Punkte in ei-
ständig durch das Modell (seine Person- nem Merkmalskontinuum. Die Begriffe lokale
und Itemparameter) erklären lassen. Sie Unabhängigkeit und Dimensionalität sind eng
liegt vor, wenn innerhalb merkmalshomo- miteinander verknüpft.
gener Subpopulationen keine Abhängigkei-
ten zwischen den Itemvariablen existieren.
Definition: Dimensionalität

Die Dimensionalität eines Tests ist die Zahl


Für das Verständnis des Konzepts ist ein Rück- der den Antworten zugrunde liegenden la-
griff auf das Faktorenmodell nützlich. Auch tenten Merkmale, die angenommen werden
Faktoren klären die statistischen Zusammen- müssen, um lokale Unabhängigkeit zu er-
hänge zwischen den Items eines Tests in dem reichen. Eindimensionale Modelle gehen
Sinne auf, dass in Subpopulationen mit fixier- davon aus, dass hierfür ein latentes Merk-
ten Faktorwerten die Kovarianzen zwischen mal genügt.
den Items den Wert 0 annehmen. Dies klingt
zunächst kontraintuitiv, da die Items in der Ge-
samtpopulation ja positiv miteinander korre- Es existieren zwei unterschiedlich starke For-
lieren. Im Faktorenmodell werden die Zusam- men der lokalen Unabhängigkeit. Schwache
menhänge zwischen den Items auf gemeinsa- (oder bivariate) lokale Unabhängigkeit meint,
me Varianzquellen zurückgeführt. Diese Va- dass in einer Subpopulation mit fixierten laten-
rianzquellen – die Faktoren – bedingen die ten Merkmalen die Items paarweise unabhän-
Abhängigkeiten unter den Items. Betrachten gig sind. Diese Form liegt der Faktorenanalyse

120
4.2 Item-Response-Theorie

zugrunde. In ihr werden nur die bivariaten Zu- bestehenden Test 0.2, 0.4 und 0.9. Bei Vorlie-
sammenhänge (also Kovarianzen oder Korrela- gen der starken Form der lokalen Unabhängig-
tionen) unter den Antwortvariablen erklärt und keit muss die Wahrscheinlichkeit, alle Items
für die Schätzung der Modellparameter heran- zu lösen, dort 0.2 · 0.4 · 0.9 = 0.072 betragen,
gezogen. Die starke Form der lokalen Unab- die Wahrscheinlichkeit, nur Item 3 zu lösen
hängigkeit fordert dagegen nicht nur bivariate, (1 − 0.2) · (1 − 0.4) · 0.9 = 0.432 usw.
sondern vielmehr vollständige Unabhängig-
keit der Antwortvariablen in Subpopulationen Es ist deutlich, dass starke lokale Unabhän-
mit fixierten latenten Merkmalen. Wird der gigkeit strengere Anforderungen stellt als die
Begriff lokale Unabhängigkeit ohne weitere schwache. Liegt starke lokale Unabhängigkeit
Qualifikation verwendet, bezieht man sich da- vor, ist immer auch die schwache erfüllt. Um-
bei auf die starke Form. gekehrt kann es jedoch prinzipiell sein, dass
schwache lokale Unabhängigkeit gegeben, die
Formal bedeutet die schwache Form der Un- starke jedoch verletzt ist. In diesem Fall müss-
abhängigkeit, dass die Wahrscheinlichkeit für ten zur Erfüllung der starken Form mehr Merk-
die Lösung zweier Items j und k in merkmals- male (und damit Personparameter) eingeführt
homogenen Subpopulationen identisch ist mit werden als zu der der schwachen.
dem Produkt ihrer Lösungswahrscheinlichkei-
Lokale Unabhängigkeit muss bei der Schät-
ten. (Dies ist die Definition der Unabhängig-
zung der Personparameter in Item-Response-
keit für zwei Ereignisse.) Notieren wir die
Modellen vorausgesetzt werden. Einige Me-
Wahrscheinlichkeit, dass beide Items gelöst
thoden zur Schätzung der Parameter nutzen
werden mit P(X j = 1, Xk = 1 | θ ), so muss für
dabei die ganze Information im Antwortmus-
jedes Itempaar eines Tests gelten
ter, wie es der starken Form der lokalen Un-
abhängigkeit entspricht. Sie heißen entspre-
P(X j = 1, Xk = 1 | θ ) = Pj (θ )Pk (θ ) chend full information methods. Andere Me-
thoden stützen sich lediglich auf die bivaria-
Für zwei Items mit den Lösungswahrschein- te Information, verwenden also die schwache
lichkeiten von 0.5 und 0.4 in einer merkmals- Form der lokalen Unabhängigkeit. Hier wird
homogenen Gruppe muss zum Beispiel die argumentiert, dass es die Standardprozeduren
Wahrscheinlichkeit, beide Items zu lösen, bei für die Formulierung und Zusammenstellung
Unabhängigkeit 0.2 betragen. Gilt diese Be- von Testitems in realen Anwendungen ausge-
ziehung nun für alle Itempaare und alle Orte sprochen unwahrscheinlich machen, dass das
auf dem Merkmalskontinuum, wäre die Be- schwache Prinzip erfüllt, das starke dagegen
dingung schwacher lokaler Unabhängigkeit verletzt ist (McDonald, 1999).
erfüllt.
In praktischen Anwendungen wird die Dimen-
Starke lokale Unabhängigkeit fordert mehr. sionalität eines Tests oft über faktorenanalyti-
Dies drückt sich darin aus, dass hier nicht sche Techniken geprüft. Wie in Abschnitt 4.2.1
nur die Lösungswahrscheinlichkeiten für Item- dargestellt wurde, führt dies bei binären Items
paare herangezogen werden müssen; vielmehr jedoch zu dem Problem, dass die Ergebnisse
muss das ganze Antwortmuster betrachtet wer- einer Faktorenanalyse die Existenz von mehr
den, also alle Kombinationen aus Lösungen latenten Variablen nahelegen kann, als zur Er-
und Nichtlösungen einzelner Items. Nehmen klärung der Antworten wirklich benötigt wer-
wir an, für einen spezifischen Ort auf dem den („Schwierigkeitsfaktoren“). Diesem Pro-
Merkmalskontinuum betrügen die Lösungs- blem kann man begegnen, indem man Fakto-
wahrscheinlichkeiten für einen aus drei Items renanalysen nicht auf der Basis von Kovarian-

121
4 Modelle psychologischen Testens

zen oder (Produkt-Moment-) Korrelationen be- Weise berechnen, vielmehr müssen sie auf
rechnet, sondern auf der Grundlage sog. tetra- der Basis der Testdaten geschätzt werden. Bei
chorischer Korrelationen. Tetrachorische Kor- diesen Schätzungen werden zwei Vorausset-
relationen ermöglichen es (unter bestimmten zungen gemacht. Erstens wird vorausgesetzt,
Annahmen), die Höhe der Korrelation zweier dass die jeweils zugrunde gelegte Modellglei-
quantitativer Variablen zu schätzen, für die le-chung gültig ist, beim Rasch-Modell also die
diglich binäre Indikatoren verfügbar sind. Sie Gleichung 4.13, beim Birnbaum-Modell die
fallen generell höher aus als die entsprechen- Gleichung 4.17, beim 3PL-Modell die Glei-
den Produkt-Moment-Korrelationen, insbeson- chung 4.19. Zweitens wird vorausgesetzt, dass
dere für Items unterschiedlicher Schwierigkeit. lokale Unabhängigkeit erfüllt ist. In diesem
Mit diesem Vorgehen wird die schwache Form Abschnitt skizzieren wir, wie sich die interes-
der lokalen Unabhängigkeit getestet. sierenden Kennwerte schätzen lassen, wenn
beide Voraussetzungen erfüllt sind. Wir bezie-
Ist lokale Unabhängigkeit verletzt, so lassen
hen uns dabei auf das Rasch-Modell.
sich die Antworten nicht auf ein latentes Merk-
mal zurückführen. Im Rahmen des Hauptan-
wendungsbereichs der Modelle, Fähigkeits-
Itemparameter
und Leistungstests, kann dies etwa bedeuten,
dass In Abschnitt 4.2.3 wurde als eine bemer-
• die Lösung eines Items die eines anderen kenswerte Eigenschaft des Rasch-Modells der
begünstigt oder sogar voraussetzt, Sachverhalt herausgehoben, dass Itemverglei-
• sich im Testverlauf differenzielle Lern- oder che von den Personwerten unabhängig sind:
Transfereffekte einstellen, Für die Differenz zweier Itemparameter macht
• der Test Itempaare oder -gruppen umfasst, es keinen Unterschied, welche Personen oder
die in sehr ähnlicher Weise formuliert sind, Persongruppen jeweils betrachtet werden. Aus
• die Beantwortung einiger Items an Bedin- dieser Invarianzeigenschaft (und lokaler Unab-
gungen geknüpft ist, die nicht bei allen Per- hängigkeit) lässt sich ableiten, dass die Diffe-
sonen vorliegen. renz zweier Schwierigkeitsparameter der fol-
genden Bedingung genügt:
Ein häufig genanntes Beispiel für den letz-
ten Punkt ist ein für die Erfassung mathemati- P(X j = 0, Xk = 1)
scher Fähigkeiten konzipierter Test, der einige b j − bk = ln . (4.20)
P(X j = 1, Xk = 0)
schwer verständliche Textaufgaben umfasst.
In diesen Aufgaben würden neben mathema- Ist zum Beispiel die Wahrscheinlichkeit, dass
tischen auch sprachliche Kompetenzen eine Item k gelöst wird, Item j aber nicht, 0.20, die
Rolle spielen, die eventuell nicht bei allen Per- Wahrscheinlichkeit, dass Item j gelöst wird,
sonen vorausgesetzt werden können. Konse- Item k aber nicht, 0.10, ergibt sich hier eine
quenz ist, dass die Assoziationen unter den positive Differenz von
Items stärker ausfallen werden als unter Zu- 0.20
grundelegung nur eines latenten Merkmals zu b j − bk = ln = ln(2) ≈ 0.69.
0.10
erwarten ist.
Item j ist also schwieriger als Item k. Der Wert
von 0.69 ist der horizontale Abstand der Item-
4.2.7 Parameterschätzung charakteristiken. Bei gleicher Schwierigkeit
würden sich Werte von 0 ergeben. Wäre Item
Item- und Personkennwerte lassen sich in j leichter als Item k, würde ein negativer Wert
Item-Response-Modellen nicht in direkter resultieren.

122
4.2 Item-Response-Theorie

Diese Berechnungen können wir paarweise Personwerte


für alle Items eines Tests anstellen. Um nun
eine Skala für die Schwierigkeitsparameter zu Wenn die Itemparameter vorliegen, können die
gewinnen, kann man ein beliebiges Item her- Personwerte auf der Basis der Antwortmuster
ausgreifen und ihm den Schwierigkeitswert geschätzt werden. Eine direkte Berechnung
0 zuordnen. Die Schwierigkeitsparameter der ist auch hier nicht möglich. Was jedoch be-
übrigen Items werden dann relativ zu diesem rechnet werden kann, ist die Wahrscheinlich-
Item ausgedrückt. Die Wahl eines Items für keit, mit der ein gegebenes Antwortmuster bei
die Normierung entspricht der Festlegung ei- Personen mit einem bestimmten Wert von θ
nes Ankerpunkts der Skala. Wenn wir im Bei- vorkommt. Maximum-Likelihood-Methoden
spiel Item j als Ankerpunkt wählen, ergibt kann man sich als numerische Suchprozeduren
sich für Item k ein Schwierigkeitsparameter vorstellen; sie suchen nach Parameterwerten,
von −0.69; wird Item k gewählt, resultiert für hier einem Wert θ , für den die Wahrschein-
Item j ein Parameterwert von 0.69. lichkeit eines Antwortmusters bei Geltung des
Modells maximal wird. Derartige, nachträg-
Man kann hier jede Konstante addieren oder lich berechnete Wahrscheinlichkeiten heißen
subtrahieren, ohne dass sich die übrigen Ska- Likelihoods (im Unterschied zu probabilities,
leneigenschaften verändern. Häufig wählt man die sich auf Erwartungen künftiger Ereignisse
die Konstante so, dass die Summe aller Item- beziehen). Der Wert mit der maximalen Wahr-
parameter den Wert 0 ergibt, ∑ b j = 0. Die- scheinlichkeit/Likelihood liefert den Schätz-
se Art der Normierung heißt Summennor- wert für Personen mit dem entsprechenden
mierung. Bei der Summennormierung erhält Antwortmuster.
ein Item mit durchschnittlicher Lösungswahr-
scheinlichkeit (bezogen auf die anderen Items Betrachten wir zur Verdeutlichung einen Test,
des Tests) den Schwierigkeitswert 0. Praktisch der aus vier Items besteht. Es sei das 1PL-
werden die in Gleichung (4.20) auftauchen- Modell zugrunde gelegt worden und die
den Wahrscheinlichkeiten durch die entspre- Schwierigkeitsparameter der Items seien ge-
chenden relativen Häufigkeiten geschätzt. Wir schätzt worden mit
besitzen damit die Möglichkeit, die Itempara- b1 = −1,
meter auf der Grundlage empirischer Daten zu
b2 = 0,
bestimmen.
b3 = 1 und
Hier entsteht allerdings das Problem, dass sich
b4 = 2.
mehr Wahrscheinlichkeitsverhältnisse berech-
nen lassen als zur Etablierung der Skala benö- Wir wollen nun den Personkennwert für Perso-
tigt werden. Würden nur die paarweisen Ver- nen mit dem Antwortmuster (1, 1, 0, 0) schät-
hältnisse herangezogen, könnten entsprechend zen, d. h. die beiden ersten (leichten) Items
unterschiedliche Schätzwerte resultieren. Ge- wurden gelöst, die beiden letzten (schwieri-
eignete Schätzwerte lassen sich jedoch durch gen) dagegen nicht. Hierbei müssen wir von
numerische Prozeduren finden. In Program- der Voraussetzung lokaler Unabhängigkeit
men zur Schätzung der Itemparameter werden ausgehen. Bei lokaler Unabhängigkeit können
hierzu, wie in der Faktorenanalyse, Varianten wir die Likelihood L dieses Antwortmusters
der Maximum-Likelihood-Schätzung verwen- für jeden beliebigen Wert von θ aus
det. Auf eine Darstellung dieser komplexen
L(θ ) = P1 (θ ) P2 (θ ) Q3 (θ ) Q4 (θ ) (4.21)
Algorithmen verzichten wir hier. Ihr Prinzip
soll aber anhand der Schätzung der Personpa- errechnen. Wie bereits besprochen, vertreten
rameter zumindest veranschaulicht werden. Pj (θ ) und Q j (θ ) die Wahrscheinlichkeiten

123
4 Modelle psychologischen Testens

für korrekte und inkorrekte Antworten. Die entnehmen, dass die Likelihood bei einem θ -
Werte Pj (θ ) erhalten wir aus der Modell- Wert von 0.5 ihre Maximum erreicht. Dieser
gleichung, indem wir dort die entsprechen- Wert wäre in unserem Fall der gesuchte Schätz-
den Itemparameter b j und einen bestimmten wert für Personen, die dieses Antwortmuster
Personkennwert einsetzen. Q j (θ ) ergibt sich aufweisen.
aus 1 − Pj (θ ). Dies funktioniert im 2PL- und
Im Beispielfall hätten wir den Personwert in
3PL-Modell in ganz analoger Weise, aller-
relativ einfacher Weise eingrenzen können.
dings müssen hier im Unterschied zum Rasch-
Hier wurden die beiden einfachen Items 1 und
Modell natürlich auch für die Diskriminations-
2 gelöst, die beiden schwierigen Items 3 und
und Rateparameter Schätzwerte vorliegen.
4 dagegen nicht. Da Person- und Itemparame-
Für die Berechnung der Likelihood des Ant- ter im Rasch-Modell auf der gleichen Skala
wortmusters setzen wir nun probeweise einen lokalisiert werden, wissen wir also von vorn-
Personwert von 0 ein und berechnen die vier herein, dass der dem Antwortmuster zuzuord-
Antwortwahrscheinlichkeiten auf der Basis nende Personwert zwischen dem Schwierig-
der Modellgleichung (4.13). Wir erhalten keitskennwert von Item 2 (b2 = 0) und Item
3 (b2 = 1) liegen muss. Entsprechendes gilt
P1 = exp(0 − (−1)) / (1 + exp(0 − (−1))) auch für das Antwortmuster (1, 1, 1, 0), dessen
= 0.731, Likelihood-Funktion ebenfalls in I Abb. 4.8
dargestellt ist.
P2 = exp(0 − 0) / (1 + exp(0 − 0))
= 0.5, Betrachten wir die dritte der in der Abbil-
dung gezeigten Likelihood-Funktionen, die
Q3 = 1 − exp(0 − 1) / (1 + exp(0 − 1)) man für das Antwortmuster (1, 0, 1, 0) er-
= 0.731, halten würde. Sie illustriert eine besondere
Q4 = 1 − exp(0 − 2) / (1 + exp(0 − 2)) Eigenschaft des Rasch-Modells. Wie im An-
= 0.881. fangsbeispiel werden hier jeweils zwei Auf-
gaben gelöst, die Testsummenwerte sind al-
so 2. Auch die Likelihood-Funktionen errei-
Durch Multiplikation der vier Werte erhalten chen ihr Maximum an der gleichen Stelle; den
wir die Likelihood des Antwortmusters für den beiden Antwortmustern wird also der gleiche
θ -Wert von 0, also L(θ = 0). Sie beträgt hier Personwert von 0.5 als Schätzer zugeordnet.
0.235. Um nun denjenigen θ -Wert zu ermit- Es ist eine wesentliche Eigenschaft des Rasch-
teln, bei dem die Likelihood ihren maximalen Modells, dass alle Antwortmuster, die den glei-
Wert erreicht, können wir probeweise weitere chen Testsummenwert ergeben, ihre maxima-
Personwerte einsetzen, die den Bereich abde- le Likelihood an der gleichen Stelle besitzen.
cken, in dem der Parameterwert liegen kann. Für sie wird jeweils der gleiche Personwert
Dies würde es erlauben, das Maximum der geschätzt. Tatsächlich ist der Personwert ei-
Likelihood einzugrenzen. Wir würden dann ne monotone, leicht kurvilineare Funktion des
verschiedene Werte der Likelihood-Funktion Testsummenwerts. Technisch gesprochen lie-
erhalten. Sie beschreibt die Likelihood eines fert der Testsummenwert im Rasch-Modell ei-
Antwortmusters als Funktion der Personwerte. ne erschöpfende Statistik für den Personwert.
Für I Abb. 4.8 wurden diese Berechnungen Dies meint, dass bei Gültigkeit des Modells
für viele Werte in einem Bereich von θ = −1 der Summenwert die einzige Information ist,
und θ = 3 durchgeführt. Die fette Linie stellt die wir aus dem Antwortmuster benötigen, um
die Likelihood-Funktion unseres Beispielant- den Personwert bestimmen zu können. Wel-
wortmusters (1, 1, 0, 0) dar. Der Kurve ist zu che spezifischen Items gelöst oder nicht ge-

124
4.2 Item-Response-Theorie

(1,1,1,0)
0.30
(1,1,0,0)
0.25

Likelihood
0.20

0.15

(1,0,1,0)
0.10

0.05
(0,0,1,1)
Abb. 4.8
Likelihood-Funktionen für vier −1 0 1 2 3

Antwortmuster in einem Test. Merkmalsausprägung

löst wurden, ist für die Schätzung also irre- sonparameter verdient als das Muster (1, 1, 0,
levant. Im 1-PL-Modell liefern die einfachen 0), in dem allein die beiden leichten Aufga-
Testsummenwerte im Allgemeinen sehr gute ben gelöst werden. Es ist für das Verständnis
Näherungen für die Personparameter. Im 2PL- der behandelten Testmodelle essenziell nach-
Modell und im 3PL-Modell ist dies nicht der zuvollziehen, weshalb die Intuition hier in die
Fall: Hier müssen bei der Schätzung auch die Irre führt.
Diskriminationen bzw. die Rateparameter der
Items berücksichtigt werden. Dies kann man sich am Verlauf der Likelihood-
Die Tatsache, dass die Information, die für die Funktion klarmachen. Die Likelihood-Werte
Schätzung der Personwerte benötigt wird, be- liegen beim zweiten Muster generell deutlich
reits im Testsummenwert steckt, ist neben der unter den Werten des ersten Musters. Beim
spezifischen Objektivität ein zweites zentra- dritten Muster (0, 0, 1, 1), dessen Likelihood-
les Merkmal des Rasch-Modells. Zwei Punk- Funktion unten in der Abbildung angedeutet
te, die den Testsummenwert als erschöpfende ist, wird das noch deutlicher: das Maximum
Statistik betreffen, sollen kurz angesprochen ist in der Abbildung kaum zu erkennen. Die
werden (siehe Rost, 1999, für eine detaillierte beiden letzten Muster sind unter Zugrundele-
Diskussion). gung des Rasch-Modells also insgesamt we-
niger wahrscheinlich als das erste (vgl. die
Der erste bezieht sich auf einen Einwand, der Flächenanteile unter den Kurven). Etwas sa-
sich besonders bei der Anwendung des Rasch- lopp kann man sagen, dass das Rasch-Modell
Modells auf Leistungstests aufdrängen könnte: diese Muster zwar nicht verbietet, jedoch (und
Personen mit den Antwortmustern (1, 1, 0, 0), dies betrifft besonders das dritte Muster) ihr
(1, 0, 1, 0) und (0, 0, 1, 1) haben zwar die Auftreten nur mit geringer Wahrscheinlichkeit
gleiche Zahl von Items gelöst; hierunter befin- zulässt. Treten sie häufiger auf, sind die Mo-
den sich aber bei den beiden letzten Gruppen dellannahmen verletzt. Es ist naheliegend, Ant-
schwierigere Items. Besonders das Muster (0, wortmuster, die dem dritten ähneln, damit zu
0, 1, 1), in dem zwei schwierige Aufgaben ge- erklären, dass einige sehr fähige Personen mit
löst werden, hätte intuitiv einen höheren Per- leichten Aufgaben unterfordert sind und ihnen

125
4 Modelle psychologischen Testens

hier manchmal Flüchtigkeitsfehler unterlaufen. wird in Item-Response-Modellen zur Beschrei-


Für den Test würde dies aber bedeuten, dass bung der Messpräzision eines Items verwen-
hier nicht nur ein Merkmal gemessen wird, die det.
interessierende Fähigkeit, sondern mindestens
zwei, also zum Beispiel zusätzlich Unachtsam-
keit. Die Annahme einer latenten Dimension, Iteminformation
die in den drei hier behandelten Modellen ge- Die Iteminformation beschreibt den Beitrag
macht wird, wäre dann verletzt. eines Items zur Messung des jeweils in Re-
Der zweite Punkt betrifft den Sachverhalt, dass de stehenden Merkmals. Items mit hohen
auch im klassischen Modell Testsummenwerte Informationswerten tragen mehr zur Mes-
als Indikatoren der Ausprägung von Person- sung eines Merkmals bei – reduzieren den
merkmalen verwendet werden. Wenn nun der Messfehler des gesamten Tests stärker – als
Summenwert im Rasch-Modell für die Schät- Items mit niedriger Information.
zung des Personwerts im Prinzip ausreicht,
warum dann den mit dem Einsatz des Modells
in der Testkonstruktion verbundenen erhöh- In der Klassischen Testtheorie und im Fak-
ten Aufwand in Kauf nehmen? Aus der Per- torenmodell werden Standardmessfehler bzw.
spektive der Item-Response-Theorie kann man Iteminformation als konstante, fixe Merkmale
hier antworten, dass erst das Rasch-Modell von Tests bzw. Items in bestimmten Popula-
eine strikte theoretische Begründung für die tionen behandelt. In Item-Response-Modellen
Verwendung von Summenwerten liefert. Im werden sie dagegen als Funktionen der Person-
Rahmen des klassischen Ansatzes existieren kennwerte eingeführt. Hiermit wird berück-
hierfür primär intuitive (die Items korrelieren sichtigt, dass Items und Tests in bestimmten
substanziell) oder pragmatische Argumente Bereichen des Merkmalskontinuums mehr, in
(die Summenwerten sagen bestimmte Kriteri- anderen dagegen weniger informativ sein kön-
en vorher). In einer manchmal vorgebrachten nen als andere Tests bzw. Items. Während die
schärferen Form lautet das Gegenargument, im klassischen Ansatz berechneten Kennwer-
dass die Verwendung von Summenwerten al- te gewissermaßen „Durchschnittswerte“ dar-
lein bei Gültigkeit des Rasch-Modells legitim stellen, die über das Merkmalsspektrum einer
ist, man sich also den erhöhten Aufwand auf Stichprobe berechnet werden und damit die
keinen Fall sparen darf. Dies ist jedoch nicht Präzision von Tests und Items „im Großen und
ganz unstrittig (siehe McDonald, 1999, für ei- Ganzen“ beschreiben, sind die entsprechenden
ne Gegenposition). Größen in Item-Response-Modellen von vorn-
herein spezifisch für bestimmte Bereiche aus
dem Kontinuum.
4.2.8 Informationsfunktion
Informationsfunktionen lassen sich für ein-
Wie wir sahen, kann die Messpräzision eines zelne Items wie für ganze Tests bestim-
Tests im Rahmen des Klassischen Testtheorie men. Betrachten wir zunächst die Informa-
durch seinen Standardmessfehler charakteri- tionsfunktion für einzelne Items, die Item-
siert werden: Je niedriger der Standardmess- Informationsfunktion I j (θ ). Im Rahmen des
fehler, desto höher die Messpräzision. Das 1PL-Modells lässt sich diese Funktion in sehr
Pendant zum Standardmessfehler des Tests einfacher Weise berechnen; es gilt nämlich:
auf Itemebene ist die spezifische Varianz bzw.
ihr Gegenstück, die Iteminformation. Letztere I j (θ ) = Pj (θ ) · Q j (θ ). (4.22)

126
4.2 Item-Response-Theorie

0.30 0.30 0.30


−2 0 1 1.1 0
0.25 0.25 0.25
Iteminformation

0.20 0.20 0.20


0.25
0.15 0.15 0.7 0.15
0.10 0.10 0.10
0.05 0.05 0.05 0.5
0.3
0.00 0.00 0.00
−4 0 2 4 −4 0 2 4 −4 0 2 4
Merkmalsausprägung

Abb. 4.9 Informationsfunktionen für drei Items mit unterschiedlichen Schwierigkeiten (links),
Diskriminationsparametern (Mitte) und Pseudorateparametern (rechts).

Für die Bestimmung der Funktion ist hier für (a < 1) verlaufen als die im linken Teil der
Pj (θ ) bzw. Q j (θ ) wiederum die Modellglei- I Abb. 4.9 gezeigten Kurven.
chung zu verwenden.
Im 2PL-Modell hängen die Informationsfunk-
I Abb. 4.9 (linke Graphik) illustriert die tionen der Items zusätzlich von den Diskrimi-
Funktionen für drei Items unterschiedlicher nationsparametern ab:
Schwierigkeit (b j = −2, 0, und 1). Im 1PL-
I j (θ ) = a2j · Pj (θ ) · Q j (θ ). (4.24)
Modell ergeben sich parallele Kurven, die
sich nur hinsichtlich der Lokation ihres Maxi- Da sich die Diskriminationsparameter von
mums unterscheiden. Es ist ersichtlich, dass Item zu Item unterscheiden können, sind
die Iteminformation jeweils dort ihr Maximum die Verläufe der Informationsfunktion nicht
erreicht, wo sich Schwierigkeit und Merkmals- mehr parallel, wie dies im mittleren Teil der
ausprägung genau entsprechen. Ein Item lie- I Abb. 4.9 für drei Items gleicher Schwierig-
fert dann viel Information über das in Rede keit (b = 0), aber unterschiedlicher Diskrimi-
stehende Merkmal, wenn sich Schwierigkeits- nationsparameter illustriert ist. Der Abbildung
parameter und Personwert die Waage halten. ist zu entnehmen, dass unterschiedliche Item-
Für Personen mit θ = 1 sind also Items mit diskriminationen zwei Effekte besitzen. Das
Schwierigkeiten von b = 1 am informativsten, trennschärfste Item (a = 1.1) liefert, wie man
für Personen mit θ = −2 dagegen Items mit erwarten kann, über einen weiten Bereich des
Schwierigkeiten von b = −2. Dies sind Items Merkmalskontinuums mehr Information als
mit mittlerer Schwierigkeit für die jeweiligen das weniger trennscharfe (a = 0.7). Entfernt
Persongruppen. man sich jedoch von dem Bereich, in dem die
Für Tests mit stärkerer oder geringerer Diskri- Items optimal diskriminieren, kippt das Bild,
mination der Items errechnet sich die Itemin- da sich die Kurven kreuzen. Für Personen
formation aus mit sehr niedriger oder sehr hoher Merkmals-
ausprägung liefert das weniger trennscharfe
I j (θ ) = a2 · Pj (θ ) · Q j (θ ). (4.23) Item auf einmal mehr Information. Ein wenig
trennscharfes Item (a = 0.3) trägt dagegen ge-
Hier ergeben sich wiederum parallele Kurven- nerell kaum Information zur Merkmalsausprä-
verläufe, die jedoch steiler (a > 1) oder flacher gung bei.

127
4 Modelle psychologischen Testens

0.6

Testinformation
0.5

0.4

Information
Iteminformation
0.3
b = −3 b = −1.5 b = 1.8 b = 2.7
0.2

0.1

Abb. 4.10 0.0


Item- und Test- −4 −2 0 2 4
informationsfunktionen. Merkmalsausprägung

Die Informationsfunktionen der Items des extremeren Bereichen, die den Schwierigkei-
3PL-Modells ist etwas komplizierter, da zu- ten der Items korrespondieren. Soll der Test
sätzlich der Rateparameter berücksichtigt wer- in diesem Bereich informativer sein, müssten
den muss. Die rechte Graphik der I Abb. 4.9 Items aufgenommen werden, deren Schwie-
veranschaulicht dessen Effekte für drei Items rigkeiten dem θ -Wert der Talsohle entspricht.
mit gleichen Schwierigkeits- (b = 0) und Dis- Generell erlauben es Informationsfunktionen,
kriminationsparametern (a = 1). Im Vergleich die Items exakt so zusammenzustellen, dass
zum Item, in dem Raten keine Rolle spielt die Testwerte dort gut messen, wo dies für
(c = 0), verlieren Items bei zunehmender Rate- die konkrete Testanwendung am wichtigsten
tendenz an Informationswert; darüber hinaus ist. Wie wir in Kapitel 3 sahen, existieren
verschiebt sich der Punkt, an dem die Items diehierfür im klassischen Ansatz allenfalls un-
maximale Information liefern, leicht in Rich- gefähre Faustregeln. Fragen der Itemselektion
tung höherer Merkmalsausprägungen. und -zusammenstellung lassen sich nur auf
der Grundlage von Item-Response-Modellen
Die Informationsfunktion eines Tests, I(θ )
in wirklich befriedigender Weise beantworten.
lässt sich durch Summierung aller Iteminfor-
mationsfunktionen gewinnen: Die Fehlerbehaftetheit der Schätzung eines
gegebenen Punkts im Merkmalskontinuum ist
I(θ ) = ∑ I j (θ ). (4.25) eine inverse Funktion der Testinformation. Sie
Die einfache Summierung ist möglich, da die wird als Standardschätzfehler bezeichnet und
Items aufgrund der lokalen Unabhängigkeit lautet 1
additive Beiträge zur Testinformation liefern. SE(θ̂ ) = p (4.26)
I Abb. 4.10 illustriert dies für einen Rasch- I(θ )
homogenen Test, der aus vier Items besteht. Der Standardschätzfehler ist das Pendant zum
Da der Beispieltest aus zwei leichten und zwei Standardmessfehler (SEM) in der Klassischen
schwierigen Items zusammengesetzt ist, er- Testtheorie. Im Unterschied zum SEM variiert
gibt sich hier für die Testinformation im Mit- er mit der Ausprägung des Merkmals, ist also
telbereich des Merkmalskontinuums ein Tal. keine „Durchschnittsgröße“, für die dann (un-
Dort liefert der Test also weniger Informati- realistischerweise) angenommen wird, dass
on über die Merkmalsausprägung als in den sie für den ganzen Merkmalsbereich gilt. Bei

128
4.2 Item-Response-Theorie

hinreichend großer Itemanzahl lässt sich mit Monographie sich auch sehr gut zur Vertie-
Hilfe des Standardmessfehlers ein Konfidenz- fung des Themas eignet. Speziellere Anwen-
intervall für den Personwert bestimmen. Für dungen faktorenanalytischer Modelle werden
ein 95 %-Intervall berechnet man zum Bei- bei Eid, Gollwitzer und Schmitt (2011) sowie
spiel θ ± 1.96 · SE(θ̂ ), I Kap. 3.4.2. Auch Moosbrugger und Kelava (2008) behandelt.
summarische Schätzungen der Reliabilität Beaujean (2014) gibt eine praktisch orientier-
sind auf der Basis der Informationsfunktion te, recht umfassende Darstellung von Faktoren-
möglich (siehe Rost, 2004). und anderen Strukturgleichungsmodellen und
führt in deren Berechnung mit Hilfe des Sta-
Informationsfunktionen besitzen eine Reihe tistiksystems R (http://www.r-project.org) ein.
wichtiger Anwendungen. Sie bieten z. B. die
Möglichkeit, die Items eines Test so auszuwäh-
Im zweiten Abschnitt wurden grundlegen-
len, dass sie dem Fähigkeitsniveau der zu tes-
de Begriffe dreier eindimensionaler Item-
tenden Personen in optimaler Weise angepasst
Response-Modelle dargestellt. Wichtige tech-
sind. Dies geschieht beim adaptiven Testen
nische Fragen, wie etwa Möglichkeiten der
(I Kap. 6.7). Eine zweite Anwendungsmög-
Normierung, der Modellkontrolle oder der
lichkeit ist die Zusammenstellung von Tests,
Auswahl zwischen Testmodellen konnten hier
die in bestimmten Bereichen des Merkmals-
nur angedeutet werden bzw. mussten ausge-
kontinuums besonders gut zwischen den Pro-
spart bleiben. Derartige Fragen werden z. B. in
banden differenzieren. In diesem Fall würde
den Büchern von Eid und Schmidt (2014), Em-
man die Items so zusammenstellen, dass die
bretson und Reise (2000), McDonald (1999),
Testinformation im interessierenden Bereich
Rost (2004) sowie Steyer und Eid (1993) be-
des Merkmalskontinuums besonders hoch ist.
handelt. Strobl (2012) gibt eine kompakt ge-
Für die nicht interessierenden Bereiche wür-
haltene Einführung in das Rasch-Modell und
de man dann weniger Items verwenden, so
wesentliche Erweiterungen, wobei sie auch die
dass die Testökonomie erhöht und die Belas-
Berechnung der Modelle mit R erläutert.
tung der Probanden gesenkt werden könnte.
Auch bei Erstellung paralleler Formen eines
Die Item-Response-Theorie verfügt inzwi-
Testverfahrens ist die Verfügbarkeit von Infor-
schen über ein sehr umfangreiches Modell-
mationsfunktionen sehr nützlich.
und Methodeninventar, deren Anwendungen
weit über die hier besprochenen Möglichkei-
ten hinausgehen. So existieren etwa Modelle
für mehr als zwei Antwortkategorien, Model-
Weiterführende Literatur
le, die mehr als ein latentes Merkmal zulas-
sen, oder Modelle, die Messung und Klassi-
fikation von Personen miteinander verbinden.
Im ersten Abschnitt dieses Kapitels wurden ba- Einführende Darstellungen dieser Themen lie-
sale Anwendungen faktorenanalytischer Tech- fern die Bücher von Eid und Schmidt (2014)
niken für psychometrische Zwecke vorgestellt. sowie Rost (2004). Über spezifische Ansätze
Wie wir sahen, stellen Faktorenanalysen Infor- informieren die Herausgeberbände von Nering
mation bereit, die zur Bestimmung der Mess- und Ostini (2010) sowie Rost und Langeheine
präzision eines Verfahrens benötigt werden. (1997).
Darüberhinaus ermöglichen sie es, theoreti-
sche Annahmen über die Struktur eines Item-
satzes zu testen. Die Darstellung folgte in
zentralen Teilen McDonald (1999), dessen

129
4 Modelle psychologischen Testens

Fragen zur Wissenskontrolle

1. Welche allgemeinen Fragen der Item-


und Testanalyse lassen sich mit faktoren-
analytischen Modellen beantworten?
2. Was versteht man unter explorativen und
konfirmatorischen Faktorenanalysen?
3. Wie ist ein Ein-Faktor-Modell mathema-
tisch definiert? Für was stehen die Teil-
ausdrücke des Modells?
4. Wie kann man die Güte der Passung eines
Faktorenmodells beurteilen?
5. In welcher Beziehung steht der Reliabili-
tätskoeffizient ω zu Cronbachs α?
6. Mit welchen faktorenanalytischen Model-
len lassen sich faktoriell komplexe Tests
beschreiben?
7. Aus welchen Gründen führt die Anwen-
dung linearer Modelle bei binären Items
zu Problemen?
8. Was versteht man unter Item-Response-
Funktionen (Itemcharakteristiken)?
9. Welche zentralen Eigenschaften besit-
zen die Itemcharakteristiken im Rasch-
Modell?
10. Welche Bedingungen müssen erfüllt sein,
damit von „spezifischer Objektivität“ ge-
sprochen werden kann?
11. Woran lässt sich erkennen, dass spezi-
fische Objektivität im 2PL- und 3PL-
Modell nicht gegeben ist?
12. In welcher Beziehung stehen lokale Un-
abhängigkeit und Dimensionalität?
13. Wofür sind Item- und Testinformations-
funktionen nützlich?

130
III Diagnostische Urteile und
Entscheidungen
5 Der Prozess der diagnostischen Urteilsbildung

5.1 Klinische und statistische Urteilsbildung . . . . . . . . . . . . . . . . . . . . 134


5.1.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.1.2 Statistische Vorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.1.3 Empirische Befunde . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.1.4 Kritik und Antikritik . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.2 Paramorphe Modelle des Diagnostizierens . . . . . . . . . . . . . . . . . . . 147
5.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
5.2.2 Erstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5.2.3 Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.2.4 Konfigurationsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.3 Vorteile expliziter Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.4 Nutzung der klinischen Inferenz . . . . . . . . . . . . . . . . . . . . . . . . 158
5.5 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Diagnostische Urteile sind Aussagen, die auf Datensammlung und -erhebung, die Datenbe-
der Basis vorliegender oder eigens erhobener wertung und -kombination im Hinblick auf
psychologischer Daten über eine Person, ei- die Hypothesen, die diagnostische Entschei-
ne Gruppe oder einen Sachverhalt getroffen dung sowie die Überprüfung der Folgen von
werden. Beispiele für diagnostische Urteile Entscheidungen beinhaltet (I Kap. 7). Es ist
sind: „Herr X leidet unter einer generalisier- klar, dass die einzelnen Schritte dieses Prozes-
ten Angststörung“, „Die Arbeitsgruppe Y ist ses jeweils ein erhebliches Maß an Inferenz,
durch starkes Konkurrenzverhalten geprägt“, also Schlussfolgerung, Gewichtung und Be-
oder „Therapie A hat bei Frau Z eine höhere wertung, verlangen.
Erfolgschance als Therapie B“. Im Rahmen
Im vorliegenden Kapitel beschäftigen wir uns
von Interventionen liefern diagnostische Ur-
mit einer zentralen Komponente der Urteils-
teile die Grundlage für Empfehlungen oder
bildung, nämlich der Datenkombination oder
Entscheidungen.
-integration. Diesem Thema kann man sich un-
ter drei Fragestellungen nähern:
Die Urteilsbildung ist Teil eines mehrstufigen
und rückgekoppelten Vorgangs, der die erste 1. Wie kommen diagnostische Urteile zustan-
Analyse sozusagen „von selbst eingehender“ de?
Daten, die Hypothesenbildung, die Herstel- 2. Wie gültig sind diese Urteile?
lung von Untersuchungssituationen, die Aus- 3. Wie lässt sich deren Qualität sichern und
wahl geeigneter diagnostischer Verfahren, die gegebenenfalls optimieren?

133
5 Der Prozess der diagnostischen Urteilsbildung

Unser Ausgangspunkt ist die zweite Frage, Jahren kristallisierten sich zwei Positionen her-
in der die Validität der Urteilsbildung ange- aus, deren Vertreter scheinbar antagonistische
sprochen ist. Die Validität von Diagnosen war Verfahren der Diagnosefindung favorisierten,
Thema einer lang anhaltenden Diskussion um nämlich „klinische“ oder „statistische“. Im
die Vor- und Nachteile klinischer (informel- Fokus standen dabei vor allem prognostische
ler) und statistischer (formeller) Methoden der Fragestellungen, etwa die Erfolgschancen ei-
Datenkombination. Wir stellen diese Diskussi- ner bestimmten Therapie bei einem Klienten,
on und die hieraus zu ziehenden Schlussfolge- das Rückfallrisiko von Straftätern, der aka-
rungen im ersten Abschnitt des Kapitels dar. demische Erfolg von Studienbewerbern oder
der Ausgang schwerwiegender physischer Ein-
Der zweite Abschnitt widmet sich einem Teil-
griffe zur Behandlung psychischer Störungen
aspekt der Frage nach dem Zustandekommen
(Grove & Meehl, 1996). Aus diesem Grund
diagnostischer Urteile. Auch hier fokussieren
wurde die Debatte unter dem Titel „klinische
wir die Gewichtung und die Kombination vor-
vs. statistische Vorhersage“ geführt. Sie be-
liegender Daten. Die Gewichtung und Kom-
trifft jedoch nicht nur Prognosen, sondern viel-
bination von Daten lässt sich mit Hilfe sog.
mehr auch andere Arten diagnostischer Urteile
paramorpher Modelle abbilden. Es handelt
unter Unsicherheit (z. B. Retrodiktionen, etwa
sich um Modelle, in denen die Datenkombi-
wenn das Vorliegen von Kindesmissbrauch auf
nation bei Diagnostikern in formeller Weise
der Basis von Zeugenaussagen beurteilt wer-
dargestellt wird. Mit derartigen Modellen wird
den soll).
die Urteilsbildung explizit beschrieben.
Einen Meilenstein in der Kontroverse um die
Paramorphe Modelle liefern auch Ansatzpunk-
angemessene Art des Vorgehens stellt Paul
te für die Optimierung des diagnostischen Vor-
Meehls (1954) inzwischen klassische Mono-
gehens, die wir im dritten Abschnitt zusam-
graphie „Clinical versus statistical prediction“
menfassen. Im vierten Abschnitt des Kapitels
dar. Meehl, selbst praktizierender (psychoana-
wird eine Möglichkeit dargestellt, klinische
lytisch orientierter) klinischer Psychologe, ver-
und statistische Formen der Datenkombina-
suchte hier als einer der ersten, den Diagno-
tion miteinander zu verbinden, indem klini-
seprozess rational zu rekonstruieren, indem
sche Inferenz im Rahmen formeller Prozedu-
er die Argumente der klinischen und der sta-
ren genutzt wird. Auch hier geht es um die
tistischen Seite gegenüberstellte und auf die
Optimierung der Qualität diagnostischer Ur-
Ergebnisse bis dahin vorliegender empirischer
teile.
Untersuchungen bezog.
Die klinische Vorhersage repräsentierte da-
5.1 Klinische und statistische mals gewissermaßen das Standardmodell des
diagnostischen Vorgehens. Ihr Fundament ist
Urteilsbildung
menschliche Beurteilung. Im Allgemeinen
handelt es sich dabei um Beurteilungen durch
5.1.1 Definitionen Experten oder Expertengremien, in psycho-
therapeutischen Kontexten etwa einer Fallkon-
Historisch gesehen wurde die diagnostische ferenz. Charakteristisch für das Vorgehen ist
Urteilsbildung zunächst fast ausschließlich un- eine deutliche Orientierung an den jeweili-
ter dem Gesichtspunkt ihrer Validität disku- gen Besonderheiten des konkret vorliegenden
tiert. Wie gut treffen Diagnosen und Vorher- Falls. Dies manifestiert sich sowohl in der Prä-
sagen zu, die mittels unterschiedlicher Metho- ferenz für individuumszentrierte („biographi-
den gewonnen werden? Bereits in den 1920er sche“) Formen der Datenerhebung (Gespräch,

134
5.1 Klinische und statistische Urteilsbildung

Anamnese, Interview usw.) als auch in der Art den akademischen Erfolg beispielsweise die
der Datenintegration. Letztere ist stark durch allgemeine Intelligenz und die Schulabschluss-
kasuistische Erwägungen geprägt: Diagnosen note. Statistische Modelle sehen im einfachs-
werden also durch Vergleich mit ähnlichen ten Fall so aus, dass ein interessierendes Kri-
Fällen, die in der Vergangenheit auftraten und terium (Rückfall, Ausmaß des Studienerfolgs)
deren Ausgang bekannt ist, sowie der Bewer- durch eine gewichtete Kombination von Prä-
tung der jeweiligen „spezifischen Differenzen“ diktoren vorhergesagt wird. Die hierfür opti-
zum aktuellen Fall getroffen. Die klinische malen Gewichte werden in empirischen Un-
Vorhersage ist weitgehend erfahrungs- und – tersuchungen vorab geklärt. Die Regeln, nach
wie Kritiker hinzufügen würden – intuitions- denen eine Vorhersage erfolgt, sind also im
gesteuert: Die Regeln, auf deren Grundlage Unterschied zur klinischen Urteilsbildung völ-
Entscheidungen gefällt werden, sind häufig lig explizit. Menschliche Beurteilung ist in die
weder explizit noch gar empirisch validiert. Datenkombination nicht involviert. Sie kann
Es wird erwartet, dass die mehrjährige Aus- allein bei der Datenerhebung eine Rolle spie-
bildung, die Arbeitserfahrung, sowie die Fä- len, etwa wenn die Schwere einer Gewalttat
higkeit, große Datenmengen in angemessener durch Beurteiler eingestuft wird. Ein weite-
Weise zu integrieren, es klinischen Diagnosti- rer Unterschied zur klinischen Urteilsbildung
kern dennoch erlaubt, zu validen Vorhersagen betrifft die Tatsache, dass individuelle Beson-
zu gelangen (Wiggins, 1973). Zu beachten ist, derheiten nur insoweit berücksichtigt werden,
dass sich die „klinische“ Methode nicht nur als sie durch die ins Modell einbezogenen Prä-
in der klinisch-psychologischen Diagnostik, diktorvariablen abgedeckt sind. Da die Menge
sondern vielmehr auch in anderen Bereichen der Prädiktorvariablen im Allgemeinen recht
der Angewandten Psychologie findet, z. B. in begrenzt ist, fallen viele Eigenheiten konkreter
der Personalauslese (I Kap. 14). Ihr wesentli- Fälle bei der statistischen Vorhersage „unter
ches Merkmal ist der Rekurs auf menschliche den Tisch“, werden also nicht genutzt, obwohl
Beurteilung bei der Erhebung und Integration sie vielleicht verfügbar sind.
diagnostischer Information.
Als Meehl (1954) sein Buch vorlegte, war be-
Das Alternativmodell der statistischen Vorher-
reits eine hitzige Debatte über die angemes-
sage stützt sich allein auf empirisch gesicherte
sene Vorgehensweise entbrannt. Empirische
Regelmäßigkeiten in Daten, die für den vorlie-
Untersuchungen zur Klärung der Frage, wel-
genden Fall einschlägig sind. Man rekurriert
che Vorgehensweise bessere Ergebnisse liefert,
hier also auf bereits festgestellte Zusammen-
ließen allerdings noch keine allgemein akzep-
hänge zwischen bestimmten Prädiktor- und
tierten Schlussfolgerungen zu.
Kriteriumsvariablen, die auf einen neuen Fall
angewendet und damit in die Zukunft proji-
Wichtig in Meehls Beitrag zur Klärung der
ziert werden.
Kontroverse war eine Unterscheidung, die,
Prädiktorvariablen oder kurz Prädiktoren sind manchmal leicht modifiziert, in vielen nachfol-
Variablen, deren Ausprägung bekannt ist und genden Untersuchungen übernommen wurde.
die zur Vorhersage eines noch nicht bekannten Meehl differenzierte zwischen der Art der Da-
Kriteriumswerts – des Werts der interessieren- tenerhebung oder Messung und der Art der
den Variablen – genutzt werden. In einem Mo- Kombination der Daten für eine Vorhersage
dell des Rückfallrisikos von Straftätern könn- (I Abb. 5.1). Er wies darauf hin, dass bei-
ten z. B. die Schwere der Straftat, die Häu- de Aspekte des diagnostischen Vorgehens oft
figkeit früherer Rückfälle und das Geschlecht nicht streng genug unterschieden worden sei-
Prädiktorvariablen sein, in einem Modell für en. Damit seien sie meist auch in empirischen

135
5 Der Prozess der diagnostischen Urteilsbildung

Datenerhebung Datenkombination
Diagnose
Prognose
psychometrisch formell/statistisch
Entscheidung
nichtpsychometrisch informell/klinisch

Abb. 5.1 Datenerhebung und Datenkombination.

Untersuchungen konfundiert gewesen. Erhe- Auf der Seite der Datenkombination differen-
bung und Kombination sind jedoch logisch ge- ziert Meehl ebenfalls zwei Methoden. Die
trennte Schritte. Wer die Leistungsfähigkeit ei- Datenkombination kann entweder formell (al-
ner diagnostischen Prozedur untersuchen will, ternative Ausdrücke sind: mechanisch, aktua-
muss beide Vorgänge also separat betrachten. risch, algorithmisch, explizit) oder informell
(beurteilend, intuitiv, holistisch, implizit) er-
Auf der Seite der Datenerhebung unterschei- folgen. Entscheidend für die Qualifikation der
det Meehl zwischen zwei Informationsquellen, Datenkombination als formell ist die Existenz
die für eine Vorhersage genutzt werden kön- angebbarer Regeln, wie sie z. B. bei statisti-
nen, nämlich psychometrischen und nichtpsy- schen Vorhersagemodellen (aber nicht allein
chometrischen. Psychometrische Daten wer- hier) vorliegen.
den von Tests und anderen Verfahren geliefert,
für die eine standardisierte Vorgabe sowie eine Es ist wichtig zu notieren, dass die Art der
einheitliche Klassifikation und Verrechnung Methode, formell oder informell, mit der Ef-
der Reaktionen gewährleistet ist (I Kap. 3). fektivität eines Vorhersagesystems logisch
Solche Daten sind von Ermessensentscheidun- nichts zu tun hat. Ein formelles System würde
gen der beurteilenden Person frei. Bei nicht- z. B. auch dann vorliegen, wenn ein Personal-
psychometrischen Daten, die Erleben und Ver- auswahlgremium konsistent der Regel folgt
halten von Menschen betreffen, ist dies nur sel- „Wenn der Bewerber blaue Augen hat, zum
ten der Fall. Ein Beispiel für nichtpsychome- Vorstellungstermin einen quergestreiften Pull-
trische Daten sind die Eindrücke eines Diagno- over trägt und ,Grüß Gott‘ als Begrüßung ver-
stikers, die er aus den Äußerungen einer Per- meidet, ist er für die Stelle geeignet, ansonsten
son während eines Interviews gewinnt. Hier nicht“. Dieses System wäre formell, allerdings
fungiert der beurteilende Diagnostiker gewis- im Hinblick auf die Vorhersage der beruflichen
sermaßen selbst als Messinstrument. Bewährung vermutlich nicht sonderlich vali-
de.
Die Differenzierung zwischen psychometri-
schen und nichtpsychometrischen Daten ist üb- Psychometrische und nichtpsychometrische
rigens nicht identisch mit der Unterscheidung Daten können formell oder informell integriert
zwischen quantitativen und qualitativen Daten. werden, was vier basale Möglichkeiten der
Auch nichtpsychometrische Verhaltensdaten Diagnosefindung liefert:
können quantitativ sein, etwa dann, wenn der
Diagnostiker Ratingskalen für die Aufzeich- 1. nichtpsychometrische Daten werden infor-
nung seiner Eindrücke einsetzt. Darüber hin- mell kombiniert (z. B. wird die Fahreig-
aus sagt Meehls Unterscheidung im Prinzip nung eines alkoholauffälligen Verkehrsteil-
nichts über die Objektivität oder Zuverlässig- nehmers auf der Grundlage eines Interviews
keit der Messung aus. Auch trainierte Beurtei- beurteilt),
ler können einen hohen Grad an Objektivität 2. psychometrische Daten werden informell
und Zuverlässigkeit erreichen. kombiniert (z. B. werden die Ergebnisse von

136
5.1 Klinische und statistische Urteilsbildung

Konzentrations-, Vigilanztests usw. heran- 5.1.2 Statistische Vorhersage


gezogen und intuitiv für die Diagnose ge-
nutzt), Wie erwähnt, stellt ein statistisches Vorgehen
3. nichtpsychometrische Daten werden for- nicht die einzige Möglichkeit dar, Daten in for-
mell kombiniert (es wird z. B. ein Interview meller Weise miteinander zu kombinieren. Für
durchgeführt, die dabei anfallenden Daten Vorhersagezwecke ist dies jedoch sicherlich
jedoch nach einem fixierten Regelsystem die naheliegenste Methode.
integriert),
4. psychometrische Daten werden formell kom- Ein häufig verwendetes Modell ist die mul-
biniert (es werden die Ergebnisse von tiple Regression. In der multiplen Regressi-
Konzentrations-, Vigilanztests usw. heran- on wird die Variation einer quantitativen Kri-
gezogen, die anschließend in eine Glei- teriumsvariablen durch eine additive und ge-
chung zur Bestimmung des Unfallrisikos wichtete Kombination mehrerer („multipler“)
eingesetzt werden). quantitativer oder binärer Prädiktorvariablen
beschrieben. Die einfache Regression ist ein
Zwei weitere Möglichkeiten entstehen da- Spezialfall dieses Modells, die nur einen Prä-
durch, dass psychometrische und nichtpsycho- diktor umfasst. Kriterium könnte z. B. ein Maß
metrische Daten vorliegen, die entweder for- des Berufserfolgs wie erreichte Gehaltsstufe,
mell oder informell kombiniert werden kön- die Durchschnittsnote im Abschlusszeugnis
nen (Sawyer, 1966). Die beiden letzten Fälle eines akademischen Ausbildungsgangs oder
dürften in der diagnostischen Praxis die häu- ein Indikator der Lebenszufriedenheit nach ei-
figsten sein, da im Allgemeinen Daten aus bei- ner psychotherapeutischen Behandlung sein.
den Quellen vorliegen werden. Relevante Prädiktoren könnten etwa Daten
aus Fähigkeitstests, Interessentests oder Per-
Die von Meehl monierte Konfundierung ent- sönlichkeitsinventaren sein. Voraussetzung für
steht nun daraus, dass Befürworter formel- die Anwendung eines regressionsanalytischen
ler Methoden (statistische Vorgehensweise) Vorhersagemodells ist, dass sich das Kriterium
häufig psychometrische (und andere „harte“) in einem quantitativen Wert ausdrücken lässt.
Verhaltensdaten gegenüber nichtpsychometri- Hierfür werden evtl. mehrere Variablen aggre-
schen („weichen“) Daten bevorzugen, wäh- giert (für die Messung des Berufserfolgs z. B.
rend Befürworter informeller Methoden (klini- Beurteilungen von Vorgesetzten oder Maße
sche Vorhersage) nichtpsychometrischen Da- der Arbeitsproduktivität).
ten einen vergleichsweise hohen Stellenwert
einräumen. Unterschiede in der Validität kli- Liegen Messungen für das Kriterium Y und
nischer und statistischer Vorhersagen können die Prädiktoren X1 , X2 , . . . vor, so lässt sich ein
damit auf die Art der verwendeten Daten, die multiples Regressionsmodell erstellen. Dieses
Methode der Datenkombination oder beides Modell hat die Form
zurückgehen. Für eine adäquate Bewertung
der Vorgehensweisen ist es notwendig, diese Ŷ = a + b1 X1 + b2 X2 . . . + bn Xn .
Konfundierung aufzuheben. Beiden Methoden
der Datenkombination sollten also die glei- Ŷ repräsentiert dabei die durch das Modell vor-
chen Daten zur Verfügung stehen. hergesagten Kriteriumswerte, a ist eine additi-
ve Konstante, die in psychologischen Untersu-
Bevor wir hierfür relevante Untersuchungen chungen meist ohne genuines Interesse ist, b1
und deren Resultate schildern, ist es sinnvoll, bis bn sind die Gewichte, mit denen die Prädik-
die statistische Datenkombination etwas näher toren zur Vorhersage des Kriteriums beitragen.
zu beleuchten. Sie werden Regressionsgewichte genannt und

137
5 Der Prozess der diagnostischen Urteilsbildung

stellen die eigentlich interessierenden Parame- Beispiel


ter des Modells dar. In der Regressionsanalyse
werden die Parameter (a und bi ) so festgelegt, Angenommen, als Kriterium sei der finanzi-
dass eine mathematisch optimale Vorhersage elle Profit in 1000 e gemessen worden, den
der Kriteriumswerte erfolgt, also die (quadrier- eine Person einer Organisation im Mittel
ten) Abweichungen zwischen den durch das jährlich einbringt. Erhält die Prädiktorva-
Modell prädizierten Kriteriumswerten Ŷ und riable „numerische Intelligenz“, gemessen
den faktischen Kriteriumswerten Y minimal auf einer IQ-Skala, ein b-Gewicht von 2
werden. (2000 e pro IQ-Punkt), so bedeutet dies,
dass eine Person mit einem IQ-Wert von
Bei der Erstellung eines regressionsanalyti- 115 der Organisation im Mittel 15 × 2 ×
schen Vorhersagemodells interessieren primär 1000 e = 30 000 e mehr einbringt als eine
zwei Sachverhalte. Der erste betrifft die Vor- Person mit einem IQ-Wert von 100 (Durch-
hersagekraft des Modells: Wie genau lässt sich schnitt) und sonst gleichen Ausprägungen
der faktische Kriteriumswert Y durch den vor- aller anderen in das Modell eingehenden
hergesagten Kriteriumswert Ŷ approximieren? Prädiktorvariablen.
Ein Maß hierfür liefert die Korrelation zwi-
schen Y und Ŷ . Dieses Maß heißt multiple Kor-
relation und wird mit R symbolisiert. Die mul-
Um die Bedeutung von Prädiktorvariablen,
tiple Korrelation kennzeichnet die Stärke des
die auf unterschiedlichen Skalen (z. B. IQ-
Zusammenhangs zwischen mehreren Prädikto-
Werte, Rohwerte) gemessen wurden, einfacher
ren und einem Kriterium. Sie kann prinzipiell
vergleichen zu können, werden die Regressi-
zwischen 0 und 1 variieren. Ein Wert nahe
onsgewichte meist standardisiert, indem man
0 bedeutet einen schwachen Zusammenhang
sie mit der Standardabweichung ihrer zuge-
zwischen Prädiktoren und Kriterium. Die Vor-
hörigen Prädiktorvariablen multipliziert und
hersage ist in diesem Fall sehr fehlerbehaftet.
durch die des Kriteriums teilt. Tatsächlich wür-
Dagegen weist ein Wert von 1 auf einen perfek-
de man standardisierte Koeffizienten direkt
ten Zusammenhang hin. In diesem Fall könn-
als Ergebnis der Regressionsanalyse erhalten,
te das Kriterium fehlerfrei aus den Prädiktor-
wenn man Kriterium und Prädiktoren zuvor z-
variablen vorhergesagt werden. Das Quadrat
transformiert. Diese standardisierten Gewichte
der multiplen Korrelation, R2 , gibt den Anteil
werden in der psychologischen Literatur meist
der Varianz des Kriteriums an, das durch alle
als β -Gewichte bezeichnet. Ihre Interpretation
im Modell enthaltenen Prädiktoren aufgeklärt
ist analog zu den unstandardisierten Gewich-
wird.
ten, nur dass hier die Einheiten des Kriteriums
Wenn ein psychologisch bedeutsamer Zusam- und der Prädiktoren jeweils Standardabwei-
menhang zwischen Prädiktoren und Kriterium chungen sind. Ein β -Gewicht von 0.5 würde
festgestellt werden konnte, ist die zweite inter- beispielsweise bedeuten, das eine Erhöhung
essierende Frage, welche Prädiktorvariablen des zugehörigen Prädiktors um eine Standard-
mit welchem Gewicht zur Vorhersage beitra- abweichung im Mittel (sofern alle anderen Prä-
gen. Hierfür werden die Regressionskoeffizi- diktoren auf dem gleichen Wert fixiert werden)
enten (b-Gewichte) herangezogen. Sie geben mit einer Erhöhung des vorhergesagten Kri-
an, um welchen Betrag das Kriterium dem Mo- teriums um eine halbe Standardabweichung
dell zufolge steigt oder sinkt, wenn die zugehö- einhergeht. Standardisierte Gewichte vereinfa-
rige Prädiktorvariable um eine Skaleneinheit chen es, den relativen Beitrag verschiedener
erhöht und alle anderen Prädiktoren konstant Variablen zur Vorhersage miteinander zu ver-
gehalten werden. gleichen, da sie sich analog zu Korrelationen

138
5.1 Klinische und statistische Urteilsbildung

interpretieren lassen: bei der einfachen (nicht zu einem geringeren, dafür aber realistischeren
aber bei der multiplen) Regression sind stan- Schätzwert seiner Vorhersagekraft. Darüber
dardisierte Gewichte identisch mit der Korre- hinaus wird geprüft, ob sich die Gewichte, die
lation zwischen Prädiktor und Kriterium. den einzelnen Variablen zugeordnet wurden,
an der neuen Stichprobe bewähren.
Die Identifikation potenziell relevanter Prädik-
toren wie auch die operationale Bestimmung
Für den Vergleich zwischen klinischer und sta-
des Kriteriums selbst verlangen umfangrei-
tistischer Vorhersage ist eine Eigenschaft des
che konzeptuelle Vorarbeiten. Auch die em-
multiplen Regressionsmodells bemerkenswert:
pirischen Untersuchungen, die zur Formulie-
Es handelt sich um ein additives Modell; bei
rung eines geeigneten Modells führen, können
der Vorhersage werden die Prädiktoren also
sehr aufwändig sein und sind nicht immer von
additiv kombiniert. Das bedeutet z. B., dass ei-
dem gewünschten Erfolg gekrönt. Die Erstel-
ne Person niedrige Werte auf einem Prädiktor
lung eines Regressionsmodells auf der Basis
durch hohe Werte auf einem anderen kompen-
vorliegender Daten ist demgegenüber relativ
sieren kann.
einfach und weitgehend standardisierbar. Die
Prädiktorvariablen bzw. spezifische Kombina-
Zu den Prädiktoren eines Kriteriums für beruf-
tionen dieser Variablen werden schrittweise in
lichen Erfolg als Flugzeugführer könnten z. B.
das Modell aufgenommen (und evtl. wieder
das räumliche Vorstellungsvermögen und ma-
entfernt), wobei angestrebt wird, viel Varianz
thematische Fähigkeiten gehören. Kombiniert
im Kriterium mit möglichst wenigen Prädik-
man die entsprechenden Daten für die Vor-
toren bzw. Prädiktorkombinationen aufzuklä-
hersage nach dem Modell der multiplen Re-
ren. Dies entspricht dem wissenschaftlichen
gression, so könnte der Fall eintreten, dass ein
Sparsamkeitsprinzip. Die Vorgehensweise fa-
Bewerber niedrige Werte in Tests zum räum-
vorisiert also einfache gegenüber komplexeren
lichen Vorstellungsvermögen durch sehr ho-
Modellen; Komplexität wird gewissermaßen
he Werte in Tests mathematischer Fähigkeiten
nur dann akzeptiert, wenn sich hierdurch die
kompensiert und so immer noch einen Krite-
Aufklärung des Kriteriums substanziell ver-
riumswert erreicht, der zum Urteil „geeignet“
bessern lässt. Auch für die Prüfung der An-
führt. Ob dies bei einem Flugzeugführer wün-
gemessenheit eines Modells existieren geeig-
schenswert ist, erscheint fraglich. Wir werden
nete Prozeduren (siehe z. B. Cox & Wermuth,
später noch Möglichkeiten kennen lernen, wie
1996).
sich solche Kompensationsmöglichkeiten be-
Ist ein passendes Modell identifiziert, sollte grenzen oder ganz ausschalten lassen, wenn
eine Kreuzvalidierung vorgenommen werden, sie sachlich nicht sinnvoll sind (I Kap. 5.2.4).
in der das Modell anhand neuer Daten auf sei-
ne Tauglichkeit zur Vorhersage geprüft wird. Für die Erstellung eines multiplen Regressi-
Die anhand einer Stichprobe A berechneten onsmodells müssen quantitative Kriterien so-
Gewichte werden dabei zur Vorhersage des wie quantitative oder binäre Prädiktoren vor-
Kriteriums bei einer zweiten Stichprobe B ver- liegen. Ist dies nicht der Fall, können andere
wendet. Deren Daten dürfen nicht bereits in statistische Modelle eingesetzt werden, die für
die Erstellung des Modells eingegangen sein. die jeweilige Datenart angemessen sind. Für
Auf diese Weise werden Überschätzungen der binäre Kriterien (z. B. die Klassifikation geeig-
Güte eines Modells, die sich aus Spezifika der net/nicht geeignet) kämen etwa die logistische
ursprünglichen Stichprobe A herleiten, vermie- Regression, für mehrstufige Kriterien die Dis-
den. Die Anwendung des Modells auf Daten kriminanzanalyse oder andere Klassifikations-
einer neuen Stichprobe führt im Allgemeinen verfahren in Betracht.

139
5 Der Prozess der diagnostischen Urteilsbildung

Statistische
Kombination
r sk

Daten Kriterium

r kk
Klinische
Kombination

Abb. 5.2 Basisdesign zur Kontrastierung klinischer und statistischer Datenkombination.

5.1.3 Empirische Befunde Abweichungen vom Idealfall begünstigten da-


bei im Allgemeinen die klinische Seite, der
I Abb. 5.2 zeigt das Basisdesign empirischer mehr Information zur Verfügung gestellt wur-
Studien zur Kontrastierung klinischer und sta- de als der statistischen. Dabei handelte es sich
tistischer Datenkombination. Ein oder mehre- meist um Information aus Interviews der zu
re Beurteiler erhalten Daten über eine Reihe beurteilenden Personen.
von Personen, auf deren Grundlage sie eine
Vorhersage über ein bestimmtes Kriterium tref-
Die Untersuchungen von Sarbin
fen. Im Idealfall werden dieselben Daten als
Eingabe eines statistischen Vorhersagesystems Zentraler Streitpunkt in der Kontroverse war
verwendet, das ebenfalls eine Prädiktion des die Frage, ob die für eine Prognose vorliegen-
Kriteriums liefert. Die Vorhersagen werden de Evidenz klinisch oder statistisch kombiniert
dann mit dem tatsächlichen Kriterium, das be- werden sollte. Systematische Untersuchungen
kannt sein muss, korreliert. Es resultieren zwei dieser Frage wurden bereits in den vierziger
Korrelationen, rkk für die klinische Datenkom- Jahren des letzten Jahrhunderts von dem klini-
bination, rsk für die statistische Datenkombi- schen Psychologen Sarbin (1941, 1942, 1944)
nation, deren Höhe über die Validität der ent- vorgelegt. Sarbin wollte dabei die Gültigkeit
sprechenden Vorhersagen Auskunft gibt. klinisch-diagnostischer Urteile demonstrieren.
Sind die Vorhersageleistungen der klinischen Wie viele andere Forscher, die in die Diskussi-
und der statistischen Datenkombination unge- on für die klinische oder die statistische Vorge-
fähr gleich, kann die Validität kein Kriterium hensweise votierten, ging er zunächst von der
für die Wahl der einen oder anderen Methode Erwartung aus, dass die professionelle Kom-
sein. In diesem Fall werden besonders die mit petenz klinischer Diagnostiker bessere Vorher-
den jeweiligen Verfahren verbundenen Kos- sagen erlaube, als es auf der Basis einfacher
ten ausschlaggebende Gesichtspunkte liefern mathematischer Formeln möglich ist. Auch
(I Kap. 6). die in Anwendungskontexten meist verfügbare
Zusatzinformation, die in statistische Modelle
In empirischen Untersuchungen wurde dieses nicht eingeht (etwa aus dem persönlichen Kon-
Design nicht immer in „reiner Form“ realisiert. takt mit der zu beurteilenden Person), sowie

140
5.1 Klinische und statistische Urteilsbildung

die Berücksichtigung individueller Besonder- genau waren, für Männer dagegen die einfa-
heiten einzelner Fälle sollte der klinischen Vor-
che Zwei-Variablen-Gleichung der Vorhersage
hersage Vorteile verschaffen. Diese Erwartung der Studienberater überlegen war. Die den Be-
erfüllte sich nicht. ratern verfügbare Zusatzinformation erhöhte
deren Vorhersagegenauigkeit gegenüber der
In einer 1942 vorgelegten Studie verglich Sar- Formel also erstaunlicherweise nicht.
bin die Vorhersagegenauigkeit einer Gruppe
professioneller Studienberater, die den akade- Tab. 5.1 Korrelationen klinischer und
mischen Erfolg von 162 Studienanfängern auf statistischer Vorhersagen mit dem
der Basis diverser Tests, biographischer Anga- Studienerfolg in der Untersuchung
ben und eines Interviews prädizieren sollten, von Sarbin (1942)
mit der Vorhersagegenauigkeit einer einfachen
linearen Gleichung, in der nur die Werte ei- Vorhersage Männer Frauen
nes Eignungstests sowie die Abschlussnote Klinisch .35 .69
der Schule (also zwei Variablen) eingingen. Statistisch .45 .70
Die Werte des Eignungstests und die Schul-
abschlussnoten hatten sich in vorhergehenden
Studien als relativ gute Prädiktoren der Stu- Ergebnisse wie die von Sarbin (1942) favori-
dienleistung herausgestellt und waren auch sieren für den untersuchten Bereich das sta-
den Beratern mitgeteilt worden. Die Berater- tistische Vorgehen – so jedenfalls sieht es die
gruppe verfügte darüber hinaus jedoch über statistische Seite. Selbst wenn sich zwischen
weit mehr Information, die für die Prognose klinischer und statistischer Vorhersage (wie in
des Studienerfolgs als relevant erachtet wer- Sarbins Fall bei Frauen) ein Patt ergebe, sei
den kann. Hierzu gehörten unter anderem die die statistische Vorhersage der klinischen im
Aufzeichnungen eines früheren Interviewers, Allgemeinen allein aus ökonomischen Grün-
die Ergebnisse eines Interessentests, die Re- den vorzuziehen: Sieht man einmal von der
sultate weiterer Fähigkeits- und Leistungstests Erstellung eines Vorhersagemodells ab – hier-
sowie biographische Angaben der Studieren- für müssen entsprechende empirische Untersu-
den. Überdies hatten die Berater die Studieren- chungen durchgeführt werden – benötigt das
den vor Studienbeginn interviewt, kannten sie statistische Vorgehen weitaus weniger perso-
also aus persönlichem Kontakt. Die Berater nelle, zeitliche und finanzielle Ressourcen als
schätzten auf der Basis dieser umfangreichen das klinische. Allerdings kann die Erstellung
Information den Studienerfolg auf einer Acht- eines statistischen Modells mit hohen Kosten
Punkte-Skala ein. Als Kriterium, mit der kli- verbunden sein. Diesem Konter der klinischen
nische und statistische Vorhersagen konfron- Seite lässt sich allerdings entgegenhalten, dass
tiert wurden, dienten Notenäquivalente, die auch die klinische Datenkombination „empi-
die Studierenden im ersten Studienabschnitt risch informiert“ sein sollte; ein Verzicht auf
erhielten. (manchmal aufwändige) Untersuchungen un-
terminiert die rationale Basis diagnostischer
I Tab. 5.1 zeigt die Korrelationen der beiden Entscheidungen ganz unabhängig davon, wie
Vorhersagen mit dem Indikator des Studiener- die Daten integriert werden.
folgs getrennt für männliche und weibliche
Studierende. Wie ersichtlich, fallen die Vor- Es ist klar, dass Vertreter der klinischen Sei-
hersagen für Frauen mit beiden Methoden bes- te solchen Schlussfolgerungen nicht einhel-
ser aus als für Männer. Wichtiger ist jedoch, lig Beifall zollten. Tatsächlich lässt eine ein-
dass beide Vorhersagen für Frauen etwa gleich zelne Studie meist mehr Fragen offen als sie

141
5 Der Prozess der diagnostischen Urteilsbildung

beantworten kann. Zum Beispiel wurde be- dem Kriterium, also der psychiatrischen Dia-
zweifelt, ob die Vorhersage von Indikatoren gnose, verglichen werden konnten. Bei den Be-
des Studienerfolgs wirklich zur Aufgabe von urteilern konnte man einige Erfahrung im Um-
Studienberatern gehört oder inwieweit die No- gang mit MMPI-Profilen voraussetzen, so dass
ten nach den ersten Semestern diesen Erfolg man diesem Vorgehen einen gewissen Grad an
reflektieren. Wichtig ist auch die Frage nach „klinischem Realismus“ attestieren kann. Un-
interindividuellen Unterschieden der Vorhersa- ter der Voraussetzung, dass die ursprüngliche
gegenauigkeit zwischen den Beratern, zu der psychiatrische Diagnose valide war, lässt sich
Sarbins Studie keine Antwort lieferte. Denk- die Genauigkeit der Datenkombination eines
bar wäre ja, dass einzelne Studienberater deut- Beurteilers an der Höhe der Korrelation sei-
lich besser abschnitten als die mathematische ner Einschätzung mit den Kriteriumswerten
Gleichung. ablesen.
Für die Bewertung der Genauigkeit der statis-
tischen Kombination verwendete Goldberg ei-
ne Reihe von Indices, die teilweise empirisch
Die Untersuchung von Goldberg abgeleitet worden waren, teilweise auf Vor-
schlägen von MMPI-Experten beruhten. Von
besonderem Interesse ist ein sehr einfacher,
Eine sehr bekannt gewordene Untersuchung
rein empirisch gewonnener Index, der aus ei-
von Goldberg (1965) griff diese Punkte auf.
ner ungewichteten Kombination von fünf der
Die Studie stützte sich auf Persönlichkeitspro-
elf MMPI-Skalen bestand:
file von insgesamt 861 männlichen Patienten,
deren psychiatrische Diagnose entweder „Psy- (L + Pa + Sc) - (Hy + Pt).
chose“ oder „Neurose“ lautete. Diese Diagno-
se diente als Kriterium, das auf der Basis kli- L steht dabei für die Tendenz, sozial uner-
nischer und statistischer Datenkombination wünschte Verhaltensweisen abzustreiten (z. B.
bestimmt werden sollte. Bei den Persönlich- „Ich werde manchmal wütend“), Pa für gestei-
keitsprofilen handelte es sich um Werte auf gerten Argwohn („Niemand scheint mich zu
elf Skalen des Minnesota Multiphasic Perso- verstehen“), Sc für ungewöhnliche, bizarre Ge-
nality Inventory (MMPI; Hathaway & McKin- danken und Denkmuster („Ich habe Zeiten ge-
ley, 1943), einem Testverfahren zur Diagnose habt, in denen ich etwas tat, ohne später zu
unterschiedlicher Formen klinisch relevanter wissen, was ich getan hatte“). Diese Skalen
Persönlichkeitsmerkmale (I Kap. 10.2.4). gehen mit positivem Gewicht in den Index ein.
Die beiden Skalen mit negativem Gewicht ste-
hen für körperliche Beschwerden (Hy, „Meist
Zur Bestimmung der Genauigkeit der klini-
wache ich am Morgen frisch und ausgeruht
schen Datenkombination wurden die Profile
auf“; bei diesem Item zählt Verneinung im
29 unabhängigen Beurteilern vorgelegt. Bei 13
Sinne des Merkmals) sowie für angstassoziier-
der Beurteiler handelte es sich um erfahrene
te Gedanken und Verhaltensweisen (Pt, „Ich
klinische Psychologen mit Doktorgrad, die üb-
habe Angst, den Verstand zu verlieren“).
rigen 16 waren klinische Psychologen, die sich
noch in der Ausbildung befanden. Die Aufga- Der Index wurde auf Basis der Ergebnisse
be der Beurteiler war es, die Profile auf einer von Korrelations- und Regressionsanalysen
elfstufigen Skala, die sich von „neurotisch“ an einer separaten Stichprobe von 402 klini-
bis „psychotisch“ erstreckte, zu sortieren. Auf schen Fällen gebildet, für die ebenfalls MMPI-
diese Weise wurden von jedem Beurteiler Ein- Profile und psychiatrische Diagnosen vorla-
schätzungen gewonnen, die anschließend mit gen. Die fünf MMPI-Skalen, die Goldberg zur

142
5.1 Klinische und statistische Urteilsbildung

Tab. 5.2 Validitätskoeffizienten (Korrelationen) und Trefferquoten (Prozentwerte) klinischer und


statistischer Datenkombination in der Studie von Goldberg (1965)

Datenkombination Validität Treffer A Treffer Ba


Klinisch
Spannweite .14 bis .39 55 bis 67 60 bis 73
Durchschnitt .28 62 66
Statistisch .44 70 74
a Schwer entscheidbare Fälle wurden hier ausgeschlossen.

Bildung des Index verwendete, hatten in die- Die Validitätskoeffizienten und die ihnen ent-
ser Stichprobe sowohl einzeln als auch kombi- sprechenden Trefferquoten streuten, wie man
niert die stärksten Gewichte erhalten, diskrimi- erwarten konnte, erheblich zwischen den 29
nierten also am besten zwischen Neurotikern Beurteilern. Bemerkenswerterweise waren die
und Psychotikern. Wie sich aus der kurzen Leistungen der erfahrenen klinischen Psycho-
Beschreibung der Skalen bereits erraten lässt, logen nicht besser als die ihrer noch in Aus-
sind hohe (positive) Werte des Index mit der bildung befindlichen Kollegen. Die klinische
Diagnose „Psychose“ assoziiert, niedrige (ne- Erfahrung wirkte sich in dieser Studie also
gative) dagegen mit der Diagnose „Neurose“. nicht fördernd auf die Trefferquote aus, so
dass die Ergebnisse beider Gruppen hier nicht
I Tab. 5.2 fasst die Ergebnisse der Studie in
getrennt betrachtet werden müssen. (Dieser
stark vereinfachter Form zusammen. Angege-
Befund ist in der Literatur übrigens keines-
ben sind die Validitätskoeffizienten, also die
wegs ungewöhnlich; siehe Grove, Zald, Le-
Korrelationen zwischen den Angaben der Kli-
bow, Snitz & Nelson, 2000.) Wie vermutet,
niker bzw. den Resultaten der statistischen
stieg die Trefferquote nach Ausscheiden nicht
Datenkombination und den psychiatrischen
oder schwer zu entscheidender Fälle an, wenn
Diagnosen der zu beurteilenden Patienten so-
auch nicht in sehr starkem Maß, wobei auch
wie die diesen Koeffizienten entsprechenden
die statistische Kombination vom Ausschluss
Trefferquoten, d. h. die relativen Häufigkeiten
schwer entscheidbarer Fälle profitierte.
korrekter Zuordnungen von Profilen und Dia-
gnosen. Goldberg berechnete die Trefferquote Zentrales Anliegen war der Vergleich der
sowohl für die Gesamtstichprobe aller 861 Pro- Genauigkeit der klinischen und statistischen
file als auch für eine Teilstichprobe, aus der Datenkombination. Wie aus der Tabelle er-
nicht oder nur schwer klassifizierbare Profile sichtlich, war die einfache Linearkombination
(etwa 30 %) entfernt worden waren. Die Eli- von fünf MMPI-Skalen der gemittelten Leis-
minierung dieser Profile sollte der Tatsache tung der klinischen Psychologen deutlich über-
Rechnung tragen, dass die Beurteiler im All- legen. Betrachtet man die Spannweite der Ge-
gemeinen nicht alle Fälle mit gleicher Sicher- nauigkeitswerte, so zeigt sich, dass kein einzi-
heit zuordnen können, sie entspricht also der ger der 29 Psychologen die Leistung der statis-
Aufnahme einer „Unentschieden“-Kategorie. tischen Kombination übertreffen konnte. Der
Erwartet wurde, dass die Trefferquote nach beste Kliniker erreichte eine Trefferquote von
Ausschluss dieser „Zweifelsfälle“ höher aus- 73 %, was im Vergleich zur statistischen Kom-
fallen würde als die der Gesamtstichprobe al- bination allenfalls als Patt gewertet werden
ler Profile. kann.

143
5 Der Prozess der diagnostischen Urteilsbildung

Weitere Untersuchungen und klinische und statistische Vorhersagen zur Ver-


Schlussfolgerungen fügung stand, sowie die Verwendung kreuzva-
lidierter (vs. nicht kreuzvalidierter) Gleichun-
gen für die statistische Vorhersage. Keine die-
Die Ergebnisse von Sarbin (1942) und Gold-
ser Variablen hatte einen markanten Einfluss
berg (1965) sind repräsentativ für eine Viel-
auf das Ausmaß der Überlegenheit einer Me-
zahl weiterer Studien, die durch Meehls Mo-
thode. In den acht Studien, in denen die klini-
nographie angeregt worden waren. In diesen
sche Vorhersage überlegen war, stand für sie
Studien wurden klinische und statistische Pro-
mehr Information zur Verfügung als für die
gnosen über ein breites Spektrum praktisch re-
statistische. Dies betraf allerdings auch viele
levanter Kriterien geprüft, z. B. Ausbildungs-
andere Studien: In keiner der Untersuchungen
erfolg im akademischen und militärischen Be-
ging in die statistische Vorhersage mehr In-
reich, Rückfallrisiko bei Bewährungstrafen,
formation ein als in die klinische. Grove und
Behandlungserfolg von Psychotherapien, Re-
Meehl (1996) vermuten, dass die Resultate
mission von psychotischen Störungen, Berufs-
der acht vom allgemeinen Bild abweichenden
erfolg und Berufszufriedenheit. In den 51 Stu-
Untersuchungen sich aus dem generellen In-
dien, auf die Meehl in seinem 1965 erschiene-
formationsvorsprung der Kliniker und zufäl-
nen Überblick zurückgreifen konnte, zeigten
ligen Stichprobenfluktuationen herleiten. Be-
33 eine Überlegenheit der statistischen Pro-
merkenswert ist, dass die Verfügbarkeit von
gnose, in 17 Studien erwiesen sich statistische
Daten aus klinischen Interviews die generelle
und klinische Prognose als gleichwertig in ih-
(über alle Studien bestimmte) Überlegenheit
rer Vorhersageleistung. Die einzige Studie, die
der statistischen Kombination nicht verringer-
auf eine Überlegenheit der klinischen Vorher-
te, sondern vielmehr verstärkte.
sage hindeutete, wurde aufgrund methodischer
Gesichtspunkte nachträglich als Patt klassifi- Zu ähnlichen Ergebnissen kommen Kuncel,
ziert. Klieger, Conelly und Ones (2013) in einer
weiteren Metaanalyse, die sich speziell auf
Auch eine neuere umfassendere Meta- Leistungen im akademischen und beruflichen
Analyse, in die insgesamt 136 Einzelstudien Bereich konzentrierte. In den betrachteten 25
aus sehr disparaten diagnostischen Bereichen Studien erwies sich die statistische Vorhersage
einging, bestätigt dieses Bild (Grove et al., der klinischen im Mittel in allen betrachteten
2000). In jeweils ungefähr der Hälfte der Leistungsbereichen als moderat bis deutlich
Studien war die formelle Datenkombination überlegen (z. B. betrug die mittlere Korrela-
der informellen überlegen (63 Studien) oder tion bei beruflichen Leistungsindikatoren .44
gleichwertig (65 Studien). In nur acht Studien für die statistische gegenüber .28 für die klini-
erbrachte die klinische Datenkombination sche Vorhersage; für akademische Leistungen
bessere Vorhersagen als die statistische. betrugen die Koeffizienten .58 gegenüber .48).
Die Autoren untersuchten eine Reihe von De- Welches sind die Gründe für die Unterlegen-
signvariablen, die für die Unterschiede zwi- heit der klinischen Datenkombination? Zu-
schen klinischer und statistischer Vorhersage nächst ist festzustellen, dass auch in profes-
verantwortlich sein können. Hierbei handel- sionelle Diagnosen menschliche Beurteilung
te es sich um das Veröffentlichungsdatum der eingeht. Prinzipiell können sich hier also die
Studie, die Stichprobengröße, die Art des Kri- gleichen Verzerrungs- und Fehlertendenzen
teriums, die verwendeten Prädiktoren, die be- bemerkbar machen, welche die Personbeur-
rufliche Ausbildung der Beurteiler, deren Be- teilung im Alltag bestimmen. Zumindest bei
rufserfahrung, die Informationsmenge, die für einem Teil der hier wirkenden Mechanismen

144
5.1 Klinische und statistische Urteilsbildung

handelt es sich um universelle Merkmale der etwa Selektionsentscheidungen, in denen es


menschlichen Informationsverarbeitung, de- bei abgelehnten Bewerbern im Allgemeinen
nen auch professionelle Diagnostiker mehr nicht möglich ist, die Güte der Entscheidung
oder weniger unterliegen. Bestimmte, diagnos- im Nachhinein zu überprüfen. In jedem Fall
tisch relevante Hinweise bleiben unberück- behindert die mangelnde Nutzung von Rück-
sichtigt, andere – vielleicht weniger relevante meldungen natürlich die Korrektur ungünsti-
– werden überakzentuiert. Auch die Gewich- ger Formen der Datenkombination. In kreuz-
tung einzelner diagnostischer Indikatoren wird validierte statistische Diagnosesysteme sind
nicht immer optimal sein. Es wäre naiv zu solche Rückmeldungen dagegen von vornher-
glauben, dass psychologisch-diagnostisches ein eingebaut.
Wissen und Training gegenüber solchen Feh-
lern völlig immun macht.
Ein zweiter und wahrscheinlich noch wichti- 5.1.4 Kritik und Antikritik
gerer Grund sind Inkonsistenzen bei der Ver-
wendung diagnostischer Entscheidungsstrate- Der Schlussfolgerung, dass formellen Metho-
gien. Wie wir unten im Rahmen der Beschrei- den der Datenkombination der Vorzug zu ge-
bung paramorpher Modelle der Urteilsbildung ben sei, wurde von Vertreten der klinischen
noch darstellen werden, setzen Diagnostiker Seite vehement widersprochen. Betont wur-
Entscheidungsregeln, denen sie implizit fol- de dabei besonders die jeweilige Einzigartig-
gen, nicht konsistent ein, sondern wandeln sie keit der diagnostischen Entscheidungssitua-
von Fall zu Fall ab. In einer Reihe von Un- tion und die damit zusammenhängende Not-
tersuchungen wurde belegt, dass Vorhersagen, wendigkeit, die konkreten Bedingungen des
die durch „rigide“ Anwendung der bei einem jeweils vorliegenden Falls zu berücksichtigen.
Diagnostiker rekonstruierten Entscheidungsre- So notiert etwa Allport (1942, S. 156):
geln gewonnen wurden, im Allgemeinen bes-
ser ausfallen, als die „flexiblen“ Entscheidun-
gen des Diagnostikers selbst (Wiggins, 1973). Statistische Vorhersagemodelle sind irre-
Das Zustandekommen derartiger Inkonsisten- führend, wenn sie auf einzelne Fälle anstatt
zen ist sehr verständlich, da sich bei der Be- auf Populationen angewendet werden. So
trachtung individueller Fälle häufig gewisse folgt z. B. aus der Tatsache, dass 80 % der
Besonderheiten aufdrängen, die als so wichtig Delinquenten, die aus zerrütteten Familien
erachtet werden, dass von der generell verfolg- stammen, rückfällig werden, nicht, dass die-
ten Strategie abgewichen und gewissermaßen ser konkrete Delinquent, der aus einer zer-
„eine Ausnahme“ gemacht wird. Über viele rütteten Familie stammt, ein 80-prozentiges
Fälle betrachtet scheinen solche Abweichun- Risiko hat, rückfällig zu werden. [... Ob der
gen jedoch eher kontraproduktiv zu sein (Kun- Delinquent rückfällig wird] könnten wir ex-
cel et al., 2013) akt vorhersagen, wenn wir alle verursachen-
den Bedingungen und Umstände im kon-
Drittens ist die manchmal nicht oder nur be- kreten Fall kennen würden. [...] Sein Rück-
schränkt realisierte Möglichkeit in Betracht zu fallrisiko wird durch das Muster seiner Le-
ziehen, aus Rückmeldungen über die Diagno- bensumstände determiniert, nicht durch re-
serichtigkeit zu lernen (Holt, 1958). Dabei ist lative Häufigkeiten in der Population als
allerdings zu berücksichtigen, dass nicht bei al- ganzer. Tatsächlich ist psychologische Ver-
len diagnostischen Entscheidungen Rückmel- ursachung immer personell, niemals statis-
dungen im eigentlich wünschenswerten Um- tisch.
fang eingeholt werden können. Dies betrifft

145
5 Der Prozess der diagnostischen Urteilsbildung

Die klinische Diagnostik hat es hiernach mit werden. Inwieweit diese Daten kausal wirksa-
Vorhersagen in einem Einzelfall zu tun, nicht me Variablen beinhalten, ist eine andere Frage,
mit statistischen Durchschnittswerten, Häufig- die in diagnostischen Kontexten nicht immer
keiten oder Trends, die Gruppen von Personen relevant ist (z. B. wenn aus einem Symptom
betreffen. auf einen latenten Krankheitsprozess geschlos-
sen werden kann).
Von Befürwortern formeller Methoden wird
Allports Argument entgegnet, dass statistisch Auch ein zweites häufig vorgebrachtes Argu-
registrierte Häufigkeiten das Rückfallrisiko ment bezieht sich auf individuelle Besonder-
des Delinquenten natürlich nicht determinie- heiten konkreter Fälle. Danach kann der Kli-
ren. Solche Häufigkeiten erlauben es aber, das niker unter den Variablen einzigartige Muster
Risiko einzelner Personen abzuschätzen, die von Merkmalen entdecken, die statistischen
bestimmten Gruppen zugehören (im Beispiel: Modellen entgehen würden. So mag er bei ei-
Delinquenten mit zerrütteten Familienverhält- nem Klienten ein bestimmtes Muster aus Test-
nissen). Grundsätzlich ist jede Form der Dia- und Verhaltensdaten beobachten, das er schon
gnose oder Prognose probabilistisch. Ob die einmal bei einem anderen Klienten als Vorläu-
Vorhersagen einzelne Personen oder Gruppen fer eines Suizidversuchs registriert hat. Dar-
von Personen betreffen, ist hierfür unerheb- über hinaus wird vorgebracht, dass Kliniker
lich. Darüber hinaus müssen statistische Mo- meist noch über zusätzliche Information ver-
delle nicht notwendigerweise auf Gruppenda- fügen, z. B. aus dem unmittelbaren Kontakt
ten basieren. Auch für die Modellierung von mit dem Klienten oder aus Aussagen von Ver-
Regelmäßigkeiten, die einzelne Fälle betref- wandten und Freunden, die in eine statistische
fen, existiert ein reiches statistisches Metho- Vorhersage ebenfalls nicht eingehen, obwohl
denrepertoire. Einzelfallanalysen stellen kein sie evtl. Vorhersagewert besitzen.
statistisches, sondern eher ein praktisches Pro- Die „Statistiker“ weisen demgegenüber darauf
blem dar, da die Datengewinnung sehr viel hin, dass es letztlich Sache der empirischen
aufwändiger ist als bei den üblichen Gruppen- Forschung bleiben sollte, welche Variablen für
untersuchungen. eine Vorhersage genutzt werden. Grundsätz-
lich kann jedes Faktum in eine mathematische
Im Hinblick auf die Frage nach der Verur- Vorhersagefunktion eingehen, auch ein selte-
sachung sind statistische Modelle indifferent. nes Ereignis. Gleiches gilt für die Zusatzinfor-
Tatsächlich impliziert Vorhersage nicht Verur- mation aus Quellen, die in einem bestehenden
sachung. Beispielsweise bedeutet der Sachver- Modell bislang nicht berücksichtigt wurden.
halt, dass das Rückfallrisiko bei zerrütteten Fa- Wenn diese Information brauchbar ist (die Ge-
milienverhältnissen höher ist als bei normalen, nauigkeit der Vorhersage erhöht), sollte sie in
keineswegs, dass die Familienverhältnisse als die Gleichung aufgenommen werden. Erweist
Ursache oder auch nur Mitursache des Rück- sie sich als unbrauchbar oder redundant, ist es
falls anzusehen sind (obwohl dies natürlich unnötig, sie überhaupt zu erheben.
der Fall sein mag). Ob bestimmte Merkmale
Ursache eines Kriteriums sind, ist eine Frage Im Rahmen der Debatte zwischen Vertreten
der Theoriebildung und der darauf aufbauen- formeller und informeller Methoden wurde
den empirischen Forschung. Statistische Mo- eine Vielzahl weiterer Argumente und Gegen-
delle allein geben hierzu keine Auskunft. Mit argumente vorgebracht (siehe Grove & Meehl,
ihnen werden vielmehr bescheidenere Ziele 1996, für eine ausführliche Darstellung). Was
verfolgt: Auf der Basis gegebener Daten sol- auch immer man für informelle Methoden vor-
len die bestmöglichen Vorhersagen gemacht bringen mag: Die Tatsache, dass es bislang

146
5.2 Paramorphe Modelle des Diagnostizierens

nicht gelungen ist, Bedingungen ausfindig zu eines diagnostischen Systems ohnehin unab-
machen, unter denen sich die klinische Vor- dingbar. Der Mehraufwand für die Adaptation
hersage der statistischen als überlegen erweist, eines bestehenden Systems dürfte nicht viel
scheint es müßig zu machen, nach Defiziten höher ausfallen.
der formellen Datenkombination zu suchen,
Die Diskussion um die angemessene Metho-
die klinisch kompensierbar wären. Aussichts-
de der Datenkombination hält bis zur jüngs-
reicher ist es vielmehr, derartige Defizite durch
ten Zeit an (siehe z. B. Grove & Meehl, 1996;
die Weiterentwicklung formeller Methoden zu
Kuncel et al., 2013; Westen & Weinberger,
beheben.
2004). Eine ihrer wichtigsten Konsequenzen
bestand in dem Versuch, das Zustandekom-
Vieles spricht für die Forderung einer mög-
men der klinischen Urteilsbildung transparen-
lichst breiten Anwendung formeller Metho-
ter zu machen. Dieser Versuch mündete in die
den zur Beantwortung diagnostischer Frage-
Entwicklung paramorpher Modelle des Dia-
stellungen (Wiggins, 1973). Der vermehrten
gnostizierens.
Nutzung formeller Methoden der Datenkom-
bination steht allerdings die mangelnde Ver-
fügbarkeit geeigneter Modelle gegenüber. Wo
solche Modelle existieren, ist ihre Anwend- 5.2 Paramorphe Modelle des
barkeit auf die jeweiligen lokalen Gegeben- Diagnostizierens
heiten fraglich. So lässt sich etwa ein in den
USA entwickeltes Modell sicherlich nicht un-
besehen auf deutsche Verhältnisse übertragen,
5.2.1 Definition
auch wenn sich die jeweiligen Fragestellungen
Der Philosoph Hans Reichenbach (1938) hatte
weitgehend decken. Hier ist zumindest eine er-
in einer vielbeachteten Arbeit zwischen dem
neute Erprobung, ggf. auch eine Modifikation
„Kontext der Entdeckung“ und dem „Kontext
oder sogar Neukonstruktion des Modells not-
der Rechtfertigung“ wissenschaftlicher Theo-
wendig, was natürlich mit Kosten verbunden
rien unterschieden. Der Kontext der Entde-
ist.
ckung bezieht sich auf das „Wie“ des Zustan-
dekommens einer wissenschaftlichen Hypo-
Grove und Meehl (1996) weisen jedoch darauf
these, eines Modells oder einer Theorie. „Wie
hin, dass die hier anfallenden Kosten haupt-
kam Einstein dazu, die spezielle Relativitäts-
sächlich durch das systematische Verfolgen
theorie zu formulieren?“ wäre etwa eine Frage,
der Konsequenzen von Entscheidungen ent-
die man in diesem Kontext stellen könnte. Im
stehen, die auf Grundlage des Modells gefällt
Kontext der Rechtfertigung geht es dagegen
werden. Es müssen also Rückmeldungen über
um die logische Analyse der Bewährung einer
die Gültigkeit der Diagnosen bzw. Prognosen
Theorie. Hierfür könnte man z. B. Vorhersagen
eingeholt werden. Die Rückmeldungen geben
der relativistischen mit entsprechenden Vorher-
nicht nur Auskunft über das Funktionieren des
sagen der klassischen Mechanik vergleichen.
Systems, sie liefern auch wichtige Informati-
on für eine lokale Optimierung. Das Einholen Meehl (1954) wendet diese Unterscheidung
und Verarbeiten solcher Rückmeldungen ist auf den Prozess der klinischen Vorhersage an.
jedoch ein Teil der diagnostischen Tätigkeit, Der Kontext der Rechtfertigung bezieht sich
der in keinem Fall „eingespart“ werden sollte – dabei auf die etablierten Vorgehensweisen bei
auch nicht bei informeller Datenkombination. der Überprüfung der Gültigkeit einer Diagno-
Will man wissenschaftlich begründet arbeiten, se bzw. Vorhersage. Diese Vorgehensweisen
ist die periodische Prüfung des Funktionierens gelten in gleichem Maße für die klinische wie

147
5 Der Prozess der diagnostischen Urteilsbildung

für die statistische Vorhersage. Die bislang Hoffman (1960, 1968) nennt formelle Reprä-
geschilderten Untersuchungen und Überlegun- sentationen des diagnostischen Entscheidungs-
gen zum Vergleich formeller und informeller verhaltens paramorphe Modelle. Die Bezeich-
Methoden gehören in den Kontext der Recht- nung „paramorph“ soll betonen, dass solche
fertigung. Modelle nicht auf eine Abbildung der kogniti-
ven Prozesse beim Diagnostiker zielen. Viel-
Eine ganz andere Frage ist es, wie Diagnosti- mehr sollen sie den Zusammenhang zwischen
ker zu ihren Vorhersagen kommen. Hier befin- der Information, die ein Diagnostiker erhebt
den wir uns im Kontext der Entdeckung. Im oder die ihm zur Verfügung steht, und seinen
Kontext der Entdeckung geht es nicht um die Entscheidungen reproduzieren. Ein bestimm-
Validität eines Urteils, sondern vielmehr dar- tes paramorphes Modell stellt immer nur ei-
um, auf welchem Wege es zustande kommt. ne von mehreren möglichen Repräsentationen
Die Frage ist also: Welche Algorithmen und des Entscheidungsverhaltens dar – allerdings
Heuristiken wendet ein Diagnostiker an, um eines, das im Rahmen eines gegebenen Mo-
auf der Grundlage gegebener Information zu delltyps optimal ist. Im Vordergrund steht hier
einer Prädiktion zu gelangen? die Auswahl, Gewichtung und Kombination
von Daten im Hinblick auf Diagnosen. Es wird
Diese Frage lässt sich empirisch klären. Ein also versucht, durch ein formelles Modell dar-
naheliegender Weg wäre es, Diagnostiker ein- zustellen, welche Variablen ein Diagnostiker
fach zu befragen. Wir könnten einen Diagnos- als relevant erachtet und welche Bedeutung er
tiker also bitten, sein Vorgehen bei mehreren diesen Variablen für sein Urteil beimisst.
konkreten Diagnosefällen zu erläutern und ver-
suchen, die Regeln, nach denen er vorgeht, aus
seinen Angaben zu rekonstruieren. Eine ande-
re Möglichkeit bestünde darin, Diagnostiker 5.2.2 Erstellung
während der Bearbeitung eines Falls „laut den-
ken“ zu lassen und die resultierenden Protokol- Bei der Erstellung paramorpher Modelle fun-
le zu verwerten. Darüber hinaus kann man ver- gieren Diagnostiker als Probanden. Sie erhal-
suchen, die Input-Output-Relation zwischen ten Daten über eine Reihe von Personen und
Daten und Diagnosen mittels formeller Model- geben auf der Grundlage dieser Information
le zu beschreiben. Die genannten Vorgehens- für jede Person eine jeweils spezifische Dia-
weisen lassen sich natürlich auch kombinieren gnose hinsichtlich eines Merkmals ab. Bei
und miteinander vergleichen. Sie führen zu den Daten handelt es sich meist (aber nicht
deskriptiven (beschreibenden) Modellen des notwendigerweise nur) um Testdaten, etwa
Diagnostizierens. In deskriptiven Modellen ist ein Intelligenzprofil oder die Ergebnisse von
damit ein Diagnostiker gewissermaßen selbst Persönlichkeits-, Interessentests usw., sowie
Objekt psychologischer Modellbildung. um weitere Angaben, die für die Diagnose po-
tenziell relevant sind (etwa Geschlecht und
Wir konzentrieren uns im Folgenden auf for- Alter). Die Daten sollten natürlich möglichst
melle Repräsentationen der Beziehung zwi- repräsentativ für die Entscheidungssituation
schen Daten und Diagnosen. Solche formellen sein. Wichtig ist auch, dass sie sich in einer für
Repräsentationen sind von besonderem Inter- den jeweiligen Modelltyp geeigneten Weise
esse, weil es mit ihrer Hilfe in relativ einfacher symbolisch repräsentieren lassen (etwa durch
Weise möglich ist, die Datenkombination bei Zahlen). Das gleiche gilt auch für das jeweils
einem Diagnostiker auf die eines formellen geforderte Urteil (etwa Eignung für eine Stel-
Vorhersagesystems zu beziehen. le, Vorliegen einer spezifischen Angststörung),

148
5.2 Paramorphe Modelle des Diagnostizierens

was z. B. durch den Einsatz von Ratingskalen Um diese Grundtypen zu veranschaulichen,


erreicht werden kann. betrachten wir ein sehr einfaches fiktives Bei-
spiel. Nehmen wir an, das zu diagnostizieren-
Für die Modellierung des Urteils bieten sich de Kriterium Y sei das Auftreten schulischer
als erstes lineare Modelle an, etwa Regressio- Leistungsdefizite bei Grundschulkindern, das
nen der Entscheidung auf die Variablen, die der Diagnostiker auf einer Ratingskala ein-
Basis der Entscheidung sind. Anhand der ab- schätzt. Als Prädiktoren betrachten wir nur
gegebenen Urteile wird errechnet, welches pa- zwei Variablen, nämlich das Ausmaß des Kon-
ramorphe Modell die Datenkombination eines trollverhaltens beider Elternteile, jeweils ge-
Diagnostikers am besten repräsentiert. Neben messen auf einer Skala, die von „Laissez faire“
linearen Modellen betrachten wir im Folgen- bis zu extremer Einschränkung und Überwa-
den noch einen zweiten Modelltyp, nämlich chung reicht. X1 repräsentiere das Kontrollver-
Konfigurationsmodelle, bei deren Konstrukti- halten der Mutter, X2 das Kontrollverhalten
on stark von den Angaben des Diagnostikers des Vaters.
über sein Vorgehen Gebrauch gemacht wird.
Bei linearen Modell sind derartige Angaben Ein Haupteffektmodell zur Vorhersage einer
nicht notwendig. Diagnose könnte so aussehen:

Es ist wichtig, sich klar zu machen, dass es in Ŷ = 0.6X1 + 0.3X2 .


keinem der Modelle um die Bestimmung der
„Richtigkeit“ einer Diagnose geht. Vielmehr Dieses Modell würde aussagen, dass der Dia-
soll ein Algorithmus (im einfachsten Fall eine gnostiker das Erziehungsverhalten von Mutter
Gleichung) erstellt werden, der es ermöglicht, und Vater für die Vorhersage von Leistungs-
die Diagnose bei gegebenen Daten zu reprodu- defiziten als relevant erachtet: Je höher die
zieren. Ein gutes paramorphes Modell liefert Kontrolle beider Eltern ist, umso höher schätzt
bei gleichen Daten die gleichen Vorhersagen er das Risiko des Auftretens von Leistungsde-
wie der modellierte Diagnostiker. Ob diese fiziten ein. Dabei gibt er allerdings dem Ver-
Vorhersagen selbst valide sind oder nicht, ist halten der Mutter ein höheres Gewicht als dem
eine andere Frage. Verhalten des Vaters. Das Ausmaß väterlicher
Kontrolle wird vom Diagnostiker also als we-
niger bedeutsam eingeschätzt als das der Mut-
ter.
5.2.3 Lineare Modelle
Die allgemeine Form solcher Modelle hatten
wir bereits kennengelernt: Es handelt sich um
Bausteine ein multiples Regressionsmodell, in dem zwei
Prädiktoren additiv kombiniert werden. Dies
impliziert, dass der Effekt hoher Kontrolle der
In empirischen Untersuchungen mittels linea-
Mutter durch niedrige Kontrolle des Vaters
rer Modelle ließen sich mehrere Typen para-
teilweise kompensiert werden kann und um-
morpher Repräsentationen finden: (a) Hauptef-
gekehrt. Das Modell stellt gewissermaßen die
fektmodelle, (b) Modelle, die kurvilineare Be-
mathematische Formulierung der (eventuell
ziehungen beinhalten, und (c) Modelle, die In-
impliziten) Theorie des Diagnostikers über
teraktionen unter den Prädiktoren berücksich-
den Einfluss der beiden Erziehungsvariablen
tigen (Hoffman, 1960, 1968; Wiggins & Hoff-
auf die betrachtete abhängige Variable dar.
man, 1968; die Begriffe „Haupteffekt“ und
„Interaktion“ entstammen dem statistischen Ein zweiter Diagnostiker könnte von einem
Modell der Varianzanalyse). ganz anderen Modell geleitet werden. Für ihn

149
5 Der Prozess der diagnostischen Urteilsbildung

Abb. 5.3 Beispiele für kurvilineare (links) und interaktive (rechts) Beziehungen zwischen
Prädiktoren und einem Kriterium.

sind starke Kontrolle, aber auch extreme Ver- dies auch dann der Fall sein, wenn eine Prä-
nachlässigung für schulische Probleme ver- diktorvariable, z. B. das Kontrollverhalten der
antwortlich. Optimal ist für ihn ein mittleres Mutter, für die Diagnose umso bedeutsamer
(„ausgewogenes“) Maß an Kontrolle. In sei- ist, je stärker sie ausgeprägt ist.
nem Modell würde deshalb eine kurvilineare
Ein dritter Diagnostiker könnte Interaktionen
Beziehung zwischen Kontrolle (X1 ) und Leis-
zwischen den beiden Prädiktorvariablen für
tungsdefiziten bestehen, wie sie im linken Teil
die Vorhersage nutzen. Interaktive oder mo-
von I Abb. 5.3 dargestellt ist: Das Risiko für
derierende Beziehungen zwischen zwei Va-
Defizite ist bei mittlerer Kontrolle gering, bei
riablen liegen vor, wenn der Zusammenhang
extrem hoher und extrem niedriger Kontrol-
einer der beiden Variablen mit dem Kriteri-
le dagegen groß. Auch dieses Modell lässt
um von der Ausprägung der anderen Varia-
sich mathematisch darstellen: Es beinhaltet
blen abhängt. So könnte es z. B. sein, dass
Quadrat-Terme für einzelne Prädiktoren, z. B.
im Modell des Diagnostikers der väterlichen
Kontrolle ein nur geringer Effekt beigemessen
Ŷ = 5 − 2X1 + 0.2X12 .
wird, wenn die mütterliche Kontrolle niedrig,
Die sich ergebende Kurvilinearität erkennt dagegen ein deutlicher Effekt, wenn sie hoch
man, indem man probeweise Werte zwischen ausgeprägt ist (siehe I Abb. 5.3, rechter Teil).
1 und 9 für X1 einsetzt. Für den (mittleren) Interaktionen zwischen zwei Variablen kön-
Wert 5 wird das vorhergesagte Kriterium mi- nen mathematisch dargestellt werden, indem
nimal, mit zunehmenden Abweichungen von man die Terme des Haupteffektmodells um
diesem Wert fällt es höher aus. Generell lassen Produktausdrücke (gewichtete Produkte der
sich mit kurvilinearen Modellen Diagnosen Variablen) ergänzt wie in
abbilden, in denen die einer Variablen beige- Ŷ = 0.4X1 + 0.1X2 + 0.2X1 X2 .
messene Bedeutung von deren Ausprägung
abhängt und nicht – wie bei Haupteffektmo- Die beiden ersten Terme repräsentieren hier
dellen – konstant ist. Neben U-förmigen oder die Haupteffekte, der dritte die Interaktion zwi-
umgekehrt U-förmigen Beziehungen würde schen den beiden Erziehungsvariablen. Im Un-

150
5.2 Paramorphe Modelle des Diagnostizierens

terschied zum Haupteffektmodell hängt es in ist allerdings zu bemerken, dass ein Haupt-
interaktiven Modellen vom Muster der Varia- effektmodell auch manche nichtlineare Be-
blenausprägungen ab, welche Diagnose getrof- ziehung, die bei der Datenkombination ver-
fen wird. wendet wird, approximieren kann. Dies gilt
etwa für viele monoton steigende oder fallen-
Aus diesen einfachen Grundbausteinen de Funktionen. Hier ist der nichtlineare An-
(Haupteffekte, Quadrate, Produkte) lassen teil häufig zu gering ausgeprägt, um von der
sich durch Einführung weiterer Variablen mathematischen Prozedur „entdeckt“ werden
bereits recht komplexe Modelle zusammen- zu können. Auch Einschränkungen des Wer-
bauen, mit der sich eine Vielzahl diagnostisch tebereichs einer Variablen können dazu füh-
relevanter Prädiktorkombinationen abdecken ren, dass sich eigentlich nichtlineare Kombina-
lassen. tionen durch ein Haupteffektmodell recht gut
darstellen lassen. Im unserem Kontrollbeispiel
könnte dieser Fall etwa eintreten, wenn für
Empirische Befunde die Erstellung des paramorphen Modells nur
Diagnosefälle vorliegen, in denen mittlere bis
moderat hohe Kontrolle realisiert sind (Green,
Empirische Untersuchungen zeigen, dass sich
1968).
die Urteilsbildung bei Diagnostikern in vie-
len Bereichen bereits durch Haupteffektmo- Vergleichsstudien zeigen außerdem, dass Dia-
delle vergleichsweise gut repräsentieren las- gnostiker häufig die Gewichte, die sie einzel-
sen (Hoffman, 1960, 1968; Wiggins & Hoff- nen Variablen beimessen, anders einschätzen
man, 1968). Die Berücksichtigung kurvili- als „ihr“ paramorphes Modell. Einige Varia-
nearer oder interaktiver Variablenbeziehungen blen, die sie bei einer Diagnose für sehr wich-
verbessern die Anpassung der Modelle an das tig halten, kommen in der aufgrund ihres tat-
„Diagnoseverhalten“ häufig nicht substanziell. sächlichen Diagnoseverhaltens aufgestellten
Gleichung nur mit geringem Gewicht vor und
Dies steht in einem gewissen Kontrast zu den umgekehrt. Darüber hinaus halten Diagnos-
Angaben der Diagnostiker selbst. Wie bereits tiker oft mehr Variablen für relevant als zur
angedeutet, kann man Diagnostiker bitten, ihr Modellierung ihres Urteilsverhaltens benötigt
Vorgehen bei der Kombination von Daten so werden. Insgesamt sind die subjektiv reprä-
genau wie möglich zu beschreiben. Anschlie- sentierten Regeln meist komplizierter als die
ßend kann man diese Beschreibung ebenfalls paramorphen Modelle.
durch ein formelles Modell repräsentieren (ein
konkretes Beispiel hierfür werden wir unten Dies ist allerdings insofern nicht erstaunlich,
noch diskutieren). Man kann nun vergleichen, als die mathematischen Modelle, wie wir be-
welches Modell der Diagnostiker anzuwen- reits bemerkt hatten, gewissermaßen auf Spar-
den glaubt und welches Modell seine aktuelle samkeit getrimmt werden. Diagnostische Indi-
Datenkombination tatsächlich am besten re- katoren, die im Allgemeinen redundant sind,
präsentiert. werden aus den Modellen eliminiert. Immer-
hin lässt sich aus solchen Befunden der Ver-
Solche Vergleiche zeigen, dass manche Dia- dacht ableiten, dass Diagnostiker zu viele Va-
gnostiker ihr Vorgehen für komplexer halten, riablen benutzen, was eine Erhöhung der Kos-
als es faktisch ist. Sie geben z. B. an, nach ei- ten der Diagnostik, vermeidbare Belastung
nem quadratischen oder interaktiven Modell beim Klienten und eine Überlastung bei der
vorzugehen, wo schon ein einfaches Hauptef- Integration der Daten durch den Diagnostiker
fektmodell ihre Diagnosen gut abbildet. Hier zur Folge haben kann (I Kap. 7).

151
5 Der Prozess der diagnostischen Urteilsbildung

Ein auf den ersten Blick überraschender Be- Im Selbstverständnis von Diagnostikern sind
fund ist in die Literatur unter der Bezeichnung es meist Ausprägungsmuster von Variablen,
„Goldbergs Paradox“ eingegangen. Goldberg die für Entscheidungen ausschlaggebend sind.
(1970) hatte gefunden, dass regressionsanaly- Die Bedeutung einer Variablen hängt also da-
tische paramorphe Modelle von Klinikern das von ab, welche Ausprägungen auf anderen Va-
Kriterium „Vorliegen einer Psychose vs. Vor- riablen in einem konkreten Fall vorliegen. In
liegen einer Neurose“ besser diagnostizierten paramorphen Modellen würde sich dies in spe-
als die Kliniker selbst. (Die Daten waren die zifischen Interaktionen niederschlagen. Wie
gleichen wie in der oben beschriebenen Studie kurvilineare Beziehungen sind solche Inter-
von 1965.) Der Grund hierfür liegt offenbar aktionen jedoch manchmal schwer aufzude-
darin, dass Diagnostiker ihre Gewichte von cken, worunter die Akzeptanz des Modells
Fall zu Fall verändern – also in inkonsistenter leiden wird. Das Versagen des Aufdeckens
Weise anwenden. Ein derartige fallspezifische von Interaktionen betrifft insbesondere Kom-
Anpassung führt das paramorphe Modell nicht pensationsmöglichkeiten unter den relevanten
durch. Solche Befunde haben zu der Empfeh- Prädiktorvariablen, die in linearen Modellen
lung geführt, gute Diagnostiker zu modellieren grundsätzlich zugelassen, in der Praxis aber
und Diagnosen auf der Basis ihrer paramor- manchmal nicht sinnvoll sind und deshalb vom
phen Modelle zu erstellen (Dudycha & Naylor, Diagnostiker ausgeschlossen würden. So ist
1966; Wiggins, 1973). es offensichtlich, dass bei bestimmten Fragen
der Eignungsdiagnose ein Defizit in einer kri-
Schließlich zeigte sich, dass viele Diagnosti-
tischen Variablen durch keinen noch so hohen
ker ihre Entscheidungsregeln nicht vollstän-
Wert in einer anderen Variable kompensiert
dig explizieren können. Offensichtlich sind
werden kann. Hier sind Konfigurationsmodel-
sich Diagnostiker ihrer eigenen Kombinati-
le geeigneter, die – wie wir gleich sehen wer-
onsschritte nicht voll bewusst und können sie
den – Kompensationsmöglichkeiten nur dort
deshalb auch nicht ohne Weiteres verbal dar-
zulassen, wo diese auch sachlich gerechtfertigt
stellen. Wottawa, Krumpholz und Mooshage
sind.
(1982) bemerken, dass direktes Befragen von
Diagnostikern häufig nur Lehrbuchwissen zu Noch kritischer für die Akzeptanz dürfte al-
Tage fördert, das sich mit dem tatsächlichen lerdings sein, dass der tatsächliche Entschei-
Verhalten nicht immer deckt. dungsablauf in den Modellen in keiner Weise
repräsentiert ist. Diagnostische Entscheidun-
Obgleich lineare Modelle in der Regel gu-
gen bestehen in der Praxis nicht darin, dass
te Approximationen des Entscheidungsverhal-
man Variablenwerte, die man in einem Fall
tens von Diagnostikern liefern, werden sie von
gewonnen hat, in eine Vorhersagegleichung
Diagnostikern häufig als artifiziell empfunden
einsetzt; derartige Entscheidungen stellen viel-
und nicht als angemessene Beschreibungen ih-
mehr sequenziell organisierte Prozesse dar.
rer Urteilsbildung akzeptiert. Tatsächlich wäre
Diese wesentliche Eigenschaft wird in den
es erstaunlich und darüber hinaus ineffizient,
bislang besprochenen paramorphen Modellen
wenn ein Diagnostiker, der nicht von vorn-
jedoch nicht berücksichtigt. Bestimmte Konfi-
herein statistische Werkzeuge zur Vorhersage
gurationsmodelle kommen dieser Eigenschaft
benutzt, relevante Prädiktorvariablen nach ei-
näher, da sie es ermöglichen, die einzelnen
nem Regressionsmodell kombinieren würde,
Entscheidungsschritte, die zu einer Diagnose
nur eben nicht rechnerisch, sondern intuitiv.
führen, in logischer Form abzubilden. Solche
Dies käme einem Wettstreit mit einem Com-
Modelle und deren Erstellung werden im Fol-
puterprogramm gleich, den der Diagnostiker
genden dargestellt.
kaum gewinnen kann.

152
5.2 Paramorphe Modelle des Diagnostizierens

5.2.4 Konfigurationsmodelle können. Erreicht eine Person auf V überdurch-


schnittliche Werte bleibt sie im Verfahren,
auch wenn sie das Kriterium für Test K nicht
Definition
erfüllt. Kompensationsmöglichkeiten entspre-
chen damit logischen „oder“-Verknüpfungen
Konfigurationsmodelle lassen sich als Fluss- von Aussagen. Im Beispiel muss der K-Wert
diagramme darstellen. In ihnen werden Ent- größer als 0.5 oder der V-Wert größer als 1
scheidungen in der Form einer Sequenz von sein, damit ein Bewerber nicht bereits ohne
Wenn-Dann-Regeln rekonstruiert, die bei ei- Ansehen des E-Werts abgelehnt wird.
ner Diagnose abgearbeitet werden. Die Mo-
delle heißen deshalb konfigurational, weil die Für die Erstellung und Prüfung solcher Mo-
Personen ein bestimmtes Muster von Werten delle existieren statistische Prozeduren, die
(eine Konfiguration) aufweisen müssen, da- allerdings komplexer und rechnerisch aufwän-
mit eine bestimmte Diagnose, z. B. geeigneter diger sind als die Regressionsmodelle, die wir
Bewerber, depressiv, schulängstlich, gestellt bislang behandelt haben. Um zu sinnvoll inter-
wird. Zwischen den Variablen, auf denen die pretierbaren Ergebnissen zu gelangen, ist hier
Diagnose basiert, können auch kompensato- menschliche Supervision und Intervention (et-
rische Beziehungen bestehen. Allerdings er- wa im Sinne des Einbaus von Wissens über
geben sich diese nicht, wie bei den linearen den Gegenstandsbereich) in stärkerem Maße
Modellen, zwangsläufig. gefordert als dies bei Regressionsmodellen der
I Abb. 5.4 (linker Teil) illustriert ein ein- Fall ist. Im folgenden Abschnitt betrachten wir
faches Konfigurationsmodell, in dem keine ein konkretes Beispiel für das Vorgehen.
Kompensation zugelassen ist. In dem fiktiven
Beispiel handelt es sich um eine Bewerbungs-
situation, in der drei Variablen für die Emp-
fehlung zur Annahme oder Ablehnung rele- Hypothesenagglutinierung
vant sind: Konzentrationsvermögen (K), emo-
tionale Stabilität (E) und Gewissenhaftigkeit
(G), jeweils gemessen in z-Werten. In Wor- Eine sehr elaborierte Form der Rekonstrukti-
ten kann man dieses Modell so ausdrücken: on der diagnostischen Urteilsbildung in Form
„Wenn die Konzentration mindestens leicht konfigurationaler Modelle wurde von Wotta-
überdurchschnittlich ausfällt (z > 0.5) und die wa und Kollegen unter der Bezeichnung Hy-
emotionale Stabilität nicht deutlich unter dem pothesenagglutinierung (abgekürzt HYPAG)
Durchschnitt liegt (z > -1) und die Gewissen- vorgestellt (Wottawa, 1987; Wottawa & Hos-
haftigkeit überdurchschnittlich ausfällt (z > siep, 1987; Wottawa et al., 1982). Es handelt
1), empfehle Annahme, ansonsten empfehle sich um ein Verfahren der schrittweisen Re-
Ablehnung.“ Es sind hier also bestimmte Kon- konstruktion diagnostischer Entscheidungen
figurationen von Variablenausprägungen, die in der Form logisch miteinander verknüpfter
vorliegen müssen, damit eine bestimmte Dia- („agglutinierter“) Hypothesen (Wenn-Dann-
gnose erfolgt. Regeln), die zu einer Diagnose führen. Ziel ist
es dabei, die häufig nur impliziten Entschei-
Der rechte Teil von I Abb. 5.4 zeigt ein Mo- dungsregeln von Diagnostikern im Rahmen
dell, in dem niedrige Werte auf der Variablen eines Wechselspiels zwischen Befragung, Be-
K nicht sofort zu Ablehnung führen, sondern gründung, vorläufiger Regelformulierung und
vielmehr durch hohe Werte auf der Variablen deren anschließender Modifikation explizit zu
V (einem Vigilanztest) kompensiert werden machen.

153
5 Der Prozess der diagnostischen Urteilsbildung

(A) Ohne Kompensation (B) Mit Kompensation

K > 0.5 E > -1 G>1 K > 0.5 E > -1 Annahme

Ja
Ablehnung Annahme V>1 Ablehnung
Nein

Abb. 5.4 Zwei einfache Konfigurationsmodelle.

Die Rekonstruktion der Entscheidungsregeln der Bewerber abgelehnt, ansonsten bleibt er


erfolgt in einem Dialog zwischen einem In- vorläufig im Verfahren. Wichtig ist, dass sich
terviewer und einem Diagnostiker und zwar „Begründung“ hier nicht auf die rationale Ba-
anhand einer Reihe dokumentierter Fälle. Als sis der Regel bezieht – etwa auf Fragen wie
Beispiel betrachten wir eine realistische Se- „Warum ist räumliches Vorstellungsvermögen
lektionsfragestellung (Wottawa & Echterhoff, hier relevant?“ oder „Weshalb wurde für die
1982): Kann ein Bewerber für den Beruf des Messung Test A und nicht Test B verwendet?“
Metallfacharbeiters empfohlen werden oder – sondern auf die Spezifikation der Ausprägung
nicht? einer Indikatorvariablen.
Der Interviewer legt dem Diagnostiker einen Möglicherweise ist es bereits an dieser Stelle
der Fälle vor und bittet ihn um eine Begrün- möglich, für weitere Variablen, die der Dia-
dung seiner Entscheidung. Nehmen wir an, gnostiker als relevant erachtet, entsprechende
der Bewerber sei abgelehnt worden. Der Dia- Regeln zu formulieren. Der Interviewer könn-
gnostiker begründet seine Entscheidung damit, te etwa fortfahren: „Sie hatten erwähnt, dass
dass der Bewerber in einem Test des räumli- noch andere Variablen für die Entscheidung
chen Vorstellungsvermögens weit unterdurch- wichtig waren.“ – „Ja, der Bewerber hatte z. B.
schnittliche Leistungen manifestiert habe, was eine fünf in Mathematik. Nun muss ein Me-
für den Beruf des Metallfacharbeiters ungüns- tallfacharbeiter sicherlich kein Rechengenie
tig sei. Der Interviewer wird hier etwas nach- sein, aber mindestens eine 4 im Abschluss-
haken und den Diagnostiker fragen, wo er zeugnis sollte man erwarten.“ Damit hat der
denn bei dem verwendeten Test zum räum- Interviewer eine zweite Regel gewonnen. Die
lichen Vorstellungsvermögen den Trennwert Regeln bilden einen Teil des vorläufigen Mo-
(engl. cutoff ) festsetzen würde. Der Diagnosti- dells und werden in EDV-gerechter Form ge-
ker antwortet, dass der entsprechende C-Wert speichert. Anschließend wird zum nächsten
für eine Empfehlung mindestens 4 betragen Fall übergegangen, anhand dessen sich evtl.
solle, dass aber natürlich weitere Variablen zu weitere Regeln, die der Diagnostiker für seine
berücksichtigen seien. (C-Werte sind Standard- Entscheidung benutzt, aufdecken lassen. Das
normen mit einem Mittelwert von 5 und einer Modell wird anhand der bearbeiteten Fälle al-
Standardabweichung von 2.) Damit kann der so sukzessive angereichert.
Interviewer eine erste explizite Regel formulie-
ren: Wenn der C-Wert im Test zum räumlichen Sobald ein genügend angereichertes Modell
Vorstellungsvermögen kleiner als 4 ist, wird vorliegt, wird dieses auf den jeweils bearbeite-

154
5.2 Paramorphe Modelle des Diagnostizierens

ten Entscheidungsfall angewendet. Diese An- Modelltests können Modifikationen notwen-


wendung kann drei mögliche Resultate haben. dig machen.
Der Algorithmus des Modells kann zur glei-
Die beschriebenen Schritte werden so lange
chen Entscheidung gelangen wie der Diagnos-
iteriert, bis sich eine akzeptable Passung zwi-
tiker. In diesem Fall liegt ein Treffer des Mo-
schen den Entscheidungen des Modells und
dells vor, woraufhin man direkt zum nächsten
den Entscheidungen des Diagnostikers ein-
Fall übergehen kann.
stellt. „Akzeptable Passung“ könnte dabei et-
Es kann zweitens sein, dass die Modellent- wa so festgelegt werden, dass Modell und Dia-
scheidung anders ausfällt als die des Diagno- gnostiker in mindestens 95 % der Fälle zur
stikers. Diese Diskrepanz wird als Fehler be- gleichen Entscheidung (positiv oder negativ)
zeichnet. Fehler können darauf zurückgehen, gelangen. Ist das Modell erstellt, wird in ei-
dass das Modell noch nicht perfekt ist und mo- nem letzten Schritt eine Kreuzvalidierung an
difiziert werden muss. Sie können aber auch in neuen (z. B. bislang zurückgehaltenen) Fällen
einem inkonsistenten Vorgehen des Diagnosti- vorgenommen. Die Trefferrate, die anhand der
kers begründet sein. In jedem Fall werden Feh- neuen Fälle gewonnen wird, liefert einen Indi-
ler dem Diagnostiker zurückgemeldet. Even- kator der Leistungsfähigkeit des Modells und
tuell wird das Modell dann auf der Grundlage stellt die eigentliche Bewährungsprobe des ge-
seiner Kommentare modifiziert. samten Verfahrens dar. Wir hatten bereits be-
sprochen, dass Kreuzvalidierung hier nichts
Ein drittes Resultat besteht darin, dass das Mo- über die Validität der Diagnose selbst aussagt,
dell keine Entscheidung treffen kann, weil sei- sondern vielmehr die Güte betrifft, mit der die
ne „Wenn-Teile“ im konkreten Fall nicht grei- diagnostischen Urteile vorhersagt werden kön-
fen: Der Fall ist durch das Modell (noch) nicht nen.
entscheidbar. In unserem Beispiel würde das
alle Bewerber betreffen, deren C-Wert im Test I Abb. 5.5 stellt das endgültige Modell dar,
zum räumlichen Vorstellungsvermögen min- das von Wottawa und Echterhoff (1982) re-
destens 4 und deren Mathematiknote besser konstruiert wurde. Wie ersichtlich, wird hier
als 5 ist. Das Modell kann noch keine positive zunächst geprüft, ob die Anwendung des Mo-
Entscheidung fällen und muss entsprechend dells überhaupt sinnvoll ist. Ein Sonderfall, bei
elaboriert werden. Auch dies wird dem Dia- denen die Modellanwendung unangebracht ist,
gnostiker rückgemeldet. Auf der Basis seiner könnte z. B. bei einem Bewerber mit Sprach-
Kommentare wird dann versucht, das Modell problemen oder bei einem Schwerbehinderten
um weitere Regeln zu ergänzen, die eine Ent- vorliegen. Geprüft werden Aspekte des räum-
scheidung im konkreten Fall ermöglichen. lichen Vorstellungsvermögens (LPS 8), das lo-
gische Denken (LPS 3+4; die Kriterien sind je-
Nach Modifikationen oder Ergänzungen des weils C-Werte), die längerfristige Konzentrati-
alten Modells wird das neue Modell an allen onsfähigkeit (Pauli-Test) sowie die Zeugnisno-
bereits abgearbeiteten Fällen geprüft. Hiermit ten im Grundrechnen und angewandten Rech-
soll sichergestellt werden, dass sich dessen nen (I Kap. 12). Im Modell besteht an einer
Leistung durch die vorgenommenen Revisio- Stelle eine Kompensationsmöglichkeit. In der
nen nicht verschlechtert: Die vorher bearbeite- Abbildung ist der letzte Schritt vor der Ent-
ten Fälle sollten also nach der Revision noch scheidung die Prüfung der Note im angewand-
in gleicher Weise klassifiziert werden wie vor ten Rechnen. Wer hier nicht mindestens ein
ihr. Zudem sollten alle vorher bearbeiteten Fäl- „ausreichend“ aufweist, scheidet nicht sofort
le auch durch das revidierte Modell noch ent- aus, sondern kann dies durch seine Leistung in
scheidbar sein. Auch die Ergebnisse dieses den Tests zum logischen Denken (LPS 3 und

155
5 Der Prozess der diagnostischen Urteilsbildung

Hinweise auf Modellanwendung


Sonderfall? unangebracht

LPS 8 > 3

LPS 3+4 > 2

Pauli-Test > 1200 Ablehnung

Grundrechnen < 5

Angewandtes
LPS 3+4 > 3
Rechnen < 5

JA
Annahme
NEIN

Abb. 5.5 Beispiel eines konfigurationalen Modells (nach Wottawa & Echterhoff, 1982).

4) eventuell kompensieren. Dieser Test war dungsfindung eingesetzt werden. Ein gut pas-
bereits in einem vorhergehenden Prüfschritt sendes konfigurationales Modell trifft bei ge-
involviert, dort allerdings mit einem schwä- gebener Datenlage ja meist die gleichen Urtei-
cheren Trennwert, nämlich 2. le wie der Diagnostiker. Die Erstellung eines
kleinen Computerprogramms, das die jeweils
Für die Erstellung eines Modells müssen ca. relevanten Daten aufnimmt und entsprechend
200 bis 300 Fälle abgearbeitet werden. Die des rekonstruierten Regelsystems verarbeitet,
jeweils benötigte Zahl hängt allerdings sehr ist nicht sonderlich aufwändig.
stark von der Komplexität der jeweiligen Ent-
scheidungssituation ab. In Kreuzvalidierungen Wottawa und Hossiep (1987) berichten über
können häufig Trefferraten von mehr als 90% eine Reihe interessanter Erfahrungen bei der
erreicht werden. Modelle, die auf der Basis Erstellung solcher Modelle. Zunächst fällt auf,
der Hypothesenagglutinierung erstellt werden, dass eine gewisse fachliche Naivität des In-
schneiden dabei manchmal deutlich besser ab terviewers in dem in Rede stehenden Anwen-
als „automatische“ Methoden auf der Basis li- dungsbereich günstig ist. Offenbar verhindert
nearer Modelle. Wie andere formelle Modelle dies Diskussionen über die Angemessenheit
können die erstellten Algorithmen zur Verein- des diagnostischen Vorgehens und schwächt
fachung und Automatisierung der Entschei- eine beim Interviewer evtl. vorhandene Ten-

156
5.3 Vorteile expliziter Modelle

denz, eigene („bessere“) Regeln einzubrin- Transparenz. Es werden explizite Regeln, Al-
gen. Die Rückmeldung von Fehlern, die ja gorithmen oder Prozeduren formuliert, auf de-
manchmal auf Widersprüche und Inkonsisten- ren Grundlage Diagnosen und Prognosen er-
zen in der Diagnosebegründung zurückgehen, stellt werden. Das Zustandekommen der Ent-
verlangt ein gewisses gesprächstaktisches Ge- scheidung ist damit transparent und nachvoll-
schick des Interviewers. Auch die Überset- ziehbar. Für die rationale Begründung eines
zung der Aussagen des Diagnostikers in ein Diagnosesystems ist Transparenz unabding-
formelles Regelsystem stellt natürlich recht bar.
hohe Ansprüche.
Optimierbarkeit. Explizite Regeln ermögli-
Was die Akzeptanz der Modelle betrifft, wer- chen es darüber hinaus, ein System auf der
den Vorteile gegenüber rein statistischen Ver- Basis von Rückmeldungen zu verbessern. Bei
fahren erwartet. Diese Erwartung gründet in impliziter Datenkombination kann man nur
der Nähe der Modelle zum diagnostischen Ent- global feststellen, wie gut das System als
scheidungsablauf sowie in der Tatsache, dass Ganzes funktioniert. Allein explizite Systeme
die Modellkonstruktion in „lebendiger Zusam- bieten spezifische Ansatzpunkte für notwen-
menarbeit“ mit dem Diagnostiker erfolgt. dige Optimierungsbemühungen. Eine syste-
matische, sinnvollerweise datenbankgestützte
Die Akzeptanz scheint allerdings nicht in allen
Falldokumentation ermöglicht es, die Konse-
diagnostischen Anwendungsfeldern gleichmä-
quenzen von Modellmodifikationen an bereits
ßig hoch zu sein. Während etwa Diagnostiker
bestehenden Datensätzen abzuschätzen. Hier-
im Bereich der Personalberatung und -auslese
mit wird gewährleistet, dass Eingriffe in das
die Modelle gern zur Vereinfachung der ei-
Modell dessen diagnostischen bzw. prognosti-
genen Entscheidungsfindung einsetzen, sind
schen Wert nicht mindern. Vergangene Erfah-
Psychologen im klinischen Bereich teilweise
rungen können damit für die Weiterentwick-
überrascht, dass sich Entscheidungsprozesse
lung diagnostischer Prozeduren genutzt wer-
überhaupt modellieren lassen und begegnen
den. Die Verfügbarkeit leistungsfähiger und
den Modellen (auch wenn es „ihre“ Modelle
billiger Hardware, sowie einfach zu benutzen-
sind) manchmal mit einer gewissen Skepsis.
der Software zur Falldokumentation und Da-
tenanalyse hält den hierfür nötigen zeitlichen
Aufwand in Grenzen, die den der traditionel-
len Archivierung nicht überschreiten.
5.3 Vorteile expliziter Modelle
Lernen und Erfahrungsaustausch. Das Er-
lernen der diagnostischen Praxis ist einfacher
Formelle Methoden der Datenkombi- und für diagnostische Anfänger durchschau-
nation, wie man sie auf der Basis der barer. Wie Wottawa und Hossiep (1987) aus-
empirischen Untersuchung von Prädiktor- führen, ist die (manchmal noch geübte) Praxis
Kriteriumszusammenhängen, aber auch auf des „Lernens am Modell“ – jüngere Kollegen
der Basis paramorpher Modelle gewinnen beobachten ältere und lesen an deren Entschei-
kann, besitzen eine Reihe gewichtiger Vorteile dungen die „angemessene“ Vorgehensweise
gegenüber informellen Vorgehensweisen. Wir ab – recht ineffizient. Darüber hinaus ist sie ge-
hatten solche Vorteile in den vorhergehenden genüber Innovationsvorschlägen naturgemäß
Abschnitten bereits an diversen Stellen nicht sehr offen. Auch die Kommunikation
besprochen und wollen sie hier noch einmal von Erfahrungen zwischen verschiedenen Dia-
zusammenfassen. gnostikern, die an ähnlichen Fragestellungen

157
5 Der Prozess der diagnostischen Urteilsbildung

arbeiten, wird durch explizite Regeln geför- Kriterien), diese Frage offen lassen. Einiges
dert (Wottawa et al., 1982). Wichtig ist dies spricht jedoch dafür, dass paramorphe Model-
z. B. hinsichtlich einer wünschenswerten Ver- le mindestens genauso gut abschneiden wie
einheitlichung des Vorgehens. Nur bei Vorlie- die informellen Urteile von Diagnostikern, de-
gen expliziter Regeln können Gemeinsamkei- ren Verhalten sie abbilden. In jedem Fall er-
ten und Differenzen verschiedener Diagnos- leichtern explizite Modelle die Identifikation
tiker genau lokalisiert und im Hinblick auf von Regeln oder Teilregeln, die die Vorher-
mögliche Konsequenzen bewertet werden. sagegenauigkeit beeinträchtigen und machen
diagnostische Prozeduren offen für empirie-
Entlastung. Bei der Erstellung paramorpher geleitete Modifikationen, die deren Validität
Modelle werden oft Redundanzen zwischen erhöhen. Die systematische Aufzeichnung und
Indikatoren aufgedeckt, die eliminiert werden Verwertung des Erfolgs einzelner Diagnosen
können. Die Reduktion der Zahl erhobener oder Prognosen ermöglicht es, Information zu
Variablen mindert nicht nur die Kosten der gewinnen, die für eine Verbesserung künftiger
Diagnostik, sie verringert auch die Belastung Entscheidungen sehr hilfreich sein kann.
der Klienten. Überdies können Teilaspekte der
Entscheidungsfindung – insbesondere bei Rou-
tinefällen – automatisiert werden, was auch
den Diagnostiker entlastet. Die Bereitstellung 5.4 Nutzung der klinischen
von Entscheidungshilfen, teilweise auch die Inferenz
computergestützte automatische Diagnose auf
der Basis formeller Prozeduren sind vielver-
sprechende Anwendungen paramorpher Mo- Wir kehren abschließend noch einmal zur Va-
delle. lidität der informellen diagnostischen Urteils-
bildung zurück. Eine wesentliche Datenquelle
Konsistenz. Ein wesentliches Merkmal for- für diese Art der Urteilsbildung liefern ver-
meller Prozeduren liegt darin, dass sie kon- bale und nonverbale Äußerungen von Perso-
sistente Entscheidungen liefern. Sie sind da- nen, die klinische Psychologen im Rahmen
mit – im Sinne des Testgütekriteriums – objek- von Interviews und anderen mehr oder we-
tiv. Hinsichtlich der Fairness diagnostischer niger vorstrukturierten Erhebungssituationen
Entscheidungen, besonders solcher, die mit beobachten. Die bislang dargestellten Untersu-
weitreichenden Konsequenzen für die beur- chungsergebnisse und Überlegungen scheinen
teilten Personen verbunden sind, ist dies eine den Nutzen solcher Daten in Frage zu stellen
sehr wichtige Eigenschaft. Konsistenz allein – was natürlich in scharfem Kontrast zur Ein-
gewährleistet natürlich noch keine Fairness; schätzung vieler klinisch tätiger Psychologen
mangelnde Fairness kann auch in den Ent- steht.
scheidungsregeln begründet sein. Immerhin
garantiert sie Gleichbehandlung aller Perso- Bereits Meehl (1959) hatte vermutet, dass Da-
nen, was bei intuitiver Datenkombination nicht ten aus Interviews wertvolle Beiträge zur Vor-
vorausgesetzt werden kann. hersage machen können, wenn sie in geeigne-
ter Weise verwertet werden, etwa durch Benut-
Validität. Die Frage der Validität war, wie wir zung eines testähnlichen Formats zu ihrer Re-
sahen, Ausgangspunkt der Diskussion um die gistrierung (I Kap. 8). In Übereinstimmung
diagnostische Urteilsbildung. Wir hatten be- hiermit fand Sawyer (1966) anhand einer Li-
sprochen, dass Modelle, welche die Urteils- teraturanalyse Belege dafür, dass die statisti-
bildung selbst rekonstruieren (im Unterschied sche Vorhersage deutlich profitierte, wenn Da-
zu empirischen Vorhersagemodellen externer ten aus Interviews bzw. freien Beobachtungen

158
5.4 Nutzung der klinischen Inferenz

und psychometrische Daten (z. B. aus Tests) Kategorien ein (0 = trifft nicht zu/ist nicht an-
gleichzeitig berücksichtigt wurden. Er schluss- wendbar, 7 = trifft sehr zu). Die Feststellungen
folgerte, dass informelle Beobachtungen, wie beschreiben zum Teil relativ verhaltensnahe
sie im persönlichen Kontakt zwischen Diagno- Sachverhalte (z. B. „rennt von zu Hause weg“),
stiker und Klient anfallen, die Validität von zum Teil verlangen sie ein gewisses Maß an In-
Diagnosen und Prognosen substanziell erhö- ferenz (z. B. „glaubt, dass seine/ihre Probleme
hen können. Der wichtige Beitrag klinischer durch externe Faktoren bedingt sind“).
Diagnostiker liegt Sawyers Analyse zufolge
Alle Items sind relativ einfach und ohne Anbin-
nicht in der Vorhersage selbst, sondern viel-
dung an die Terminologie einer spezifischen
mehr im Bereitstellen von Daten für die Vor-
therapeutischen Schule formuliert. Dies soll
hersage, die in formeller Weise erfolgen solle.
eine breite Anwendbarkeit des Verfahrens si-
Hierfür müssen die „klinischen Daten“ aller-
chern. Die verwendeten Feststellungen wur-
dings in geeigneter Weise aufbereitet werden.
den in Zusammenarbeit mit klinischen Psycho-
Dieser Gedanke wurde in jüngerer Zeit weiter- logen auf ihre Brauchbarkeit geprüft. Darüber
geführt. Wie Westen und Weinberger (2004) hinaus wurde das Verfahren mit den gängigen
hervorheben, ist es dabei entscheidend, die psychometrischen Methoden optimiert.
Beobachtungen so aufzuzeichnen, dass der Westen et al. (2003) sammelten mit dem Ver-
potenzielle Nutzen klinischer Expertise maxi- fahren professionelle Beurteilungen von meh-
miert wird. Shedler und Westen (z. B. Shedler reren hundert Adoleszenten, die als Patien-
& Westen, 1998) entwickelten hierfür z. B. ein ten bei klinischen Psychologen oder Psych-
Q-Sort-Verfahren zur Persönlichkeitsbeschrei- iatern in Behandlung waren. Mittels einer sta-
bung, das speziell auf den Einsatz durch klini- tistischen Klassifikation der von den Psycho-
sche Experten abgestimmt ist (Shedler-Westen logen und Psychiatern vorgenommenen Q-
Assessment Procedure, SWAP-200). Sortierungen konnten sie fünf prototypische
Beim Q-Sort-Verfahren werden auf Karten ge- Muster, also distinkte Gruppenprofile, aus-
druckte persönlichkeitsbeschreibende Adjekti- machen: antisozial-psychopathisch, emotio-
ve oder Feststellungen in eine von mehreren nal dysreguliert, vermeidend, narzisstisch und
vorgegebenen Kategorien sortiert. Die Kate- gehemmt-selbstkritisch. Bei den ersten vier
gorien benennen das Ausmaß, in dem das Ad- handelt es sich um klinisch relevante Formen
jektiv oder die Feststellung auf die zu beur- von Persönlichkeitsstörungen, bei der letzten
teilende Person zutrifft. Das Verfahren eignet um einen weniger kritischen Persönlichkeits-
sich damit sehr gut zur Persönlichkeitsklassifi- stil.
kation und – wenn entsprechende empirische Das antisozial-psychopathische Bild etwa ist
Studien durchgeführt wurden – auch zur Vor- u. a. durch die folgenden Beschreibungen ge-
hersage mit den erfassten Merkmalen assozi- kennzeichnet: rebellisch, aufsässig gegen Au-
ierter Kriterien (I Kap. 9, S. 241f). toritätsfiguren, intensiver und situationsunan-
gemessener Ärgerausdruck, Schuld für eigene
In einer Version des Verfahrens, die zur Zeit
Fehler bei anderen suchen, Wut und Erniedri-
für die Klassifizierung von Persönlichkeits-
gung als Reaktion auf Kritik, Unzuverlässig-
störungen bei Adoleszenten entwickelt wird
keit und mangelnde Bereitschaft, Verantwor-
(SWAP-200-A), sortiert ein klinischer Psycho-
tung zu übernehmen.
loge auf der Basis eines Interviews oder an-
derer Beobachtungen, die etwa während ei- Die statistisch bestimmte Zugehörigkeit zu
ner Therapie anfallen, 200 persönlichkeitsbe- dieser Gruppe war mit einer Reihe externer
schreibende Feststellungen in insgesamt acht Kriterien assoziiert. Hierher gehörten z. B.

159
5 Der Prozess der diagnostischen Urteilsbildung

Klinische Tätigkeit Formelle Prozeduren

Datensammlung Klassifikation

Inferenz und Kombination

Vorhersage

Q-Sortierung oder andere


Form systematischer
Beschreibung

Abb. 5.6 Zusammenspiel klinischer und formeller Datenkombination nach dem Vorschlag von
Westen und Weinberger (2004).

schlechte schulische Leistungen, Drogenmiss- wird eine klinische Klassifikation verlangt;


brauch, Kriminalität und Erfahrung physischer auch diese wird formellen Prozeduren über-
Gewalt in der Kindheit. lassen. Erforderlich ist dagegen eine Beschrei-
bung der in Rede stehenden Person in Begrif-
In dem von Westen et al. vorgeschlagenen Ver-
fen diagnostisch relevanter Aussagen, im Bei-
fahren sind klinische und statistische Formen
spiel auf der Basis einer Q-Sortierung. Diese
der Diagnosefindung integriert, allerdings in
standardisierte Beschreibung liefert Daten, die
unterschiedlichen Rollen (I Abb. 5.6). Klini-
von formellen Prozeduren für Klassifikations-
ker führen die Datenerhebung durch. Dabei
und Vorhersagezwecke genutzt werden. Mit
kann Information aus sehr verschiedenen Quel-
Hilfe formeller Prozeduren wird die Zuord-
len gesammelt werden (Interviews mit den
nung des gewonnenen Profils zu einem empi-
zu beurteilenden Personen, Gespräche mit Be-
risch ermittelten Prototyp sowie die Ableitung
kannten, Aufzeichnungen von Kollegen, Be-
weiterer Aussagen vorgenommen, etwa auf
obachtungen im Rahmen einer Therapie usw.).
der Basis empirisch ermittelter Assoziationen
Neben der Datensammlung obliegen auch In-
zwischen dem Prototyp und bestimmten Krite-
ferenz und Integration dem klinischen Psycho-
riumsmerkmalen. Auf diese Weise lassen sich
logen. Den Klinikern wird dabei aber nicht ab-
die Vorteile klinischer Inferenz und formeller
verlangt, Aussagen über die Wahrscheinlich-
Klassifikation miteinander verbinden.
keit zu machen, mit der eine Person in den
nächsten sechs Monaten mit dem Gesetz in Besonders im Rahmen der klinisch-psycholo-
Konflikt gerät, auf eine spezifische Therapie- gischen Diagnostik bestand eine Konsequenz
form anspricht oder ein Studium der Betriebs- der im vorliegenden Kapitel geschilderten
wirtschaft innerhalb der Regelstudienzeit er- Überlegungen in dem Bemühen, das diagnos-
folgreich abschließt. Dies sind Aussagen, die tische Prozedere möglichst weitgehend zu
besser auf der Basis formeller Datenkombina- objektivieren. Dies schlug sich u. a. in der
tion erbracht werden können. Ebensowenig Formulierung detaillierter Richtlinien zur Be-

160
5.5 Ausblick

stimmung von Störungen in international ge- formelle Modelle heranziehen sollte. Dieser
bräuchlichen Klassifikationssystemen nieder Fall deckt jedoch nicht alle diagnostischen Ent-
(I Kap. 15). Der Anteil subjektiver Momen- scheidungen ab. Zwar beginnt jeder diagnos-
te, die Inkonsistenzen bei einem Diagnostiker tische Prozess mit eingehenden Daten, doch
(oder mangelnde Übereinstimmung zwischen reichen diese allein in der Regel nicht zu einer
Diagnostikern) bewirken, soll damit so weit brauchbaren Diagnose aus. Tatsächlich sind
wie möglich begrenzt werden. Wie Westen die Modelle, die wir in den vorangegangenen
und Weinberger bemerken, besteht damit je- Abschnitten kennengelernt haben, am ehesten
doch eine gewisse Gefahr, diagnostisch und für ein Diagnostizieren im Rahmen häufig wie-
prognostisch relevante Information zu opfern, derkehrender Klassifikations- oder Selektions-
die sich nicht vollständig objektivieren lässt aufgaben mit gleicher oder doch sehr ähnlicher
(weil sie auf klinischer Inferenz beruht). Struktur geeignet.
Die Perspektive des Ansatzes ist es, die Kennt- Diagnostizieren bei Modifikationsaufgaben
nisse, Erfahrungen und die darauf basieren- hat demgegenüber eine komplexere Struktur.
den Schlussfolgerungen klinischer Experten Hier muss psychologisches Wissen genutzt
auszuschöpfen, ohne dabei Leistungen zu ver- werden, um Hypothesen über verhaltenssteu-
langen, für die die menschliche Informations- ernde Strukturen und Prozesse einer Person
verarbeitung nicht gebaut ist und die sie nicht zu generieren, die anhand vorliegender oder
mit der Präzision formeller Prozeduren erbrin- noch zu erhebender Daten getestet werden.
gen kann (Westen & Weinberger, 2004). Das Aus einem hinreichend bewährten „Modell
Verfahren erlaubt es, Wissen (z. B. in Form be- der Person“ für einen interessierenden Verhal-
grifflicher Differenzierungen) zu nutzen, das tensausschnitt werden Erwartungen abgeleitet,
Laien nicht aufweisen, und deshalb z. B. nicht die einer erneuten Prüfung unterzogen wer-
bei der Formulierung der Items eines Per- den. In diese Prüfphasen müssen dabei auch
sönlichkeitsfragebogens vorausgesetzt werden Informationen über den Verlauf einer Interven-
darf. Darüber hinaus sind die gewonnenen tion einbezogen werden. Es handelt sich also
Daten von Antworttendenzen der beurteilten um einen mehrfach rückgekoppelten Prozess,
Personen weitgehend frei (I Kap. 10). Beide bei dem formelle Modelle lediglich Hilfen für
Sachverhalte lassen den Ansatz als wertvolle die Beantwortung von Teilfragen bereitstellen
Ergänzung diagnostischer Prozeduren erschei- können. Den Ablauf des Diagnostizierens im
nen, der nicht nur im Bereich der Klinischen Rahmen derartiger Interventionen werden wir
Psychologie fruchtbar sein kann. in I Kap. 7 noch näher beschreiben.
Eine wichtige Konsequenz der in diesem Ka-
pitel geschilderten Diskussion bestand darin,
5.5 Ausblick ein Bewusstsein für die Vorzüge rationaler und
empirisch begründeter Vorgehensweisen bei
der diagnostischen Urteilsbildung geschaffen
Die dargestellten Überlegungen und Model- zu haben. Dies betrifft insbesondere die Ver-
le zur Urteilsbildung gehen im Wesentlichen wendung expliziter und konsistenter Regeln,
davon aus, dass die Daten dem Diagnostiker die Kontrolle der Richtigkeit bzw. Angemes-
bereits vorliegen oder er zumindest weiß, wel- senheit von Diagnosen und Prognosen sowie
che Daten zu erheben sind. Seine Aufgabe ist die Nutzung dieser Information für die Verbes-
es also nur noch, diese Daten hinsichtlich ei- serung der Entscheidungsfindung. Petermann
ner Klassifikation oder Vorhersage optimal zu (1995) spricht hier von Diagnostik als „kon-
kombinieren, wofür er, wie wir sahen, auch trollierter Praxis“.

161
5 Der Prozess der diagnostischen Urteilsbildung

Weiterführende Literatur 3. Welche Ergebnisse zeigen empirische Stu-


dien zum Vergleich der Leistungsfähigkeit
informeller und formeller Arten der Daten-
Neben der Monographie von Meehl (1954)
kombination?
sind zur Vertiefung der Themen dieses Kapi-
4. Welche Arten paramorpher Modelle des
tels das Buch von Wiggins (1973) sowie die
Diagnostizierens lassen sich unterscheiden?
Artikel von Grove und Meehl (1996), Wottawa
5. Was unterscheidet ein Design zur Erstellung
(1987) sowie Westen und Weinberger (2004)
eines Vorhersagemodells für ein diagnosti-
geeignet.
sches Kriterium von einem Design zur Er-
stellung eines paramorphen Modells?
6. Inwieweit können paramorphe Modelle zur
Fragen zur Wissenskontrolle Verbesserung des Diagnostizierens beitra-
gen?
1. Was versteht man unter klinischer und sta- 7. Wie lassen sich klinische Inferenz und sta-
tistischer Vorhersage? tistische Datenkombination miteinander ver-
2. Wie geht man bei der Erstellung eines sta- knüpfen?
tistischen Vorhersagemodells vor? 8. Welche Vorteile verspricht man sich von
einer solchen Verknüpfung?

162
6 Entscheidungstheoretische Modelle und
antwortabhängiges Testen

6.1 Ein Rahmenmodell des diagnostischen Entscheidungsprozesses . . . . . . . 164


6.2 Arten diagnostischer Entscheidungen . . . . . . . . . . . . . . . . . . . . . . 166
6.3 Selektionsentscheidungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.1 Variablenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.2 Variablenkombination . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.3 Entscheidungsgüte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.3.4 Entscheidungsnutzen . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
6.3.5 Entscheidungen außerhalb der Personalselektion . . . . . . . . . . . . 177
6.4 Sequenzielle Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.5 Das Bandbreiten-Fidelitätsdilemma . . . . . . . . . . . . . . . . . . . . . . . 180
6.6 Aptitude-Treatment-Interaktionen . . . . . . . . . . . . . . . . . . . . . . . 181
6.7 Antwortabhängiges Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.7.1 Sequenzielle Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.7.2 Adaptive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

In der im ersten Kapitel gegebenen Definition Entscheidungstheorie aufbauen, rücken zwei


der Diagnostik hatten wir darauf hingewiesen, Merkmale des Diagnostizierens in den Vorder-
dass Diagnostizieren immer im Rahmen eines grund: Diagnostizieren ist erstens ein sequen-
Auftrags erfolgt, in dem es um die Optimie- ziell organisierter Prozess, in dem wiederholt
rung praktischer Problemlösungen geht. Mit aus unterschiedlichen Handlungsoptionen ei-
dem Einsatz von Tests und anderen diagnosti- ne begründete Wahl getroffen werden muss.
schen Verfahren wird die Erwartung verbun- Zweitens sind Diagnosen mit Entscheidungen
den, zu besseren Empfehlungen und Entschei- verbunden, deren Folgen für die Auftraggeber
dungen zu gelangen, als es ohne diese Verfah- und andere Betroffene berücksichtigt werden
ren möglich ist. Diagnostik soll also Entschei- müssen. Im Zentrum der Überlegungen von
dungshilfen bei praktischen Problemen bereit Cronbach und Gleser steht die Frage, wie nütz-
stellen. lich diagnostische Verfahren für die Entschei-
dungsfindung sind.
Der Gesichtspunkt der Diagnostik als Ent-
scheidungshilfe wurde besonders von Cron- Dieser Frage wurde vor Cronbach und Gleser
bach und Gleser (1965) herausgearbeitet. Ih- (1965) in der diagnostischen Grundlagenfor-
re Überlegungen, die auf Konzepten aus der schung nur wenig Aufmerksamkeit geschenkt

163
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

(Boudreau, 1991). Man konzentrierte sich viel- Institutionen. Sie ist ein Teilgebiet der psy-
mehr auf Tests als Messinstrumente, deren chologischen Grundlagenforschung (Junger-
Reliabilität und Validität man zu maximie- mann, Pfister & Fischer, 2005). Die normative
ren versuchte. Diagnostizieren sollte sich auf Entscheidungstheorie thematisiert dagegen die
möglichst präzise und vorhersagekräftige Ver- Frage, wie bei gegebenen Daten und Zielen op-
fahren stützen. Die Forderung nach Verwen- timal oder rational entschieden werden kann.
dung reliabler und valider Verfahren ist si- Wie sich Personen, Gruppen oder Organisa-
cherlich einsichtig. Aus entscheidungstheore- tionen tatsächlich verhalten, interessiert hier
tischer Perspektive sind diese Kriterien allei- nicht. Vielmehr werden Regeln formuliert, de-
ne jedoch unvollständig. Die Planung des dia- ren Einhaltung die Erfüllung bestimmter Opti-
gnostischen Vorgehens sollte darüber hinaus malitätskriterien gewährleistet. Für diagnosti-
Nutzenabschätzungen als zentrale Komponen- sche Anwendungen ist die normative Entschei-
te beinhalten. dungstheorie die relevante Disziplin.
Dieses Kapitel gibt eine Einführung in grund- Entscheidungen benötigen eine Informations-
legende Anwendungen der Entscheidungstheo- grundlage. Je nach Vollständigkeit dieser
rie in der Diagnostik. Hierzu skizzieren wir Grundlage lassen sich drei Arten von Entschei-
zunächst ein Rahmenmodell des diagnosti- dungssituationen differenzieren. Entscheidun-
schen Entscheidungsprozesses. Anschließend gen unter Sicherheit liegen vor, wenn eine Per-
werden wichtige Einteilungsgesichtspunkte son die Konsequenzen verschiedener Hand-
diagnostischer Entscheidungen im Überblick lungsalternativen genau kennt oder zu kennen
dargestellt. Diese Gesichtspunkte werden in glaubt. Von Entscheidungen unter Risiko wird
den folgenden Abschnitten anhand konkre- gesprochen, wenn die Folgen möglicher Hand-
ter Fragen vertieft. Hierbei geht es um Perso- lungen zwar nicht genau vorherzusehen sind,
nalselektion, die Anordnung und Zusammen- ihnen jedoch Wahrscheinlichkeiten zugeord-
stellung von Tests (sequenzielle Strategien, net werden können. Entscheidungen unter Si-
Bandbreiten-Fidelitätsdilemma), sowie Fragen cherheit kann man als Grenzfall des zweiten
der Klassifikation und Platzierung von Per- Typs auffassen, in denen die Wahrscheinlich-
sonen (Aptitude-Treatment-Interaktion). Ab- keiten gegen Eins streben. Beim dritten Typ,
schließend werden entscheidungstheoretische den Entscheidungen unter Ungewissheit ist die
Gesichtspunkte für die Gestaltung einzelner Informationsbasis so gering, dass nicht einmal
Tests behandelt (antwortabhängiges Testen). eine „probabilistische Lagebeurteilung“ mög-
lich ist. Im Rahmen der diagnostischen Arbeit
kommt Entscheidungen unter Risiko eine be-
sonders wichtige Rolle zu. Wir konzentrieren
6.1 Ein Rahmenmodell des uns deshalb im Folgenden auf diesen zweiten
diagnostischen Entscheidungstyp.
Entscheidungsprozesses I Abb. 6.1 zeigt eine vereinfachte Darstellung
des diagnostischen Entscheidungsprozesses,
die von Cronbach und Gleser (1965) primär
Entscheidungsprobleme lassen sich unter de- für Personalentscheidungen (I Kap. 14) ent-
skriptiven und normativen Gesichtspunkten worfen wurde. Auch andere Entscheidungs-
analysieren (Stegmüller, 1973). Gegenstand situationen, etwa im Bereich der klinisch-
der deskriptiven Entscheidungstheorie ist die psychologischen Diagnostik (I Kap. 15), fol-
Beschreibung und Erklärung des faktischen gen jedoch dieser Grundstruktur (vgl. Tack,
Entscheidungsverhaltens von Personen oder 1976). Ausgangspunkt sind Informationen

164
6.1 Ein Rahmenmodell des diagnostischen Entscheidungsprozesses

Abb. 6.1 Schematische Darstellung des diagnostischen Entscheidungsprozesses (nach


Cronbach & Gleser, 1965, S. 18, sowie Tack, 1976, S. 105).

über Personen oder Bedingungen. Diese Infor- torische Entscheidungen differenzieren. Ter-
mationen werden auf der Basis diagnostischer minale Entscheidungen führen stets zu einer
Strategien so ausgewertet, dass die jeweils an- bestimmten „Behandlung“. Unter Behandlung
visierten Ziele in effizienter Weise erreicht (engl. treatment) kann dabei sehr Verschie-
werden können. Strategien stehen im Zentrum denes verstanden werden, z. B. die Annahme
des diagnostischen Prozesses. Eine Strategie oder Ablehnung eines Bewerbers, die Zuwei-
besteht aus einer Menge von Regeln, die ange- sung zu einem bestimmten Arbeits- oder Aus-
ben, unter welcher Zielsetzung welche Infor- bildungsplatz, die Empfehlung einer bestimm-
mationen zu welchen Entscheidungen führen. ten Therapieform oder die Beurteilung eines
Es handelt sich um Wenn-Dann-Regeln der Zeugen als glaubwürdig oder unglaubwürdig.
Form „Falls die Person in Test 1 einen Wert Terminale Entscheidungen stützen sich auf die
größer als c aufweist, empfehle Behandlung A, Wahrscheinlichkeiten, mit der in Frage kom-
ansonsten gebe Test 2“. Strategien verknüpfen mende Behandlungen Resultate erwarten las-
also Informationen mit Entscheidungen unter sen, die unter einer gegebenen Zielsetzung als
einer gegebenen Zielsetzung. Dabei kann je günstig zu bewerten sind.
nach Zielsetzung die gleiche Information über
eine Person zu unterschiedlichen Entscheidun- Investigatorische Entscheidungen führen dage-
gen führen. Sind in einem Betrieb beispiels- gen zu „Fragen“, für deren Beantwortung wei-
weise mehrere Stellen mit unterschiedlichem tere behandlungsrelevante Information über
Anforderungsprofil zu besetzen, führt dies zu eine Person gewonnen werden muss. Hierbei
anderen diagnostischen Entscheidungen als kann man sich auf Tests (wie in der Abbil-
bei Vorliegen nur einer Position. dung angedeutet), aber auch auf Verhaltensbe-
obachtungen, biographische Angaben, Fremd-
Hinsichtlich ihrer Funktion im diagnostischen beurteilungen usw. stützen. Investigatorische
Prozess lassen sich terminale und investiga- Entscheidungen dienen der Optimierung der

165
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Informationsbasis, auf der terminale Entschei- Gleser (1965) differenzieren hier zwischen in-
dungen beruhen. Der Zyklus von investigato- dividuellen und institutionellen Entscheidun-
rischen Entscheidungen, Informationssamm- gen.
lung und Entscheidungsfindung wird so lange
durchlaufen, bis eine terminale Entscheidung Individuelle Entscheidungen betreffen einma-
getroffen werden kann. Wann es zu investiga- lige oder seltene Entscheidungen, die sich an
torischen, wann zu terminalen Entscheidungen den Werten, Präferenzen und Zielen einer ein-
kommt, hängt von der jeweiligen Zielsetzung zelnen Person orientieren. Ein typisches Bei-
und der im Einzelfall verfolgten Strategie ab. spiel hierfür ist die diagnostisch gestützte Be-
Einige Strategien werden wir in Abschnitt 6.4 ratung bei der Wahl eines bestimmten berufli-
noch genauer betrachten. chen Bildungswegs. Da sich individuelle Ent-
scheidungen an personspezifischen Werten ori-
Wie in der Abbildung durch den Pfad „Resulta- entieren, können sie nicht ohne Weiteres auf
te → Information“ angedeutet ist, können die andere Fälle generalisiert werden.
Ergebnisse von Behandlungen selbst wieder
Daten liefern, die zu weiteren Fragen oder Be- Anders ist dies bei institutionellen Entschei-
handlungen führen (Tack, 1976). So können dungen. Hier wird eine große Zahl vergleich-
z. B. Therapieresultate diagnostisch genutzt barer Entscheidungen getroffen, wobei ein
werden, um den Verlauf einer Modifikation über die einzelnen Entscheidungen konstant
zu optimieren. Auch die Effektivitätskontrolle bleibendes Wertesystem zugrunde gelegt wird.
von Interventionen stützt sich auf diese Infor- Ein typisches Beispiel sind Selektionsentschei-
mation. Insgesamt wird Diagnostizieren nicht dungen, also etwa die Auswahl von Stellenbe-
als einmalige Datenerhebung aufgefasst, son- werbern.
dern als ein durch Diagnoseziele moderierter Individuelle und institutionelle Entscheidun-
und mehrfach rückgekoppelter Prozess. Die- gen folgen häufig unterschiedlichen Entschei-
ser Gesichtspunkt, der für Diagnostizieren im dungsprinzipien. Für institutionelle Entschei-
Rahmen von Modifikationsaufgaben von es- dungen ist es naheliegend, ein Entscheidungs-
senzieller Bedeutung ist, wird in I Kap. 7 prinzip zugrunde zu legen, das den erwar-
noch eingehend behandelt. Im vorliegenden teten Nutzen über eine Serie ähnlicher Ent-
Kapitel konzentrieren wir uns auf die Diagnos- scheidungen maximiert. Bei diesem sog. Er-
tik im Rahmen von Klassifikations- und Selek- wartungswertprinzip werden Entscheidungen
tionsentscheidungen. in der Weise getroffen, dass der Nutzen „im
Durchschnitt“ bzw. „auf lange Sicht“ ein Op-
timum erreicht. Gemessen am Erwartungs-
wertprinzip sind individuelle Entscheidungen
6.2 Arten diagnostischer manchmal risikoaversiv (z. B. beim Abschlie-
Entscheidungen ßen von Versicherungen), manchmal risiko-
freudig (bei vielen Glücksspielen, z. B. Lotto):
In beiden Fällen ist die langfristig zu erwarten-
Cronbach und Gleser (1965) haben ein Katego- de Auszahlung ja geringer als die Einzahlung.
riensystem erarbeitet, mit dem sich die wich- Dafür werden im ersten Beispiel die im un-
tigsten Parameter diagnostischer Entschei- günstigsten Fall entstehenden Kosten minimal
dungssituationen ordnen lassen (I Tab. 6.1). (sog. Minimax-Prinzip: minimiere den maxi-
Ein grundlegender Gesichtspunkt ist die Häu- mal möglichen Verlust), während im zwei-
figkeit, mit der sich gleichartige Entschei- ten Beispiel die im günstigsten Fall entstehen-
dungssituationen wiederholen. Cronbach und den Gewinne maximal werden (sog. Maximax-

166
6.2 Arten diagnostischer Entscheidungen

Tab. 6.1
Entscheidungsaspekt Alternativen
Wichtige Parameter
Häufigkeit, Nutzen individuell oder institutionell
diagnostischer
Entscheidungen Positionen eine oder mehrere
Zurückweisung möglich oder nicht möglich
Quote fixiert oder variabel
Relevante Information univariat oder multivariat
Diagnostische Strategie einstufig oder mehrstufig (sequenziell)

Prinzip: Maximiere den maximal möglichen Bei Selektionsaufgaben ist die Ablehnung von
Gewinn). Bewerbern bzw. Klienten zulässig. Einfache
Selektion liegt dabei vor, wenn nur eine Po-
Cronbach und Gleser (1965) fokussieren in ih- sition zur Verfügung steht. Für eine Position
ren Überlegungen institutionelle Entscheidun- (z. B. Referendar an einer Schule) können da-
gen, die auf der Basis des Erwartungswertprin- bei durchaus mehrere Stellen offen sein. Sind
zips getroffen werden. Hier steht die „Auszah- mehrere Positionen verfügbar, spricht man von
lung“ (engl. payoff ), also der mit wiederkeh- multipler Selektion. Ein Beispiel ist die Ein-
renden Entscheidungen verbundene Gewinn richtung einer neuen Abteilung in einer Or-
oder Verlust für eine Institution im Vorder- ganisation, in der funktional unterschiedliche
grund. Die Anwendung des Prinzips erfordert Positionen zu besetzen sind.
es, dass den nutzenrelevanten Konsequenzen
von Entscheidungen (z. B. ein tatsächlich ge- In den beiden verbleibenden Fällen ist Zurück-
eigneter Bewerber wird eingestellt, ein unge- weisung nicht möglich. Ist dabei lediglich eine
eigneter Bewerber wird eingestellt usw.) Wahr- Position zu besetzen, werden alle Kandidaten
scheinlichkeiten zugeordnet werden können. akzeptiert. Die Kategorie „Akzeptanz“ scheint
Darüber hinaus müssen die mit den verschiede- auf den ersten Blick etwas aus dem Rahmen zu
nen Entscheidungsfolgen verbunden Gewinne fallen, da sie offenbar keine diagnostisch fun-
oder Verluste auf einer gemeinsamen quantita- dierte Entscheidung beinhaltet. Dennoch stellt
tiven Skala bewertet werden können (z. B. in Akzeptanz eine wichtige Handlungsoption dar.
Geldeinheiten). Wenn sich z. B. die Zahl der Bewerber und
die der verfügbaren Stellen die Waage halten,
Institutionelle Entscheidungen werden unter kann es sinnvoll sein, überhaupt nicht zu dia-
verschiedenen Rahmenbedingungen getroffen. gnostizieren, sondern alle Bewerber zumindest
Zwei wichtige Bedingungen betreffen dabei vorläufig anzunehmen. Weitere Bedingungen
die Anzahl zur Verfügung stehender Positio- hierfür lassen sich aus Nutzenberechnungen
nen oder Plätze sowie die Frage, ob Zurück- ableiten, die wir unten noch besprechen wer-
weisung eine mögliche oder sinnvolle Maßnah- den. Auch für die Gewinnung von Daten, auf
me darstellt. Unterscheidet man für den ersten denen solche Berechnungen basieren, wäre
Gesichtspunkt der Einfachheit halber nur da- Akzeptanz, zumindest aus technischen Grün-
nach, ob eine oder mehrere Positionen zur Ver- den, wünschenswert (I Kap. 6.3.4).
fügung stehen, so lassen sich bei gleichzeitiger
Berücksichtigung des zweiten Gesichtspunkts Sind dagegen mehrere Positionen verfügbar,
vier Arten institutioneller Entscheidungen dif- werden die Bewerber klassifiziert oder plat-
ferenzieren: Einfache Selektion, multiple Se- ziert. Unter Klassifikation wird in diesem Kon-
lektion, Akzeptanz sowie Klassifikation bzw. text die Zuordnung von Personen zu qualitativ
Platzierung (I Tab. 6.2). unterschiedlichen Bedingungen oder Behand-

167
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Tab. 6.2
Zurückweisung
Selektion, Klassifikation
Positionen möglich nicht möglich
und Platzierung
eine Einfache Selektion Akzeptanz
mehrere Multiple Selektion Klassifikation, Platzierung

lungen verstanden. Hierbei könnte es sich etwa sionen variieren. Bei univariater Information
um Trainingsmaßnahmen mit verschiedenen stützt sich die Entscheidung auf die Segmen-
inhaltlichen Schwerpunkten handeln (z. B. be- tierung einer Variablen. Dies wäre etwa der
triebswirtschaftlich, statistisch, juristisch). Fall, wenn nur ein einziger Test für eine Se-
lektionsentscheidung verwendet würde. Wenn
Stehen die Bedingungen in einer Rangreihe, mehrere Tests oder andere Variablen zu einem
spricht man von Platzierung. Dies wäre Prädiktor kombiniert werden, etwa auf der Ba-
der Fall, wenn sich die Trainingsmaßnah- sis einer Regressionsgleichung zur Vorhersage
men auf das gleiche Gebiet beziehen, je- des beruflichen Erfolgs, gründet die Entschei-
doch nach Vorkenntnissen gestaffelt sind, al- dung letztlich auch auf einer Variablen, ob-
so z. B. ein Anfänger-, ein Fortgeschrittenen- gleich die Informationsbasis hier multivariat
und ein Expertenkurs angeboten wird. Bei ist. Sind für eine Entscheidung mehrere Di-
Klassifikations- und Platzierungsaufgaben mensionen zu berücksichtigen, muss in jedem
geht es meist darum, eine optimale Passung Fall multivariate Information erhoben werden.
zwischen Person und Bedingung bzw. Behand- Entscheidungen nach Konfigurationsmodellen,
lung herzustellen. Praktische Fragen dieser die wir bereits kennen gelernt hatten, basieren
Art sind etwa: Welcher Ausbildungsgang ent- auf multivariater Information (I Kap. 5). Hier
spricht den Fähigkeiten eines Schülers am bes- wird das Ausprägungsmuster auf den einzel-
ten? Welches ist die für einen Patienten erfolg- nen Dimensionen zur Entscheidung herange-
versprechendste Therapieform? zogen. Die Zahl der Variablen bzw. Dimensio-
Häufig ist die Zahl der für bestimmte Behand- nen, die für eine Entscheidung sinnvollerweise
lungsoptionen zur Verfügung stehenden Plätze erhoben werden, hängt naturgemäß sehr stark
begrenzt. Es kann dann nur eine bestimmte von der konkreten diagnostischen Fragestel-
Quote von Kandidaten angenommen oder be- lung ab. Bei Personalentscheidungen ist hier
stimmten Bedingungen zugeordnet werden; z. B. das jeweilige Anforderungsprofil einer
die Quote ist fixiert. Liegen fixierte Quoten Position ausschlaggebend. Je diverser die An-
vor, sind die Entscheidungen über die ein- forderungen ausfallen, desto mehr diagnosti-
zelnen Personen voneinander abhängig. Dies sche Variablen werden im Allgemeinen benö-
kann zur Folge haben, dass Bewerber abge- tigt.
lehnt werden müssen, obwohl sie aufgrund
der Einstellungsuntersuchung als qualifiziertVor Cronbach und Gleser (1965) ging man
erscheinen. Bei einer variablen Quote werden meist davon aus, dass eine terminale Ent-
alle als geeignet angesehen Bewerber einge- scheidung auf der Basis von Tests getroffen
stellt. Quotierungen gehören, wie wir im fol-wird, die von allen Personen bearbeitet wer-
genden Abschnitt darstellen, zu den wesent- den. Dies ist jedoch nur eine von mehreren
lichen Determinanten des Nutzens diagnosti- diagnostischen Strategien. Cronbach und Gle-
scher Verfahren. ser sprechen hier von einer nichtsequenziel-
len bzw. einstufigen (single-stage) Strategie.
Informationen, auf denen Entscheidungen auf- Dieser stellen sie die sequenziellen oder mehr-
bauen, können auf einer oder mehreren Dimen- stufigen (multiple-stage) Strategien gegenüber:

168
6.3 Selektionsentscheidungen

Hier kommt es, zumindest für einen Teil der Sachliche Überlegungen, die die Erhebung ei-
Personen, zunächst zu einer investigatorischen, ner Variablen notwendig machen, beziehen
nach weiterer Informationssammlung dann zu sich z. B. auf physische Voraussetzungen (et-
einer terminalen Entscheidung (I Kap. 6.4). wa Sehtüchtigkeit, Schwindelfreiheit), die für
die erfolgreiche Ausfüllung einer bestimm-
Nachdem in diesem Abschnitt die wesentli-
ten Position unabdingbar sind. Auch für die
chen Parameter von Entscheidungsproblemen
Bestimmung entscheidungsrelevanter psycho-
im Überblick dargestellt wurden, wird im fol-
logischer Variablen sind sachliche Argumen-
genden Abschnitt die Anwendung entschei-
te essenziell. Konkrete Testvariablen werden
dungstheoretischer Überlegungen an einem
dann auf der Grundlage ihrer Assoziation mit
Beispiel genauer betrachtet. Wir greifen uns
dem Kriterium ausgewählt. Dabei ist man im
hierfür Selektionsentscheidungen heraus.
Allgemeinen bemüht, zunächst den besten Prä-
diktor zu wählen, also den Test mit der höchs-
ten prädiktiven Validität für das Kriterium.
6.3 Selektionsentscheidungen Weitere Tests werden hinsichtlich des Zuwach-
ses bewertet, den sie für die Eignungsvorher-
sage erwarten lassen (inkrementelle Validität).
Selektionsaufgaben ergeben sich bei institu- Hierbei handelt es sich nicht unbedingt um die
tionellen Entscheidungen, wenn die Zahl der Tests mit der höchsten Kriteriumskorrelation,
Bewerber bzw. Kandidaten die der verfügba- sondern vielmehr um Tests, die nichtredun-
ren Stellen bzw. Plätze übersteigt (z. B. bei dante Information zur Kriteriumsvorhersage
Arbeits-, Therapie- oder Studienplätzen). Für beitragen. Dies sind meist Tests, die mit dem
die Diagnostik stellen sich hier drei Teilaufga- Kriterium zwar nur moderat assoziiert sind, da-
ben: für aber nur gering mit den bereits gewählten
Prädiktoren zusammenhängen.
1. Auswahl und Erhebung entscheidungsrele-
vanter Variablen (Prädiktoren).
2. Festlegung der Variablenkombination und
6.3.2 Variablenkombination
kritischer Trennwerte.
3. Abschätzung der Entscheidungsgüte und
Im einfachsten Fall basiert die Selektion auf
des Entscheidungsnutzens der Prozedur.
univariater Information. Hier ist also nur eine
Prädiktorvariable (X) involviert. Da es sich
dabei meist um eine quantitative Variable han-
6.3.1 Variablenauswahl delt, etwa Intelligenz oder Punktzahl im Abi-
tur, wird ein kritischer Trennwert (c für engl.
Die Auswahl relevanter Variablen stützt sich cutoff ) auf der Variablen definiert, dessen Er-
primär auf sachliche Überlegungen, die von reichen oder Verfehlen zu Annahme bzw. Ab-
den Anforderungen einer Stelle ausgehen, so- lehnung führt. Trennwerte, die nur eine ein-
wie auf empirische Information über die Zu- zelne Variable segmentieren, werden als sin-
sammenhänge zwischen in Frage kommenden gle cutoffs bezeichnet. Liegt eine positive und
Prädiktoren (Tests) und dem jeweils in Rede monotone Beziehung zwischen Prädiktor und
stehenden Kriterium (z. B. Arbeitsproduktivi- Kriterium vor, lautet die Entscheidungsregel
tät, Studien- oder Therapieerfolg). Daneben dann:
sind manchmal auch Kostenüberlegungen für
die Auswahl einzelner Verfahren ausschlagge- Wenn x ≥ c, akzeptiere den Kandidaten,
bend. andernfalls lehne ihn ab.

169
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Bei variabler Quote und hinreichender Zahl Wenn (x1 ≥ c1 ) und (x2 ≥ c2 ) und ... und
geeigneter Bewerber kann der Trennwert so (xn ≥ cn ),
festgesetzt werden, dass akzeptierte Kandida- akzeptiere den Kandidaten, andernfalls lehne
ten sehr günstige Prognosen in den jeweiligen ihn ab.
Kriteriumsvariablen aufweisen. Bei fixierter
Quote ist der Trennwert bereits impliziert, da Eine Entscheidungsregel, in der alle für die
die Bewerber entsprechend ihrer Rangreihe Annahme zu erfüllenden Bedingungen mit
auf der Prädiktorvariablen ausgewählt werden, „und“ verknüpft sind, wird als konjunktive Ent-
bis die Quote ausgeschöpft ist. scheidungsregel bezeichnet. („Konjunktion“
Beruht die Selektion auf multivariater Infor- ist in der Logik die Bezeichnung für die Und-
mation, stellt sich die Frage, wie die verschie- Verknüpfung von Aussagen.) Da hier im Un-
denen Prädiktoren (X1 , X2 usw.) am besten terschied zu einer linearen Kombination meh-
kombiniert werden können. Eine Möglichkeit rere Trennwerte involviert sind, spricht man
besteht darin, die Variablen linear zu kombi- auch von einem multiplen Trennwert (multiple
nieren, wie in der multiplen Regression. Der cutoff).
entsprechende Trennwert wird daher auch als Auch bei konfiguralen Regeln können Kom-
multiple-regression cutoff bezeichnet. Die Ent- pensationsmöglichkeiten zugelassen werden.
scheidungsregel ist die gleiche wie oben, mit Dies geschieht durch Einführung von Bedin-
dem Unterschied, dass hier der Prädiktorwert gungen, die mit „oder“ (anstatt mit „und“)
eine gewichtete Kombination mehrerer Aus- verknüpft sind. Eine extreme Variante der Se-
gangsvariablen (z. B. Intelligenz, Gewissen- lektion mit Kompensationsmöglichkeiten liegt
haftigkeit) darstellt: vor, wenn Personen akzeptiert werden, die auf
mindestens einer der entscheidungsrelevanten
x = b1 x1 + b2 x2 ... + bk xk .
Variablen hohe Werte erreichen. Eine solche
Die Gewichte, die den einzelnen Variablen Auswahlregel könnte z. B. lauten, alle Bewer-
zugeordnet werden, hängen von deren Bedeu- ber zu akzeptieren, die im Abitur mehr als 700
tung für das Kriterium sowie von deren Skala Punkte erreicht haben oder deren T-Wert im ei-
ab. nem Eingangstest über 70 liegt. Bei sehr hoher
Punktzahl wäre in diesem Fall das Abschnei-
Wie bereits dargestellt wurde (I Kap. 5), er-
den im Eingangstest vollkommen irrelevant
lauben lineare Kombinationen Kompensations-
(und umgekehrt). Man spricht in diesem Fall
möglichkeiten zwischen Variablen: Ein niedri-
von einer disjunktiven Selektionsregel. („Dis-
ger Wert auf einer Variablen (X1 , z. B. Punkt-
junktion“ bezeichnet in der Logik die Oder-
zahl im Abitur) kann durch einen hohen Wert
Verknüpfung von Aussagen.) Im Allgemeinen
auf einer anderen Variablen (X2 ; z. B. Ein-
kommen in konfiguralen Entscheidungsregeln
gangsprüfung) ausgeglichen werden und da-
sowohl Konjunktionen als auch Disjunktionen
mit ggf. zur Annahme führen. Eine Alternati-
vor (I Kap. 5).
ve zur linearen Variablenkombination bieten
konfigurale Selektionsregeln. Sie erlauben es, Die Auswahl geeigneter Variablen, die Be-
Kompensationsmöglichkeiten, die aus sachli- stimmung ihrer optimalen Kombination sowie
chen Gründen unerwünscht sind, von vornher- die Festlegung sinnvoller Trennwerte stützt
ein auszuschließen. Angenommen wird hier sich auf empirische Untersuchungen, in denen
z. B. nur, wer auf einer Variablen X1 und zu- Zusammenhänge zwischen den Prädiktoren
gleich auf weiteren Variablen X2 usw. die je- und Kriterien bestimmt wurden. Die in die-
weils festgelegten Trennwerte übertrifft. Die sen Schritten involvierten Festlegungen wer-
Entscheidungsregel besitzt hier die Form: den dabei so vorgenommen, dass die Entschei-

170
6.3 Selektionsentscheidungen

dungsgüte bzw. der Entscheidungsnutzen ma- der Personalselektion lieferten Taylor und Rus-
ximiert werden. Diesen Konzepten wenden sell (1939). Die Autoren machten darauf auf-
wir uns nun zu. merksam, dass der Wert eines Tests für Selek-
tionsverfahren an dessen Beitrag zur Entschei-
dungsgüte bemessen werden sollte. Die Frage
ist also: Inwieweit kann mit dem Einsatz eines
6.3.3 Entscheidungsgüte Tests der Anteil korrekter Entscheidungen er-
höht werden? Taylor und Russell wiesen auf,
Die Güte diagnostischer Entscheidungen mit dass dieser Beitrag nicht allein von der Vali-
Hilfe von Tests wird wesentlich, aber nicht dität abhängt und deshalb nicht nur anhand
allein, durch deren prädiktive Validität deter- von Validitätskoeffizienten beurteilt werden
miniert. Wie wir bereits sahen, wird die prädik- sollte. Tatsächlich kann ein Test mit relativ
tive Validität durch die Korrelation zwischen geringer Validität für diagnostische Entschei-
Test und Kriterium bestimmt. Sie liefert ein dungen sehr wertvoll sein. Umgekehrt ist es
Maß für die Genauigkeit der Vorhersage des jedoch auch möglich, dass ein Test mit hoher
Kriteriums durch den Test. Das Quadrat dieser Validität diagnostische Entscheidungen nicht
Korrelation entspricht dem Anteil der Krite- substanziell verbessert. Die Fokussierung auf
riumsvarianz, die durch den Test aufgeklärt Validitätskoeffizienten kann also in die Irre
wird. führen. Für die Bewertung der Entscheidungs-
güte sind neben der Validität noch mindestens
Kriteriumsvaliditäten einzelner Variablen zwei weitere wichtige Größen zu beachten,
überschreiten nur selten Marken von .3 oder nämlich die Basisquote und die Selektions-
.4 (Schmidt, Hunter & Pearlman, 1981). Sol- quote.
che, dem Augenschein nach niedrige, Koeffi-
zienten werden manchmal kritisch gegen den
Einsatz von Tests für diagnostische Entschei- Basisquote und Selektionsquote
dungen eingebracht. So argumentierte z. B. be- Unter Basisquote (engl. base rate) wird der
reits Hull (1928), dass Eignungstests, die nur Anteil der Personen in einer Population ver-
9 bis 16 % der beruflichen Leistungsvariation standen, die ein bestimmtes Merkmal oder
vorhersagen, als Grundlage für Selektionsent- eine bestimmte Merkmalskombination fak-
scheidungen wenig brauchbar seien. tisch aufweisen. Im Rahmen der Personal-
Nun sind niedrige Korrelationen zwischen auswahl bezeichnet die Basisquote den An-
Tests und Kriterien nicht allein den Tests an- teil der tatsächlich Geeigneten unter den
zulasten. Kriterien weisen Reliabilitäts- und Bewerbern. Sind unter 50 Bewerbern 20 für
Validitätsdefizite auf, was deren Korrelation eine ausgeschriebene Position geeignet, be-
mit Prädiktoren mindert. Darüber hinaus kön- trägt die Basisquote z. B. 20/50 = 0.4. Die
nen die Koeffizienten praktisch immer nur für Selektionsquote ist dagegen der Anteil der
akzeptierte Bewerber berechnet werden, da ab- Akzeptierten unter den Bewerbern. Sind
gelehnte Bewerber im Allgemeinen ja keine z. B. zehn Stellen offen und werden entspre-
Kriteriendaten liefern. Auch dies reduziert die chend nur die zehn Testbesten ausgewählt,
Test-Kriteriums-Korrelation. Dennoch stellt beträgt die Selektionsquote 10/50 = 0.2.
die nur moderate Höhe der Validität sicherlich
eine Herausforderung für die Diagnostik dar.
Für die Bestimmung der Entscheidungsgüte
Einen wegweisenden Beitrag zur Bedeutung werden die Häufigkeiten korrekter und inkor-
der Validität für Entscheidungen im Kontext rekter Entscheidungen betrachtet, die mit ei-

171
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

nem Test oder einer Testbatterie getroffen wer- verfehlen, heißen valide Negative. Die beiden
den. Hierzu müssen Vorhersagen auf der Basis verbleibenden Ausgänge repräsentieren fehler-
der Testtrennwerte mit Kriteriumswerten ver- hafte Entscheidungen: Falsch Negative unter-
glichen werden. Die Vorhersage – und damit schreiten den Testtrennwert, obwohl sie den
die Entscheidung über Akzeptanz oder Ableh- Kriteriumsstandard erfüllen, falsch Positive
nung – könnte z. B. mit einem Berufseignungs- überschreiten zwar den Testtrennwert, errei-
test erfolgen. Kriterium könnte ein Maß der chen den Kriteriumsstandard jedoch nicht. Die
Arbeitsproduktivität sein. Bei einem quantita- Häufigkeiten der vier Ausgänge kürzen wir
tiven Kriterium wie Arbeitsproduktivität wird mit VP (valide positiv), VN (valide negativ),
– analog zu den Testwerten – ein Trennwert FP (falsch positiv) und FN (falsch negativ) ab
bestimmt, der Eignung bzw. Nichteignung de- (I Tab. 6.3).
finiert. Dieser Trennwert heißt Kriteriumsstan-
Wie beeinflussen nun Basis- und Selektions-
dard. Der Kriteriumsstandard repräsentiert die
quote die Entscheidungsgüte? Zur Beantwor-
Mindestanforderung, die eine Organisation an
tung dieser Frage muss zunächst ein numeri-
einen geeigneten Mitarbeiter stellt und wird
sches Maß der Entscheidungsgüte festgelegt
entsprechend von der Organisation vorgege-
werden. Ein plausibler Kandidat hierfür ist die
ben. Wie bei den Prädiktoren kann es sich auch
relative Häufigkeit korrekter Entscheidungen,
beim Kriterium um eine einzelne Variable oder
also der Anteil valide Positiver und valide Ne-
um eine aus mehreren Variablen zusammen-
gativer an einer Bewerberstichprobe:
gesetzte Größe (z. B. ein Anforderungsprofil)
handeln. (VP + VN)/(VP + VN + FP + FN).
Kreuzklassifiziert man die Bewerber im Hin- Aus praktischer Sicht ist dieses Maß jedoch
blick auf Erreichen oder Verfehlen von Test- mit einem Problem behaftet. Um nämlich den
trennwert und Kriteriumsstandard, lassen sich Anteil korrekter Entscheidungen, der mit ei-
vier Ausgänge diagnostischer Entscheidungen nem Diagnosesystem erreicht wird, genau be-
differenzieren, die für die Bestimmung der Gü- stimmen zu können, müssten auch Kandidaten
te eines Auswahlverfahrens ausschlaggebend mit ungünstiger Prognose zunächst einmal ak-
sind: zeptiert werden. Ansonsten kann der Anteil
1. ein geeigneter Bewerber wird akzeptiert (va- valide Negativer ja nicht berechnet werden.
lide positiv) Die ideale Prozedur zur Bestimmung der Ent-
2. ein ungeeigneter Bewerber wird abgelehnt scheidungsgüte für dieses Maß wäre eine Zu-
(valide negativ) fallswahl von Bewerbern bis zur Ausschöp-
3. ein geeigneter Bewerber wird abgelehnt fung der Selektionsquote. Es ist verständlich,
(falsch negativ) dass Entscheidungsträger in Organisationen
4. ein ungeeigneter Bewerber wird akzeptiert mit einem solchen Verfahren kaum einver-
(falsch positiv) standen sind, da z. B. erniedrigte Produktivität
oder erhöhte Trainingskosten zu befürchten
Die beiden ersten Ausgänge repräsentieren
wären. Auch ethische Gesichtspunkte, die die
korrekte (valide) positive (Annahme) und ne-
Einzustellenden betreffen, insbesondere die
gative (Ablehnung) Entscheidungen. Perso-
Folgen eines möglichen Versagens auf der Po-
nen, deren Testwerte oberhalb des Testtrenn-
sition, sprechen gegen eine Zufallsauswahl.
werts liegen, und die zugleich auch den Krite-
riumsstandard erfüllen, werden entsprechend Ein alternatives Maß der Entscheidungsgüte
als valide Positive bezeichnet. Personen, die liefert der Anteil der Geeigneten an den Ak-
den Testtrennwert und den Kriteriumsstandard zeptierten. Dieses Maß wird als Erfolgsquote

172
6.3 Selektionsentscheidungen

Tab. 6.3
Entscheidung
Mögliche Ausgänge von
Faktisch Ablehnung Akzeptanz
Entscheidungen
Geeignet Falsch Negativ (FN) Valide Positiv (VP)
Ungeeignet Valide Negativ (VN) Falsch Positiv (FP)

bezeichnet und berechnet sich nach: Ein deutlicher Zuwachs der Erfolgs- gegen-
über der Basisquote ist besonders dann mög-
Erfolgsquote = VP/(VP + FP).
lich, wenn die Basisquote im mittleren Be-
Die Berechnung der Erfolgsquote stützt sich reich (also um 0.5) liegt, wie ein Blick auf die
allein auf die Akzeptierten und kann daher ein- I Tab. 6.4 erkennen lässt. Ist die Basisquote
facher bestimmt werden als der Anteil insge- dagegen sehr hoch oder sehr niedrig, dann ist
samt korrekter Entscheidungen. Darüber hin- der Nutzen der Selektion mit Hilfe des Tests
aus kann aus der Sicht der Institution für dieses geringer. Im ersten Fall – sehr hohe Basisquo-
Maß geltend gemacht werden, dass die Bewäh- te – bleibt wenig Raum für eine Verbesserung:
rung der Eingestellten wichtiger ist als der Sta- auch mit einem validen Test kann nur ein ge-
tus abgelehnter Personen: Abgelehnte liefern ringer Zuwachs der Erfolgs- gegenüber der
ja keinen Beitrag zur weiteren Entwicklung Basisquote erreicht werden. Der Einsatz eines
der Organisation. Taylor und Russell (1939) evtl. teuren Auswahlverfahrens lohnt hier also
legten ihren Überlegungen daher die Erfolgs- nicht; eine Zufallsauswahl wäre fast genauso
quote zugrunde. gut.
Aus sog. Taylor-Russell-Tabellen lassen sich
Im zweiten Fall – sehr niedrige Basisquote
die erwartete Erfolgsquote als Funktion
– hat auch ein valides Verfahren Schwierig-
der Basisquote, der Selektionsquote und
keiten, die „Nadel im Heuhaufen“ zu finden.
der Validität des Auswahlverfahrens ablesen.
Betragen z. B. Basis- und Selektionsquote .10,
I Tab. 6.4 zeigt einen kleinen Ausschnitt aus
so wird ein Test mit einer Validität von .40
diesen Tabellen, die das Zusammenwirken der
die Erfolgsquote von .10 auf .27 erhöhen, al-
drei Parameter auf die Erfolgsquote illustrie-
so eine Verbesserung um 17 % erreichen. Bei
ren.
mittlerer Basisquote ergibt sich hier dagegen
Betrachten wir zunächst die Rolle der Basis- ein Zuwachs um 27 % (.77 − .50). Liegen sehr
quote. Sie ist deshalb ein wichtiger Kennwert, niedrige Basisquoten vor, sollte man also ver-
weil sie eine Bezugsgröße für die Beurteilung suchen, die Position für geeignete Bewerber
der Erfolgsquote bereitstellt. Trifft man eine attraktiver zu machen. Eine Erhöhung der Va-
Zufallsauswahl unter den Bewerbern, ist die lidität des Auswahlverfahrens verspricht hier
erwartete Erfolgsquote gleich der Basisquote. weniger. Unter sonst gleichen Bedingungen ist
Die Differenz also eine mittlere Basisquote für den Einsatz
Erfolgsquote − Basisquote von Tests optimal.

drückt mithin die Verbesserung der Entschei- Auch die Selektionsquote besitzt einen deut-
dung mittels des Tests gegenüber einem Los- lichen Einfluss auf die Entscheidungsgüte: Je
verfahren aus – oder, was gleichbedeutend ist: niedriger die Selektionsquote angesetzt wird,
gegenüber einem Test mit einer Validität von umso höher fällt der Anteil der Geeigneten
Null. Von einem geeigneten Test muss natür- unter den Akzeptierten aus. Mit strikter Selek-
lich gefordert werden, dass diese Verbesserung tion wird gewissermaßen die „Creme“ unter
substanziell ausfällt. den Bewerbern abgeschöpft. Allerdings wird

173
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Tab. 6.4 Taylor-Russell-Tabellen (Auszug): Erfolgsquote als Funktion von


Basisquote, Selektionsquote und Validität

Basisquote .10 .50 .90


Selektionsquote .10 .50 .90 .10 .50 .90 .10 .50 .90
Validität 0 0.10 0.10 0.10 0.50 0.50 0.50 0.90 0.90 0.90
0.2 0.17 0.13 0.11 0.64 0.56 0.52 0.95 0.93 0.91
0.4 0.27 0.15 0.11 0.77 0.63 0.53 0.98 0.95 0.92
0.6 0.39 0.18 0.11 0.90 0.70 0.54 1.00 0.98 0.93
0.8 0.56 0.20 0.11 0.98 0.80 0.55 1.00 1.00 0.95
0.9 0.69 0.20 0.11 1.00 0.86 0.56 1.00 1.00 0.97

– wie wir bereits bemerkt hatten – auch der ignoriert werden. Drei Gesichtspunkte, die
Anteil falsch Negativer größer, der in der Er- die weitere Entwicklung entscheidungstheore-
folgsquote jedoch nicht berücksichtigt wird. tischer Modelle in der Diagnostik bestimmten,
sind dabei essenziell:
Mit steigender Validität steigt generell auch
die Erfolgsquote. Die Validität macht sich da- 1. Die Ergebnisse des Verfahrens sind mit Aus-
bei besonders bei niedrigen Selektionsquoten zahlungen für die Institution verbunden. Die
bemerkbar. Ist die Selektionsquote dagegen Einstellung valide Positiver wird für das Un-
hoch, evtl. sogar höher als die Basisquote, ternehmen Gewinne mit sich bringen, die
verbessern Validitätsinkremente die Entschei- Einstellung falsch Positiver dagegen kann
dungsgüte praktisch nicht. evtl. Verluste verursachen.
Insgesamt belegen die Überlegungen von Tay- 2. Auf der Seite des Kriteriums wird im Taylor-
lor und Russell, dass eine alleinige Betrach- Russell-Modell lediglich zwischen geeignet
tung von Validitätskoeffizienten die Frage und nicht geeignet differenziert. Personen
nach dem Nutzen von Tests für Selektionsent- in beiden Gruppen können sich aber in ihren
scheidungen unzulässig vereinfacht. Insbeson- Leistungen und damit ihrem Beitrag zu Ge-
dere zeigen sie, dass bei niedriger Selektions- winnen oder Verlusten der Institution deut-
quote bereits eine relativ geringe Validität des lich unterscheiden.
Tests ausreichen kann, um eine passable Er- 3. Die Etablierung, Durchführung und ggf.
folgsquote und einen substanziellen Zuwachs Weiterentwicklung einer diagnostischen
gegenüber der Basisquote zu erreichen. Prozedur führt zu Kosten, die bei der Bewer-
tung des Verfahrens berücksichtigt werden
sollten.
6.3.4 Entscheidungsnutzen
Diese drei Gesichtspunkte wurden besonders
Das Taylor-Russell-Modell betrachtet allein von Brogden (1949) sowie von Cronbach und
die Entscheidungsgüte und konzentriert sich Gleser (1965) ausgearbeitet und formalisiert.
dabei auf den Anteil der Geeigneten unter den Das Modell wird nach den Namen der Au-
Akzeptierten. Diese Beschränkung macht das toren kurz als BCG-Modell bezeichnet. Die
Modell recht einfach und transparent, bringt originäre Zielsetzung des Modells besteht dar-
jedoch den Nachteil mit sich, dass eine Reihe in, den Nutzen einer diagnostischen Prozedur
von Gesichtspunkten, die für die Bewertung ei- für eine Selektionsaufgabe in Geldeinheiten
ner Selektionsprozedur ebenfalls wichtig sind, auszudrücken. Es soll also bestimmt werden,

174
6.3 Selektionsentscheidungen

wie hoch der von dem Einsatz eines Verfahren SDy Leistungsstreuung, Wert der
zu erwartende finanzielle Gewinn oder Verlust Differenz einer Standardabweichung
ausfällt. Damit lässt sich prüfen, ob eine Proze- im Kriterium
dur überhaupt profitabel ist. Außerdem können
verschiedene in Frage kommende Verfahren C Kosten des Verfahrens pro Bewerber
hinsichtlich ihres relativen Nutzens miteinan- Nb Zahl der Bewerber
der verglichen werden.
Die mit dem Modell zu schätzende Größe ist
der inkrementelle Nutzen (incremental utility, Die drei Parameter in der Mitte der Formel
∆U) eines diagnostischen Verfahrens. Unter (Z x , rxy , SDy ) machen den Kern des Modells
inkrementellem Nutzen versteht man den Nut- aus: Ihr Produkt (abzüglich der Kosten C) be-
zenzuwachs, der sich durch die Verwendung stimmt den Nettonutzen pro ausgewähltem Be-
eines Tests oder einer Testbatterie ergibt. Es werber. Wir betrachten diese Parameter des-
handelt sich also um die Differenz „Nutzen der halb als erste.
Selektion bei Einsatz des Tests“ minus „Nut-
zen der Selektion ohne Einsatz des Tests“, also Z x ist der mittlere standardisierte Testwert der
um einen „Nettonutzen“. Die Vergleichsbasis Akzeptierten. Dieser Wert wird durch die Eig-
kann dabei in einer Zufallsauswahl bestehen – nungsverteilung in der Bewerberstichprobe,
hierauf konzentrieren wir uns hier–, aber auch die Validität des Tests und die Selektions-
in einem bereits etablierten Verfahren, dem quote beeinflusst. (Je niedriger die Selekti-
der in Rede stehende Test hinzugefügt wird. onsquote gewählt wird, desto höher fällt Z x
Der Nettonutzen wird üblicherweise in Geld- aus.) Für die Berechnung von Z x müssen Mit-
beträgen ausgedrückt. telwert und Standardabweichung des Prädik-
tors in der Bewerberpopulation bekannt sein.
Ist dies nicht der Fall, kann der Wert über
(λ /Selektionsquote) geschätzt werden. λ ist
Berechnung des Nettonutzens dabei die Ordinate der Normalverteilung an
im BCG-Modell dem durch die Selektionsquote bestimmten
Der Nettonutzen lässt sich nach folgender Testtrennwert. Diese Schätzung ist akkurat,
Formel berechnen: sofern der Prädiktor normalverteilt ist und die
Bewerber – wie üblich – entsprechend ihrer
∆U = Na · T · Z x · rxy · SDy − C · Nb Rangreihe im Prädiktor selektiert werden.

rxy repräsentiert die Validität des Verfahrens in


Die Symbole bedeuten:
der Bewerberpopulation. Bei der Bestimmung
∆U Nettonutzen dieses Parameters stellt sich das gleiche Pro-
blem wie bei der Entscheidungsgüte: Für eine
Na Zahl akzeptierter Bewerber genaue Schätzung werden unselektierte Stich-
proben benötigt, die aber nur selten verfügbar
T mittlere Verweildauer (engl. tenure)
sind. Die Korrelation wird daher meist anhand
der Akzeptierten in der Institution
der Akzeptierten berechnet. Aufgrund der ge-
Z x Mittlerer standardisierter Testwert der genüber einer unausgelesenen Stichprobe ein-
Akzeptierten geschränkten Variation unter den Akzeptier-
ten liefern solche Korrelationen allerdings zu
rxy Validität des Verfahrens in der konservative Schätzungen. Unter bestimmten
Population der Bewerber Voraussetzungen ist es jedoch möglich, diese

175
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Unterschätzung durch Verwendung von For- entsprechen. Die Experten werden z. B. ge-
meln zur Selektionskorrektur rückgängig zu beten, den Geldwert von Leistungen am 50.,
machen (siehe z. B. Olson & Becker, 1983). 15. und 85. Perzentil einzuschätzen. Die Dif-
ferenzen (50. Perzentil − 15. Perzentil) und
Die Leistungsstreuung, SDy , ist die Standard- (85. Perzentil − 50. Perzentil) entsprechen bei
abweichung der erwarteten Leistung in der Be- Normalverteilung der Werte jeweils ungefähr
werberpopulation, ausgedrückt in Geldäquiva- einer Standardabweichung. Zur Bestimmung
lenten. Es handelt es sich um den durchschnitt- der Leistungsstreuung werden diese Werte ge-
lichen Gewinn für die Institution pro Person mittelt.
und Jahr, der mit einer Erhöhung des Kriteri-
ums um eine Standardabweichung verbunden Noch einfacher ist die Verwendung propor-
ist. Die Leistungsstreuung setzt Kriteriumsun- tionaler Regeln. Diese Methode basiert auf
terschiede in Geldwerte um. empirischen Ergebnissen, die zeigen, dass die
Leistungsstreuung im Allgemeinen zwischen
Beispiel 40 und 70 % des mittleren Gehalts variiert
(Schmidt & Hunter, 1983). Proportionale Re-
Bringt eine Person mit durchschnittlichen
geln werden in vielen Nutzenanalysen ver-
Kriteriumsleistungen (Zy = 0) einem Unter-
wendet. 40 % des mittleren Gehalts gilt da-
nehmen z. B. 50 000 e pro Jahr ein, eine
bei als konservativer Schätzer der Leistungs-
Person mit überdurchschnittlichen Kriteri-
streuung. Erheblich aufwändiger sind indivi-
umsleistungen (Zy = 1) dagegen 70 000 e,
duelle Schätzmethoden, wie z. B. der CREPID-
so beträgt die Leistungsstreuung 20 000 e
Ansatz (Cascio & Ramos, 1986), in denen ein-
pro Jahr und Person. Je höher die Leistungs-
zelne Aktivitäten, die mit einer Position ver-
streuung ausfällt, umso bedeutsamer sind
bunden sind, hinsichtlich ihres Beitrags zur
individuelle Unterschiede im Kriterium für
Produktivität bewertet werden.
die Institution.
Die Bestimmung der Leistungsstreuung wur-
Die Leistungsstreuung wird auf der Grundlage de von Cronbach und Gleser (1965) als Achil-
objektiver Daten oder durch Schätzverfahren lesferse der Anwendung entscheidungstheore-
bestimmt. Da objektive Daten, z. B. Geldäqui- tischer Modelle bezeichnet. Tatsächlich füh-
valente von Verkaufszahlen oder geleisteter ren verschiedene Schätzmethoden zu teilwei-
Produktionseinheiten, selten verfügbar sind, se recht unterschiedlichen Ergebnissen. Die
wurden Schätzmethoden entwickelt, die z. T. Genauigkeit der diversen Verfahren kann zur
auf subjektiven Daten aufbauen. Einige die- Zeit noch nicht abschließend beurteilt werden.
ser Methoden sind recht einfach anzuwenden, Einige Autoren schlagen daher vor, nach Mög-
andere verlangen erheblichen Untersuchungs- lichkeit verschiedene Methoden einzusetzen,
aufwand. um etwaige Divergenzen bei den Schlussfol-
gerungen berücksichtigen zu können (Holling
Zu den einfachen Methoden gehören sog. glo- & Melles, 2004).
bale Schätzprozeduren und proportionale Re-
geln. Bei globalen Schätzprozeduren (engl. Das Produkt der drei bislang besprochenen
global estimation procedure; Schmidt, Hunter, Parameter liefert Nutzenwerte, die auf einen
McKenzie & Muldrow, 1979) liefern Exper- Akzeptierten und ein Jahr bezogen sind. Durch
ten (meist unmittelbare Vorgesetzte der Ein- Multiplikation mit der Zahl der Akzeptierten
zustellenden) Schätzungen des Geldwerts von (Na ) und deren durchschnittlicher Verweildau-
Leistungen, die zwei oder mehr Prozenträngen er in der Institution (T ) erhält man ein Maß

176
6.3 Selektionsentscheidungen

für den gesamten Nettonutzen des Auswahl- 1999). Neuere Entwicklungen auf der Basis
verfahrens. Hiervon sind noch die Kosten, die des BCG-Modells inkorporieren weitere öko-
durch die Anschaffung, Administration und nomische Faktoren, z. B. Steuern oder Diskon-
Auswertung der Tests verursacht werden, ab- tierung, und erlauben damit verfeinerte Be-
zuziehen. Diese Kosten hängen u. a. davon ab, rechnungen des Nutzens einer Prozedur (sie-
wie viele Tests verwendet werden, wie teu- he Boudreau, 1991; Holling & Melles, 2004;
er die einzelnen Tests sind und wie hoch der Roth, Bobko & Mabon, 2001).
zeitliche und personelle Aufwand für Durch-
führung und Auswertung ist. Für sehr valide
Verfahren sind im Allgemeinen höhere Kosten 6.3.5 Entscheidungen außerhalb
zu veranschlagen als für Verfahren geringerer der Personalselektion
Validität.
Nutzenmodelle im Rahmen der Personalselek-
Das BCG-Modell gestattet die Berechnung tion konzentrieren sich auf die Eignung unter
des finanziellen Gewinns bzw. Verlusts, der den Akzeptierten. Ein eventuell durch falsch
bei der Durchführung einer bestimmten dia- Negative entstehender Verlust wird ignoriert
gnostischen Prozedur zu erwarten ist. Eine bzw. als vernachlässigbar gering angesehen.
wichtige Anwendung ist dabei der Nutzen- Dies ist sicherlich nicht ganz unkritisch: Unter
vergleich verschiedener in Frage kommender den Abgelehnten könnten sich exzellente Be-
Verfahren. Es lässt sich also beispielsweise ab-
werber finden, die ihre Fähigkeiten bei einem
schätzen, inwieweit es lohnenswert ist, eine Konkurrenzunternehmen unter Beweis stellen
bestehende Prozedur durch Hinzunahme neu- und damit der Organisation schaden. Auch
er Tests oder Streichung verwendeter Tests zu die Reputation eines Unternehmens, das vie-
modifizieren. le Geeignete ablehnt, könnte leiden (Wiggins,
Auch für die optimale Festlegung von Trenn- 1973).
werten bzw. Selektionsquoten liefert das Mo- Für Selektions- und Klassifikationsentschei-
dell die geeignete Grundlage: Trennwerte las- dungen außerhalb des Kontexts der Personal-
sen sich über mathematische Prozeduren so auswahl ist ein Außerachtlassen der Abgelehn-
festsetzen, dass der Nutzen der Selektion ma- ten bzw. – allgemeiner – „negativ Diagnosti-
ximiert wird. Das Modell liefert damit einen zierten“ meist nicht gerechtfertigt (Wiggins,
wertvollen Beitrag zur Evaluation und Op- 1973). So wäre es z. B. irreführend, ein medizi-
timierung von Auswahlentscheidungen. Dar- nisches oder klinisch-psychologisches Diagno-
über hinaus helfen die Berechnungen bei der severfahren allein danach zu bewerten, wie-
Vermittlung und Begründung psychologischer viele positiv Diagnostizierte tatsächlich eine
Maßnahmen gegenüber „finanziell denkenden“ Krankheit oder Störung aufweisen. Für die
Verantwortlichen in Organisationen (Funke & Bewertung des Verfahrens ist vielmehr auch
Barthel, 1990). ausschlaggebend, wieviele negativ Diagnosti-
zierte die Krankheit oder Störung nicht auf-
Empirische Untersuchungen zeigen, dass
weisen.
selbst der Einsatz von Tests mit relativ ge-
ringer (inkrementeller) Validität zu einem er- Der Anteil positiv Diagnostizierter an den fak-
heblichen Gewinn führen kann. Sie belegen tisch Positiven, VP / (VP + FN), wird in die-
auch, dass sich Validitätssteigerungen einer sen Kontexten als Sensitivität bezeichnet. Ein
Prozedur im Allgemeinen recht schnell amor- Verfahren mit hoher Sensitivität identifiziert
tisieren (für konkrete Anwendungen siehe z. B. faktisch Positive also mit hoher Wahrschein-
Barthel & Schuler, 1989; Holling & Reiners, lichkeit. Der Anteil negativ Diagnostizierter an

177
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

den faktisch Negativen, VN / (VN + FP), wird Trennwert festgelegt werden. Durch mathe-
Spezifität genannt. Ein Verfahren mit hoher matische Prozeduren kann dann derjenige
Spezifität identifiziert also faktisch Negative Trennwert bestimmt werden, der den erwar-
mit hoher Wahrscheinlichkeit. teten Nutzen maximiert.
Bei gegebener Validität eines Verfahrens muss
dabei ein Abgleich zwischen Sensitivität und Nutzenberechnungen sind also durchaus nicht
Spezifität hingenommen werden. Eine Erhö- auf Geldwerte oder -äquivalente beschränkt.
hung der Sensitivität durch Herabsetzen des Der Nutzen diagnostischer Entscheidungen
Testtrennwerts hat notwendigerweise eine Re- kann sich z. B. auch daran bemessen, wie
duktion der Spezifität zur Folge. Umgekehrt gut die Zuordnung von Klienten zu therapeu-
führt eine Erhöhung der Spezifität durch Er- tischen Programmen oder Schülern zu För-
niedrigung des Testtrennwerts immer zu ei- derungskursen gelingt. Der Nutzen wäre in
ner Reduktion der Sensitivität. Die Entschei- diesen Fällen nicht monetär zu bestimmen,
dungstheorie kann hier dazu verwendet wer- sondern vielmehr an Verhaltenskriterien (wie
den, einen angemessenen Kompromiss unter Angstreduktion, Kompetenzzuwachs, Effekti-
Berücksichtigung des Nutzens korrekter und vität usw.) festzumachen.
des Schadens inkorrekter Klassifikationen zu
finden.
6.4 Sequenzielle Strategien
Illustration
Hierfür werden die vier möglichen Aus- Wie bereits angedeutet wurde, lassen sich dia-
gänge numerisch bewertet, wobei es allein gnostische Entscheidungsstrategien in nicht-
auf die Relationen zwischen den Werten sequenzielle und sequenzielle Strategien ein-
ankommt. Nehmen wir z. B. an, der durch teilen. Bei nichtsequenziellen (oder einstufi-
einen falsch Negativen entstehende Scha- gen, engl. single-stage) Strategien wird ein
den sei um einiges gravierender als der Test oder eine Testbatterie allen Personen ge-
durch einen falsch Positiven entstehende geben, über die eine Entscheidung getroffen
Schaden. Dies wäre etwa bei einer unbe- werden soll. Die Entscheidung basiert im ers-
dingt behandlungsbedürftigen Störung der ten Fall auf einem einzelnen Trennwert, im
Fall. Die vier Ausgänge könnten dann z. B. zweiten auf einem kombinierten oder multi-
so bewertet werden: plen Trennwert. In jedem Fall durchlaufen alle
U(VP) = 1, U(VN) = 1, U(FP) = −0.5, Personen gewissermaßen das „volle diagnos-
U(FN) = −2. tische Programm“, das dann in einem Schritt,
also ohne (weitere) investigatorische Phasen,
Der erwartete Nutzen (expected utility) zur terminalen Entscheidung führt. Sequenzi-
für einen bestimmten Testtrennwert kann elle Strategien beinhalten demgegenüber min-
durch destens eine (weitere) investigatorische Stufe.
Nach jeder Stufe wird ein Teil der Bewerber
EU = U(VP)P(VP) + U(VN)P(VN) + (terminal) akzeptiert, ein zweiter Teil der Be-
U(FP)P(FP) + U(FN)P(FN) werber wird (terminal) zurückgewiesen, ein
dritter Teil bleibt im Verfahren und absolviert
berechnet werden. P notiert dabei die Wahr- die nächste Stufe. Dieses Vorgehen wird so
scheinlichkeiten der Ausgänge, die bei lange fortgesetzt, bis über alle Bewerber ter-
gegebener Validität durch den gewählten minal entschieden wurde. Bei sequenziellen

178
6.4 Sequenzielle Strategien

Akzeptanz

X>O W>C

O>X>U
Test 1 Test 2

X<U W<C

Ablehnung

Abb. 6.2 Zweistufige sequenzielle Strategie. X und W sind Testwerte, O (oberer Trennwert,
Akzeptanzgrenze), U (unterer Trennwert, Ablehnungsgrenze) und C sind Trennwerte.

Verfahren sind damit immer mehrere Trenn- die das Kriterium voraussichtlich nicht erfül-
werte involviert. len, ausgesondert. Über die verbleibenden Be-
werber wird dann nach Durchführung des in
Sequenzielle Strategien erlauben es, eine kos- der Regel aufwändigeren zweiten Verfahrens
tenintensive Prozedur so aufzuteilen, dass Res- entschieden. Für die terminale Entscheidung
sourcen geschont werden, gleichzeitig jedoch über die verbleibenden Bewerber werden da-
ausreichend hohe Genauigkeit erhalten bleibt. bei die Testwerte aus der ersten und zweiten
Erreicht wird dies dadurch, dass nach der ers- Phase kombiniert. Die Kombination erhöht die
ten und ggf. weiteren Stufen nur noch Kandi- Validität des gesamten Verfahrens. – Die pre-
daten getestet werden, über die Unsicherheit accept-Strategie ist das Spiegelbild der pre-
besteht. Die für das Gesamtprogramm entste- reject-Strategie. Hier werden Bewerber, die
henden Kosten fallen damit allein für Kandi- das Kriterium mit hoher Wahrscheinlichkeit
daten in der letzten Stufe an. Bei allen anderen erfüllen, bereits nach der ersten Testung termi-
Kandidaten sind die Kosten der Diagnostik nal akzeptiert, der Rest absolviert das zweite
geringer. Verfahren. Danach wird über die verbleiben-
den Bewerber entschieden, wiederum auf der
Die einfachste Variante sequenzieller Strate-
Basis der Ergebnisse in beiden Testverfahren.
gien sind Zwei-Stufen-Pläne (double stage-
Strategien), in denen – wie die Bezeichnung
besagt – zweimal getestet wird. Man unter- Bei einer vollständigen Strategie werden für
scheidet hier zwischen unvollständigen und den Test der ersten Phase sowohl ein oberer
vollständigen Strategien. wie ein unterer Trennwert definiert. Bewerber,
die über bzw. unter diesen Trennwerten liegen,
Unvollständige Strategien sind die pre-reject werden unmittelbar akzeptiert bzw. zurückge-
und die pre-accept-Strategie. Bei der pre- wiesen. Nur über Bewerber im Mittelbereich
reject-Strategie wird zunächst ein kostengüns- werden mittels des zweiten Verfahrens weitere
tiges Verfahren mit allen Bewerbern durchge- Informationen eingeholt. I Abb. 6.2 illustriert
führt. Mit diesem Verfahren werden Bewerber, das Prinzip des Vorgehens. Pre-reject- und pre-

179
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

accept-Pläne sind gewissermaßen beschnitte- 6.5 Das Bandbreiten-


ne Versionen der vollständigen Strategie. Die Fidelitätsdilemma
beiden unvollständigen Pläne involvieren für
die erste Phase jeweils nur einen Trennwert,
Häufig stehen für die Diagnostik nur einge-
nämlich eine Ablehnungs- bzw. eine Akzep-
schränkte zeitliche, personelle und finanziel-
tanzgrenze, der vollständige Plan beinhaltet
le Ressourcen zur Verfügung. Diagnostiker
dagegen beide Grenzen.
sind damit bei der Planung ihrer Untersuchun-
Der Vorteil sequenzieller Strategien liegt dar- gen mit dem folgendem Dilemma konfron-
in, dass relativ teure Tests nur mit einem Teil tiert: Sollen mit den begrenzten Mitteln nur
der zu Diagnostizierenden durchgeführt wer- wenige Variablen sehr genau gemessen wer-
den müssen. In der ersten Phase wird nur ei- den oder sollen viele Variablen eher kursorisch
ne relativ grobe Einteilung vorgenommen, für erfasst werden? Cronbach und Gleser (1965)
die ein einfaches und leicht durchzuführendes nennen dies (in Anlehnung an die Terminolo-
Verfahren ausreicht. Hierbei kann es sich z. B. gie der Nachrichtentechnik) das Bandbreiten-
um einen Test aus der gesamten im Rahmen Fidelitätsdilemma. „Bandbreite“ steht für die
der Prozedur geplanten Batterie handeln oder Anzahl gemessener Merkmale, Fidelität für
um eine Kurzversion mit repräsentativen Tei- die Validität der einzelnen Messungen.
len aus mehreren oder allen Tests. Der erste
Unter den nahezu immer existierenden ein-
Test allein ist für die endgültige Auswahl je-
schränkenden Bedingungen beim Diagnosti-
doch noch nicht valide genug. Daher werden
zieren muss ein Kompromiss gefunden werden
hier auch Akzeptanz- bzw. Ablehnungsgren-
zwischen dem Einsatz sehr valider Verfahren,
zen relativ „liberal“ festgelegt. Hinreichende
die aber diagnostische Relevanz für nur we-
Validität für die endgültige Entscheidung wird
nige Merkmale besitzen, und Verfahren, die
erst in Kombination mit dem zweiten und ggf.
weniger genau messen, dafür aber gleich meh-
weiteren Verfahren erreicht.
rere Merkmale erfassen. Stehen für den Test-
Verglichen mit einstufigen Verfahren, in denen teil einer Auswahldiagnostik z. B. 90 Minuten
alle Bewerber alle Tests erhalten, müssen bei zur Verfügung, könnte die Frage entstehen,
sequenziellen Verfahren Einbußen an Validität ob man für die Erfassung relevanter Merkma-
in Kauf genommen werden. Gemessen an den le die Kurzform eines Intelligenztests, einen
Kosten können diese Einbußen aber vernach- Konzentrationstests und Skalen zur Bestim-
lässigbar gering sein. Sequenzielle Strategien, mung von Gewissenhaftigkeit, Verträglichkeit
insbesondere vollständige, sind meist um ei- und Leistungsmotiviertheit gibt, oder ob man
niges effizienter als einstufige (Cronbach & für die Bestimmung eines für die Position
Gleser, 1965; für Beispielrechnungen siehe sehr wichtigen Intelligenzmerkmals, sagen wir
auch Wiggins, 1973). Mit der Zahl der Stufen räumliches Vorstellungsvermögen, mehr Zeit
einer diagnostischen Prozedur steigt naturge- reserviert und dafür auf den Konzentrations-
mäß auch der Planungs- und Durchführungs- test oder die Persönlichkeitsskalen verzichtet.
aufwand. Zweistufiges Testen kann als eine „Bandbreite“ kann sich dabei sowohl auf ganze
in vielen Fällen geeignete Kompromisslösung diagnostische Prozeduren (wie viele verschie-
angesehen werden. Hierdurch kann hohe Ge- dene Tests sollen eingesetzt werden?) als auch
nauigkeit bei vergleichsweise geringem Tes- auf einzelne Tests innerhalb einer Prozedur
taufwand erreicht werden. Ein mehrstufiges beziehen (ein Test zur Erfassung verschiede-
Vorgehen ist dabei besonders dann anzuraten, ner Intelligenzdimensionen hat größere Band-
wenn die Kosten der Diagnostik für terminale breite als ein Test, der allein das räumliche
Entscheidungen relativ hoch sind. Vorstellungsvermögens misst, I Kap. 12).

180
6.6 Aptitude-Treatment-Interaktionen

Die jeweils angemessene Balance zwischen 6.6 Aptitude-Treatment-


Bandbreite und Fidelität hängt wesentlich da- Interaktionen
von ab, wie viele unterschiedliche Entschei-
dungen auf der Basis der Diagnostik getroffen
werden sollen. Breitbandprozeduren besitzen Bislang haben wir den Nutzen von Tests bei
einen großen Anwendungsbereich und sind Selektionsaufgaben betrachtet. Ein weitere
damit meist auch für mehr Entscheidungssi- Aufgabe, die von Cronbach und Gleser (1965)
tuationen nützlich als Verfahren mit geringer analysiert wird, stellen Platzierungen dar. Hier
Bandbreite. So könnte z. B. ein Verfahren mit geht es darum, Personen auf der Basis diagnos-
hoher Bandbreite nicht nur für die Selektion, tischer Information der für sie optimalen Be-
sondern auch für anschließende Platzierungs- handlung (z. B. Aus- oder Weiterbildungspro-
entscheidungen (etwa Zuordnung zu geeigne- grammen, Therapien) zuzuordnen. Nehmen
ten Trainingsprogrammen) verwendet werden. wir an, die Behandlungsoptionen bestünden
Der Beitrag eines Verfahrens ist nach Cron- in drei Kursen A, B und C zum gleichen The-
bach und Gleser (1965) über alle Entschei- ma, die jedoch unterschiedliche Vorkenntnisse
dungen zu bewerten, die mit seiner Hilfe ge- voraussetzen oder unterschiedlich schnell vor-
troffen werden, nicht allein auf der Grundlage gehen. Die diagnostische Aufgabe bestünde
seines Beitrags für eine spezifische Entschei- hier darin, mittels eines Wissens- oder Fähig-
dung. Die Information, die ein sehr valides, keitstests die Personen so platzieren, dass sie
aber spezifisches Verfahren liefert, beantwor- von den entsprechenden Kursen jeweils maxi-
tet evtl. nur eine Frage sehr genau, lässt weite- mal profitieren.
re Fragen dagegen unbeantwortet, so dass sein
Cronbach und Gleser argumentieren, dass
Nutzen insgesamt eher gering ausfallen kann.
hierfür nicht immer die Tests geeignet sind,
Ihre Analysen bringen Cronbach und Gle- für die sich im Durchschnitt über Behand-
ser (1965) zu einer günstigen Bewertung von lungen die größte Validität ergibt. Nützlich
Breitbandverfahren. Die Autoren schließen da- sind vielmehr solche Verfahren, für die sich
bei auch solche Zugangsweisen ein, die übli- deutliche Interaktionen zwischen Testwerten
cherweise aufgrund geringer oder fraglicher und Behandlung im Hinblick auf ein Krite-
Validität eher kritisch betrachtet werden, z. B. rium (z. B. Lernerfolg im Kurs) sichern las-
freie Interviews, projektive Tests oder Aufsatz- sen. Cronbach (1957) hat hierfür den Begriff
prüfungen. Der potenzielle Wert solcher Ver- Aptitude-Treatment-Interaktion geprägt. Er be-
fahren liegt darin, dass sie bedeutsame Sach- zog sich dabei vor allem auf pädagogisch-
verhalte ans Tageslicht bringen können, die psychologische Fragen.
eine Reihe stark fokussierter Tests allein nicht Mit dem Konzept Aptitude-Treatment-
aufdecken. Obgleich diese Sachverhalte mit Interaktion wird der Sachverhalt bezeichnet,
hoher Unsicherheit behaftet sind, liefern sie dass die Effektivität verschiedener Formen
doch Grundlagen für Hypothesen, die im Rah- der Instruktion von Fähigkeiten, Eignungen
men weiterer Untersuchungen geprüft, und und anderen Merkmalen der unterrichteten
dabei ggf. auch falsifiziert werden können. Personen abhängen. So fördert z. B. ein
Cronbach und Gleser (1965) empfehlen da- stark strukturierter und kontrollierender
her, Breitbandverfahren nach Möglichkeit an Unterricht den Lernerfolg bei Kindern
den Anfang einer sequenziellen Prozedur zu mit geringen Fähigkeiten, während er das
stellen, die zu reversiblen (nichtterminalen) Lernen bei Kindern mit hoch ausgeprägten
Entscheidungen führt. Fähigkeiten eher beeinträchtigt (Snow,
1989). Generell zielen Forschungen zu

181
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Abb. 6.3 Zusammenhänge zwischen Aptitude und Kriteriumswerten (z. B. Lernerfolg) bei drei
Treatments (z. B. Kursen A bis C).

Aptitude-Treatment-Interaktionen darauf, parallel. Der Test sagt hier zwar den Lerner-
Information bereitzustellen, mit deren Hilfe folg vorher, liefert jedoch keine Anhaltspunkte
Behandlungen auf individuelle Merkmale für eine Platzierung der Personen. Alle Perso-
oder Voraussetzungen abgestimmt werden nen schneiden in Kurs A am besten ab, so
können, im Beispiel also Unterrichtsformen dass man in diesem Fall nach Möglichkeit alle
auf Fähigkeitsmerkmale. Personen auf Kurs A schicken sollte.

Interaktionen liegen dann vor, wenn Stärke


und/oder Richtung des Zusammenhangs zwi- Beim Szenario im rechten Teil besteht dage-
schen zwei Variablen (z. B. Fähigkeit und gen eine Interaktion, da sich die Kurven kreu-
Lernerfolg), von der Ausprägung einer drit- zen. Wie ersichtlich ist, profitieren Personen
ten Variable (z. B. Unterrichtsform) abhängen. mit niedrigen Testwerten am meisten von Kurs
I Abb. 6.3 zeigt zwei hypothetische Szena- C, Personen mit mittleren Werten am meisten
rios, in denen Beziehungen zwischen einem von Kurs B und Personen mit hohen Werten
Kriterium (Lernerfolg) und Testwerten (z. B. am meisten von Kurs A. Wenn sich die Kurven
zu Vorwissen oder Fähigkeiten) für jeweils kreuzen, ergeben sich unterschiedliche Plat-
drei Behandlungen (Kurse, z. B. A = Fortge- zierungsempfehlungen für verschiedene Per-
schrittene, B = Personen mit Vorkenntnissen, sonen. Personen mit hohen Merkmalsausprä-
C = Einsteiger) untersucht wurden. gungen (z. B. solche mit umfangreichem Vor-
wissen oder hohen bereichsspezifischen Fä-
In beiden Szenarios und für alle Kurse beste- higkeiten) lernen am besten in dem schnell
hen positive Beziehungen zwischen Testwer- voranschreitenden Kurs A. Von dem Einstei-
ten und Lernerfolg. Der linke Teil zeigt ein gerkurs C sind solche Personen unterfordert
Szenario, in dem keine Interaktion zwischen und nehmen hier entsprechend auch wenig mit.
der mit dem Test erfassten „Aptitude“ und der Personen mit niedrigen Testwerten lernen da-
Behandlung vorliegt: Die Kurven verlaufen gegen im Einsteigerkurs C wesentlich mehr

182
6.6 Aptitude-Treatment-Interaktionen

als im Fortgeschrittenenkurs A, dessen Vor- auf die Leistung auswirkt. Demgegenüber pro-
aussetzungen sie nicht mitbringen. fitieren niedrigängstliche Schüler stärker von
einem schülerzentrierten Unterricht, der viel
Für Platzierungsempfehlungen ist Informati-
Freiraum für selbstständigen Wissenserwerb
on über Aptitude-Treatment-Interaktionen von
lässt. Für Ängstlichkeit zeigte sich hier also
essenzieller Bedeutung. Tatsächlich wird die
eine ähnliche Interaktion, wie sie häufig für
Existenz solcher Interaktionen immer voraus-
Fähigkeiten festgestellt wurde.
gesetzt, wenn Bedingungen oder Behandlun-
gen auf individuelle Merkmale und Voraus- Das Konzept hat eine Vielzahl von Untersu-
setzungen einer Person abgestimmt werden chungen angeregt. Trotz dieser Tatsache wird
sollen. der Ertrag der Forschung in Übersichtsarbeiten
Zu beachten ist dabei, dass der Anwendungs- eher nüchtern bewertet. Cronbach und Snow
bereich des Begriffs weiter ist, als die Bezeich- (1977) bemerken im Hinblick auf die häu-
nung „Aptitude-Treatment-Interaktion“ nahe- fig schwierige Replizierbarkeit von Befunden,
legt. Anstelle von Eignungs- bzw. Fähigkeits- keine Aptitude-Treatment-Interaktion sei so
merkmalen können hier auch emotionale und gut bestätigt, dass sie direkt als Richtlinie für
motivationale Variablen, z. B. Ängstlichkeit, die Gestaltung von Unterrichtsprozessen her-
Leistungsmotivation oder Interessen betrach- angezogen werden könne. Dennoch resümie-
tet werden. Entsprechend kann sich „Behand- ren sie: „Aptitude-treatment interactions exist.
lung“ nicht nur auf Ausbildung, sondern auch To assert the opposite is to assert that whiche-
auf verschiedene präventive oder kurative In- ver educational procedure is best for Johnny
terventionen beziehen. Schließlich kommen is best for everyone else in Johnny’s school“
als Kriterien nicht nur Leistungsmerkmale, (p. 492; vgl. auch Snow, 1989).
sondern auch Arbeitszufriedenheit, Angstfrei- In unserem Kursbeispiel ging es um die opti-
heit usw. in Betracht, also prinzipiell alles, was male Zuordnung von Personen zu vorgegebe-
sich als Effekt einer Behandlung einstellen nen Behandlungen oder Bedingungen. Cron-
kann oder soll. bach und Gleser sprechen hier von fixierten
Die Forderung nach verstärkter Forschung zu Behandlungen. Inhalt und Ablauf der Behand-
Aptitude-Treatment-Interaktionen wurde be- lungen stehen hier von vornherein fest. Un-
sonders im Bereich der Pädagogischen Psy- ter adaptiven Behandlungen werden dagegen
chologie aufgegriffen, um Lehrmethoden und Interventionen verstanden, die sich auf Merk-
-inhalte besser an individuelle Lernvorausset- male und Voraussetzungen der behandelten
zungen von Schülern anpassen zu können. Personen einstellen.
Leitfrage war hier, welche Effekte unterschied-
Adaptive Behandlungen finden sich typischer-
liche Lehrmethoden oder -inhalte bei verschie-
weise bei therapeutischen Interventionen, de-
denen Schülern besitzen. Hier wurden neben
ren Bausteine und Ablauf auf das spezifische
Fähigkeitsmerkmalen auch nichtintellektuelle
Problem einer Person abgestimmt werden,
Eigenschaften betrachtet.
oder in pädagogischen Kontexten, in denen
Ein Beispiel hierfür liefert die Studie von Lehrinhalte und -methoden an die Vorausset-
Dowaliby und Schumer (1973), die Auswir- zungen einer Klasse angepasst werden. Beim
kungen unterschiedlicher Unterrichtsformen Unterrichten sind hier auch computergestütz-
auf die Leistung hoch- und niedrigängstli- te Lehrsysteme zu nennen, in denen die ver-
cher Schüler untersuchten. Sie fanden, dass mittelte Information dem Wissensstand bzw.
ein stark strukturierter, lehrerzentrierter Un- dem Lernfortschritt einer Person folgt (Leut-
terricht sich bei ängstlichen Schülern günstig ner, 1992). Im Rahmen von Personalentschei-

183
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

dungen in Organisationen werden adaptive Be- Bereichen des Merkmalskontinuums zu er-


handlungen praktiziert, wenn die Arbeitsbe- halten, wird eine große Zahl von Items un-
dingungen oder -anforderungen nach der Ein- terschiedlicher Schwierigkeit benötigt. Bei
stellung von Bewerbern auf die jeweils spezifi- Fähigkeitstests werden die Items dabei im
schen Stärken einzelner Personen zugeschnit- Allgemeinen nach ihrer Schwierigkeit gestaf-
ten werden. felt, man beginnt also mit leichten Aufgaben
und geht im Lauf der Testung sukzessive zu
schwierigeren Aufgaben über.
6.7 Antwortabhängiges Testen Von diesem Grundaufbau wird beim konven-
tionellen Testen nur manchmal aus ökonomi-
Entscheidungstheoretische Prinzipien lassen schen Gründen und zur Sicherung einer güns-
sich nicht nur zur Auswahl und Anordnung tigen Motivation der Probanden leicht abge-
von Tests oder anderen „ganzen“ diagnosti- wichen. Bei individuellen Intelligenzprüfun-
schen Verfahren einsetzen, sondern auch zur gen ist es z. B. üblich, nach mehreren Fehlver-
Auswahl und Anordnung der Items eines ein- suchen abzubrechen oder zu leichteren Auf-
zelnen Tests. Im ersten Fall spricht man von gaben überzugehen. Auch die Einstiegsitems
diagnostischen Makrostrategien, im zweiten werden bei Intelligenztests manchmal an das
dagegen von Mikrostrategien. In der Praxis (erwartete) Fähigkeitsniveau eines Probanden
werden entscheidungstheoretische Mikrostra- angepasst. Man verzichtet also z. B. bei intel-
tegien meist bei Fähigkeits- und Leistungs- ligenten Probanden auf die Darbietung sehr
tests implementiert, ihr Anwendungsfeld ist leichter Items und beginnt gleich mit Items hö-
jedoch nicht grundsätzlich auf diesen Bereich herer Schwierigkeit. Dahinter steht die Über-
beschränkt. Die wichtigste Umsetzung ent- legung, nur solche Items zu geben, die einen
scheidungstheoretischer Mikrostrategien stellt deutlichen Informationsgewinn versprechen.
das antwortabhängige Testen (Hornke, 1976, Diese, für das konventionelle Testen eher bei-
1977) dar. läufige Idee wird beim antwortabhängigen Tes-
ten systematisiert.
Antwortabhängiges Testen
Antwortabhängige Verfahren lassen sich zwei
Antwortabhängiges Testen (engl. response Prototypen zuordnen, die mit unterschiedli-
contingent testing) umfasst alle Verfahren, chen diagnostischen Zielsetzungen eingesetzt
bei denen die gegebenen Antworten über werden. Bei sequenziellen antwortabhängigen
den weiteren Verlauf des Testens entschei- Verfahren steht das Ziel einer Verkürzung der
den. Von konventionellen Tests heben sich Testdauer im Vordergrund. Sequenzielle Ver-
antwortabhängige Verfahren durch eine fle- fahren werden zur Einordnung von Personen
xible Strategie der Informationserhebung in zwei oder mehr vorab definierte Gruppen
ab, die auf das mit der Testung angestreb- verwendet. Bei adaptiven antwortabhängigen
te Ziel (z. B. Messung oder Klassifikation) Verfahren geht es demgegenüber primär um ei-
und die im Rahmen der Prozedur notwen- ne möglichst präzise quantitative Bestimmung
dige Präzision der Diagnostik abgestimmt eines zu diagnostizierenden Merkmals. Auch
ist. dies soll ökonomisch, also mit möglichst we-
nigen Items, erreicht werden.
Wie in I Kap. 3 dargestellt wurde, wird beim
konventionellen Testen eine fixierte Itemmen-
ge gegeben: Jeder Proband bearbeitet die glei-
chen Items. Um genaue Messungen in allen

184
6.7 Antwortabhängiges Testen

6.7.1 Sequenzielle Verfahren bezeichnet werden (andere gebräuchliche Be-


zeichnungen sind Sequenzialtest oder Folge-
Mit sequenziellen Tests werden Personen in test). Kennzeichnend für diese statistischen
eine von mehreren diagnostisch interessieren- Verfahren ist der variable Stichprobenumfang.
den Gruppen eingeteilt. Sie können also bei Im Unterschied zu vielen anderen statistischen
Selektions- und Klassifikationsaufgaben ein- Prüfverfahren wird dieser Umfang nicht vor-
gesetzt werden. Diagnostische Fragen, die mit ab festgelegt, vielmehr wird nach jeder Beob-
Hilfe sequenzieller Testung beantwortet wer- achtung entschieden, ob die Datenlage für die
den können, wären etwa: Hat ein Kandidat die Prüfung der Hypothesen schon ausreicht oder
Prüfungsanforderungen erfüllt? Liegt bei ei- noch weitere Beobachtungen notwendig sind.
nem Klienten eine Angststörung vor? Handelt
es sich bei einem Schüler um ein „hochbegab- Zur Illustration des Vorgehens betrachten wir
tes“ Kind? den Sequential Probability Ratio Test (SPRT;
Wald, 1947). Für die Anwendung des SPRT
In diesen Beispielen geht es um eine dicho- müssen (mindestens) zwei Hypothesen, zu-
tome Klassifikation von Personen. Auch po- sammen mit zugehörigen Irrtumswahrschein-
lytome Klassifikationen sind mit sequenziel- lichkeiten, formuliert werden. Hypothesen und
len Verfahren möglich. Weitere quantitative Irrtumswahrscheinlichkeiten erlauben dann
Differenzierungen innerhalb der Klassen in- die Bestimmung von Trennwerten für richtige
teressieren jedoch nicht. Der Grundgedanke bzw. falsche Antworten, bei deren Überschrei-
sequenzieller Verfahren ist es, das Testen abzu- ten das Testen abgebrochen und die terminale
brechen, sobald genügend Information für die Entscheidung getroffen wird. Die Logik der
Klassifikation vorliegt. Solche Verfahren kön- Prozedur lässt sich am besten anhand eines
nen erheblich ökonomischer sein als konven- konkreten Beispiels veranschaulichen.
tionelle Tests, in denen eine möglichst genaue
quantitative Bestimmung der Merkmalsausprä-
Für die Abschlussprüfung eines Weiterbil-
gung angestrebt wird. Der Ökonomiegewinn
dungskurses liege eine große und (ungefähr)
sequenzieller Verfahren rührt daher, dass auf
schwierigkeitshomogene Menge von Wissens-
eine (quantitative) Binnendifferenzierung in-
fragen vor. Zur Einsparung des Prüfungsauf-
nerhalb der Klassen verzichtet wird.
wands sollen die Items dieses Pools sequen-
Zu diesem Zweck müssen Entscheidungsre- ziell gegeben werden. In der Prüfung werden
geln in die Testprozedur eingebaut werden. hierfür zufällig Aufgaben aus dem Pool gezo-
Generell wird bei sequenziellen Tests nach gen und den Kandidaten nacheinander vorge-
jedem investigatorischen Schritt (jeder Item- legt.
vorgabe) geprüft, ob die vorliegenden Daten
(Antworten, Lösungen) bereits eine Klassifi- Von erfolgreichen Teilnehmern werde erwar-
kation des Probanden erlauben, oder ob noch tet, dass sie mindestens 80 % der Aufgaben
weitere investigatorische Schritte nötig sind. des Pools korrekt beantworten. Teilnehmer,
Konkret wird also gefragt, ob der bisherige die weniger als 60 % der Aufgaben lösen kön-
Testverlauf für eine terminale Entscheidung nen, gelten als nicht erfolgreich. Bezeichnet
ausreicht, oder ob noch mindestens ein weite- man die Lösungswahrscheinlichkeit eines Pro-
res Item vorgelegt werden muss. banden mit dem Kenntnisniveau θ als P(θ ),
so lassen sich die beiden Hypothesen mit
Für die Entscheidung in jedem Schritt wur-
den spezifische statistische Prüfverfahren kon-
zipiert, die ebenfalls als sequenzielle Tests H0 : P(θ ) < .6 und H1 : P(θ ) ≥ .8

185
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

notieren. Faktisch geprüft werden zunächst die fälschlicherweise abzulehnen, in unserem Bei-
Hypothesen spiel also Erfolg zu attestieren, obgleich der
Kandidat zur Gruppe der Nicht-Erfolgreichen
H0 : P(θ ) = .6 und H1 : P(θ ) = .8. gehört. Hier läge also eine falsch positive Ent-
scheidung vor. Im Rahmen von Selektions-
Für die Entscheidung werden die Wahrschein-
entscheidungen spricht man auch vom Insti-
lichkeiten für ein vorliegendes Antwort- bzw.
tutionenrisiko, weil hier sozusagen die Insti-
Lösungsmuster nach jedem Schritt (Item) k
tution das Risiko eingeht, einen ungeeigneten
unter beiden Hypothesen miteinander in Be-
Bewerber aufzunehmen. Das Risiko zweiter
ziehung gesetzt. Für eine Person, welche die
Art (β ) ist die Wahrscheinlichkeit, einen tat-
drei ersten Aufgaben gelöst hat, ergibt sich bei
sächlich Erfolgreichen der Gruppe der Nicht-
Gültigkeit der Hypothese H1 z. B. eine Wahr-
Erfolgreichen zuzuordnen. Bei Selektionsent-
scheinlichkeit von
scheidungen entspricht dieser Wahrscheinlich-
0.8 · 0.8 · 0.8 = 0.512, keit das Risiko einer fälschlichen Ablehnung
(falsch Negativer). Da dieses Risiko die ge-
bei Gültigkeit der Hypothese H0 eine dagegen testeten Personen betrifft, wird es auch als
eine Wahrscheinlichkeit von Personenrisiko bezeichnet. Bei der konkreten
Festlegung der Risiken orientiert man sich im
0.6 · 0.6 · 0.6 = 0.216.1 Allgemeinen an der in der statistischen Hypo-
Unter H1 sind drei richtige Lösungen also thesenprüfung üblichen Festlegung auf relativ
wahrscheinlicher als unter der H0 . Betrachtet kleine Werte, z. B. 0.05. Je nach Bedeutung
wird nun das Wahrscheinlichkeitsverhältnis von Institutionen- oder Personenrisiko kann
LRk (likelihood ratio) unter beiden Hypothe- man einen oder beide Werte auch höher oder
sen, das in unserem Fall niedriger ansetzen.
Wurden α und β festgelegt, lassen sich in
LR3 = 0.512/0.216 = 2.37 sehr einfacher Weise untere („nicht erfolg-
beträgt. Das Verhältnis gibt Auskunft darüber, reich“, Ablehnung) und obere Grenzen („er-
welche der beiden Hypothesen nach den be- folgreich“, Annahme) für die Entscheidung in
reits vorliegenden Daten eher zutrifft. Es wird jedem Schritt festlegen. Die beiden Grenzen
1, wenn die Evidenz für bzw. gegen beide Hy- lassen sich nämlich durch β /(1 − α) (Ableh-
pothesen gleich groß ist. Werte größer 1 favo- nungsgrenze) und (1 − β )/α (Akzeptanzgren-
risieren die Hypothese H1 , Werte kleiner 1 die ze) gut approximieren. Wie aus den Formeln
Hypothese H0 . für die beiden Grenzen ersichtlich ist, sind
mit der Festlegung des Institutionenrisikos auf
Es stellt sich nun die Frage, ob der LR-Wert niedrigere Werte höhere Akzeptanzgrenzen,
von 2.37 bereits ausreicht, um Erfolg zu attes- aber auch niedrigere Ablehnungsgrenzen ver-
tieren. Die Antwort hängt davon ab, welche Irr- bunden. Für das Personenrisiko verhält sich
tumsrisiken man zu tolerieren bereit ist. Diese dies umgekehrt.
Risiken müssen vorab festgelegt werden. Mit
dem Risiko erster Art (α) wird dabei die Wahr- Fixieren wir die beiden Risiken auf α = β =
scheinlichkeit bezeichnet, die Hypothese H0 .05, so ergibt sich in unserem Beispiel für die
Ablehnungsgrenze ein Wert von 0.053 und
1 Bei Nicht-Lösung ist hier jeweis die Gegenwahrschein-
für die Akzeptanzgrenze ein Wert von 19. Er-
lichkeit zu verwenden. Wenn also z. B. das erste Item
reicht oder unterschreitet LRk nun den Wert
nicht gelöst wird, wohl aber die beiden folgenden, er-
gibt sich bei Gültigkeit der H1 0.2 · 0.8 · 0.8 = 0.128, bei von 0.053, so wird die Diagnose „nicht erfolg-
Gültigkeit der H2 dagegen 0.4 · 0.6 · 0.6 = 0.144. reich“ gestellt. Erreicht oder überschreitet LRk

186
6.7 Antwortabhängiges Testen

den Wert von 19 wird dagegen die Diagnose Items, die für die Person ein mittleres Schwie-
„erfolgreich“ gestellt. In beiden Fällen wird rigkeitsniveau besitzen. Beim adaptiven Tes-
das Testen beendet. So lange LRk zwischen ten wird die Zahl informativer Items dadurch
den beiden Grenzen – im sog. Indifferenzbe- maximiert, dass die gegebenen Items während
reich – liegt, wird eine weitere Frage gestellt des Testverlaufs auf das Fähigkeitsniveau des
(ein weiteres Item vorgelegt). Probanden abgestimmt werden. Dabei wird in
jedem Schritt das für einen Probanden jeweils
Leistungsfähige und leistungsschwache Per- am besten geeignete nächste Item (oder die am
sonen können mit sequentiellen Prozeduren besten geeignete Itemgruppe) ausgewählt. Das
relativ rasch klassifiziert werden. Interessan- Rationale lässt sich am einfachsten anhand
terweise lässt sich zeigen, dass der Indiffe- einer spezifischen Art adaptiver Verfahren il-
renzbereich in endlich vielen Schritten verlas- lustrieren, die als pyramidal verzweigte Tests
sen, das Testen also auch bei Personen mit bezeichnet werden.
θ -Werten zwischen den festgelegten Grenzen
in jedem Fall beendet wird. In der Praxis setzt Die Itemvorgabe in jedem Schritt richtet sich
man jedoch vorab eine maximale Testlänge an, hier nach einer pyramidenförmigen Anord-
bei deren Erreichen ein Proband derjenigen nung, wie sie in I Abb. 6.4 dargestellt ist. Die
Gruppe zugeordnet wird, der er mit höherer Kreise symbolisieren die 21 Items des Tests.
Wahrscheinlichkeit angehört (Spray & Recka- Die vertikale Achse der Itempyramide wird
se, 1996). durch die Reihenfolge der Vorgabe, ihre hori-
zontale Achse durch die Schwierigkeiten der
Items festgelegt. Als erstes wird hier ein Item
mittlerer Schwierigkeit vorgelegt (kein leich-
6.7.2 Adaptive Verfahren tes Item wie beim konventionellen Testen). Je
nachdem, ob der Proband das Item löst (in der
Während es beim sequenziellen Testen um die Abbildung angedeutet mit +) oder nicht löst
Vereinfachung von Selektions- und Klassifi- (−), wird im zweiten Schritt auf ein leichte-
kationsaufgaben geht, ist es das Ziel adapti- res Item (Nr. 2) oder ein schwierigeres Item
ver Verfahren, die (quantitative) Messung von (Nr. 3) verzweigt. In unserem Beispiel gibt
Personmerkmalen zu optimieren. Der Grund- der Proband auf Item 1 die falsche Antwort
gedanke des adaptiven Testens ist es, einen und landet im zweiten Schritt daher bei Item
individuellen Itemsatz für jeden Probanden zu- 2. Dieser Verzweigungsprozess wird nach je-
sammenzustellen und zwar so, dass die Items dem Item wiederholt, bis alle vorgesehenen
auf das Fähigkeitsniveau der zu untersuchen- Schritte (im Beispiel 6) durchlaufen sind.
den Person passen.
Die Probanden pendeln sich während der Test-
Beim konventionellen Testen tragen manche prozedur auf ein Niveau der Itemschwierig-
Items nur wenig Information zur Messung bei. keit ein, das ihrem jeweiligen Fähigkeitsni-
Personen mit hoher Merkmalsausprägung wer- veau entspricht (hervorgehobener Bereich in
den leichte Items mit Sicherheit lösen, Perso- I Abb. 6.4). Sie erhalten dann Items, die sie
nen mit niedriger Merkmalsausprägung wer- mit einer Wahrscheinlichkeit von ca. 0.5 lösen
den an schwierigen Items mit Sicherheit schei- und damit, wie wir bereits sahen (I Kap. 4)
tern. Diagnostisch macht es wenig Sinn, Items den größten Informationszuwachs über die
zu geben, die ein Proband mit sehr hoher zu messende Dimension liefern. Bei längeren
oder sehr geringer Wahrscheinlichkeit löst. Sie Tests werden die meisten Probanden etwa die
verbessern die Messung nicht. Gut geeignet Hälfte der vorgelegten Aufgaben lösen, die
und für die Messung informativ sind dagegen andere Hälfte nicht.

187
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Abb. 6.4 Pyramidale Itemanordnung. (Nach Hornke, 1977, S. 6, Abbildung 4.1.)

Da es sich hierbei jeweils um Aufgaben un- derte“, engl. tailored) Verfahren einteilen. Bei
terschiedlicher Schwierigkeit handelt – Per- fest verzweigten Verfahren ist die Itemanord-
sonen mit hoher Merkmalsausprägung bear- nung (und damit auch die Zahl der Schritte)
beiten Aufgaben hoher Schwierigkeit, Perso- von vornherein fixiert. Pyramidale Tests sind
nen mit niedriger Merkmalsausprägung be- ein Beispiel hierfür. In anderen Varianten fest
arbeiten Aufgaben geringer Schwierigkeit – verzweigter Tests wird nicht nach einzelnen
kann die Zahl der gelösten Aufgaben natür- Items, sondern erst nach der Bearbeitung einer
lich nicht als Indikator der zu messenden Di- Aufgabengruppe auf schwierigere oder leich-
mension herangezogen werden. (Dies ist nur tere Aufgaben verzweigt. Ein Beispiel hierfür
beim konventionellen Testen möglich.) Das ist das Adaptive Intelligenz Diagnostikum (Ku-
Fähigkeitsniveau einer Person wird beim ad- binger & Wurst, 2000), das wir noch beschrei-
aptiven Testen durch diejenige Itemschwierig- ben werden (I Kap. 12). Fest verzweigte Ver-
keit bestimmt, auf die sie sich im Testverlauf fahren lassen sich im Rahmen der traditionel-
einpendelt. In I Abb. 6.4 ist dieses Niveau len Individualtestung ohne weitere technische
durch den Pfeil angedeutet. Wie bereits darge- Hilfsmittel realisieren.
stellt wurde, lassen sich Person- und Itemkenn-
werte (Fähigkeit und Schwierigkeit) mit Hilfe Variable Verfahren erfordern dagegen Com-
von Item-Response-Modellen auf der gleichen puterunterstützung (I Abb. 6.5). Hier wird
Skala lokalisieren (I Kap. 4). Adaptive Ver- programmgesteuert nach jeder Itemvorgabe
fahren werden daher auf der Grundlage der das Fähigkeitsniveau der Person (Personpara-
Item-Response-Theorie konstruiert. meter) geschätzt. Anschließend wird aus ei-
nem großen Itempool dasjenige Item gesucht,
Adaptive Tests lassen sich in fest verzweigte das für das geschätzte Fähigkeitsniveau den
(engl. branched) und variable („maßgeschnei- höchsten Informationszuwachs erwarten lässt.

188
6.7 Antwortabhängiges Testen

Auswahl des Items


Itemvorgabe mit größtem
Informationsgewinn

Ja

Vorläufige Schätzfehler Nein


Schätzung des größer als Ende
Personparameters Vorgabe?

Abb. 6.5 Ablauf beim „tailored testing“.

Nach der Beantwortung dieses Items kann dass die Messpräzision in allen Bereichen des
auf Grundlage des hinzugekommenen Datums Merkmalskontinuums gleich ist und sogar an
eine verbesserte Schätzung des Personkenn- die jeweiligen Anforderungen einer konkre-
werts vorgenommen werden. ten Testanwendung angepasst werden kann.
Konventionelle Tests messen demgegenüber
Zusammen mit dem Personkennwert wird in den extremen Bereichen der Skala meist
auch der mit der Schätzung verbundene Feh- ungenauer als im Mittelbereich, da für diese
ler bestimmt. Die Schleife wird nun so lan- Bereiche in der Regel nur relativ wenige Items
ge durchlaufen, bis der Schätzfehler unter ei- vorgesehen sind.
nem vorgegebenen Wert liegt, der je nach er-
wünschter Präzision der Messung vom Testan- Auch hinsichtlich der Testmotivation sollten
wender höher oder niedriger angesetzt werden adaptive Verfahren Vorteile gegenüber kon-
kann. Die Prozedur verbindet damit die Idee ventionellen Tests besitzen. Besonders im Hin-
des adaptiven (Anpassung an die Fähigkeit) blick auf Prüfungsangst und Leistungsmotiva-
mit der des sequenziellen Testens (Abbruch, tion ist es bei konventionellen Tests ungünstig,
wenn genügend Information vorliegt). Es ist dass die Probanden je nach Fähigkeitsniveau
offensichtlich, dass computerunterstütztes va- in sehr unterschiedlichem Maße Erfolg und
riables Testen die unter technischen und öko- Misserfolg erleben. Personen mit geringen Fä-
nomischen Gesichtspunkten optimale Form higkeiten werden beim konventionellen Tes-
des adaptiven Testens darstellt. ten mit massierten „negativen Rückmeldun-
gen“ konfrontiert und könnten daher geneigt
Adaptive Verfahren verbinden hohe Messprä- sein, sich mit ihrer Leistung (und ggf. dem Ein-
zision mit hoher Testökonomie. Eine mit kon- druck, den diese beim Testleiter hervorruft) an-
ventionellen Tests vergleichbare Messpräzi- statt mit den Aufgaben selbst zu beschäftigen.
sion kann mit geringerer Itemzahl erreicht Evtl. werden sie sogar frustriert aufgeben oder
werden. Umgekehrt wird bei gleicher Item- sich „mental zurückziehen“. Dies würde zu
zahl genauer gemessen. Wesentlich ist dabei, einer Unterschätzung ihrer Fähigkeit führen.

189
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Beim adaptiven Testen erleben demgegen- Weiterführende Literatur


über alle Probanden unabhängig von ihrem
Fähigkeitsniveau in gleichem Maße Erfolg
Die Monographie von Cronbach und Gleser
und Misserfolg. Dies eliminiert unerwünsch-
(1965) ist immer noch lesenswert. Neuere Ent-
te emotionale und motivationale Einflüsse auf
wicklungen werden von Boudreau (1991) so-
die Leistung zwar nicht vollständig, schaltet
wie Roth, Bobko und Mabon (2001) behandelt.
aber zumindest eine Quelle systematischer
Holling und Melles (2004) geben einen Über-
Fehler aus. Allerdings sind die Vorteile des
blick über die Anwendung von Entscheidungs-
adaptiven Testens hinsichtlich der Testmoti-
und Nutzenkonzepten in der Organisationspsy-
vation nicht ganz so eindeutig wie ursprüng-
chologie, in dem auch die Bedeutung deskrip-
lich angenommen wurde. Zumindest für einen
tiver Ansätze beschrieben wird. Swets, Dawes
Teil der Probanden kann die Anpassung der
und Monahan (2000) diskutieren praktische
Items an das Fähigkeitsniveau demotivieren-
Anwendungen der Entscheidungstheorie für
de Effekte mit sich bringen, da ja „nur“ 50 %
diagnostische Fragen. Antwortabhängiges Tes-
der Aufgaben erfolgreich bearbeitet werden
ten wird von Frey (2008) eingehender darge-
(was vielleicht weit unter der Erwartung ei-
stellt, neuere Entwicklungen finden sich bei
ner Person liegt) und vermehrte Anstrengung
van der Linden und Glas (2010).
die Lösungswahrscheinlichkeit im Verlauf der
Testsitzung nicht wahrnehmbar steigert (Frey,
Hartig & Moosbrugger, 2009).
Fragen zur Wissenskontrolle
Die Konstruktion adaptiver Verfahren ist rela-
tiv aufwändig. Benötigt wird ein großer Item-
pool, der nach Prinzipien der Item-Response- 1. Was versteht man unter individuellen und
Theorie (I Kap. 4) zusammengestellt ist. Da institutionellen Entscheidungen?
die Personen jeweils unterschiedliche Items 2. Wie wirken Basisquote, Selektionsquote
bearbeiten, sind hier Testmodelle gefordert, in und Validität hinsichtlich der Entschei-
denen Personkennwerte unabhängig von den dungsgüte zusammen?
eingesetzten Items geschätzt werden können. 3. Welche zentralen Parameter enthält das
Die Itemmenge muss recht strikten Homogeni- BCG-Modell?
tätsanforderungen genügen, da ansonsten das 4. Welche Bedeutung besitzen Aptitude-
Verzweigungsprinzip nicht optimal funktionie- Treatment-Interaktionen für diagnostische
ren kann. Inkorrekte Verzweigungen zu Be- Entscheidungen?
ginn des Testens oder fehlerhafte anfängliche 5. Was sind die Unterschiede zwischen se-
Fähigkeitsschätzungen können den Testver- quenziellem und adaptivem Testen? Erläu-
lauf gewissermaßen in die falsche Spur brin- tern Sie jeweils Zielsetzung und Vorgehens-
gen. Eine entsprechende „Kurskorrektur“ kann weise.
die Testökonomie erheblich beeinträchtigen.
An die einzelnen Items eines adaptiven Tests
sind daher hohe messtechnische Anforderun-
gen zu stellen.

190
7 Handlungstheoretische Modelle

7.1 Grundbegriffe der Handlungstheorie . . . . . . . . . . . . . . . . . . . . . . 191


7.2 Eine Handlungstheorie psychologischer Diagnostik . . . . . . . . . . . . . . 192
7.2.1 Ausgangspunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.2.2 Ein Modell des Arbeitsflusses in der diagnostischen Praxis . . . . . . . 193
7.2.3 Implikationen des Modells . . . . . . . . . . . . . . . . . . . . . . . . 196
7.2.4 Konkretisierung des Modells . . . . . . . . . . . . . . . . . . . . . . . 198
7.2.5 Analyse spezifischer Aspekte des Modells . . . . . . . . . . . . . . . . 200
7.2.6 Strategische und taktische Planung . . . . . . . . . . . . . . . . . . . . 205
7.2.7 Einzelfallorientierte und institutionelle Diagnostik . . . . . . . . . . . 208
7.3 Bewertung des Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

Innerhalb des entscheidungstheoretischen An- richtete Tätigkeit. Der in der Psychologie lan-
satzes hatten wir als zentralen Begriff den der ge Zeit üblichere Begriff des „Verhaltens“ ist
Strategie kennengelernt (I Kap. 6). Strategi- demgegenüber weiter gefasst. Er kann sich
en sind an die Aktivierung von Intentionen sowohl auf zielorientierte Aktivitäten bezie-
und die Formulierung von Zielen gebunden. hen als auch das reine Reagieren auf externe
Sie legen fest, wie eine Handlung organisiert oder interne Stimulation bezeichnen. Neben
werden sollte, damit sich eine Intention auch der Zielorientiertheit ist als zweiter wichtiger
tatsächlich erfüllt und ein angestrebter Zielzu- Aspekt die zeitliche Organisation von Hand-
stand erreicht wird. Strategie, Intention und lungen hervorzuheben. Handeln kann damit
Ziel sind zentrale Begriffe der Handlungstheo- als ein zeitlich organisierter, zielorientierter
rie (Lenk, 1981, 1984). Im Folgenden sollen Prozess bestimmt werden (Kaminski, 1981).
zunächst Grundbegriffe der Handlungstheorie
Handlungen werden in Gang gesetzt, indem ei-
und deren Verknüpfungen beschrieben wer-
ne Person eine bestimmte Intention bildet bzw.
den. Sodann wird das Konzept der Handlung
aktiviert und ein konkretes Ziel formuliert
anhand eines konkreten Modells auf die Analy-
(I Abb. 7.1). Dieses Ziel muss am Beginn der
se des Prozesses der diagnostischen Tätigkeit
Handlung bereits kognitiv repräsentiert sein,
angewendet.
d. h. das Ziel muss antizipiert, als Antizipa-
tion gespeichert und während des Handelns
zugänglich gehalten werden. Zur Erreichung
7.1 Grundbegriffe der eines Zieles muss die Person eine Reihe von
Handlungstheorie Mitteln einsetzen. Der Einsatz dieser Mittel
muss zuvor geplant und möglichst effektiv or-
Unter „Handeln“ bzw. „Handlung“ versteht ganisiert werden. Wir verwenden für Planung,
man innerhalb der Psychologie eine zielge- Organisation und Einsatz von Mitteln im Fol-

191
7 Handlungstheoretische Modelle

Intendierte
Folgen
Intention:
Formulierung Mittel Effekte
des Ziels

Unintendierte
Folgen

Reflexion des Handelnden

Abb. 7.1 Grundbegriffe der Handlungstheorie (nach Eckensberger & Reinshagen, 1979).

genden den Begriff Tätigkeit. Der Einsatz spe- des Wirksamwerdens der unintendierten Fol-
zifischer Mittel führt zu bestimmten Effekten. gen der ursprünglichen Tätigkeit.
Effekte einer Tätigkeit müssen wahrgenom-
Das Modell lässt sich am besten durch ein
men und im Hinblick auf das antizipierte Ziel
Beispiel aus dem Alltag verdeutlichen. An-
beurteilt werden. Dies gilt auch, wenn Zwi-
genommen, eine Person habe die Intention
schenziele formuliert werden und damit Zwi-
gebildet, ihre körperliche Fitness zu verbes-
schenergebnisse vorliegen, wie es bei komple-
sern. Als Mittel hierzu führt sie zweimal wö-
xen Handlungen die Regel ist.
chentlich Waldläufe von jeweils einer Stun-
Die Wahrnehmung und Beurteilung der Ef- de Dauer durch. Als Effekt wird sie registrie-
fekte führt dazu, dass die betreffende Person ren, dass sich nach einiger Zeit die Fitness er-
realisiert, welche konkreten Folgen die eigene höht. Die intendierte Folge ist eine steigende
Tätigkeit hatte. Wenn das eingangs formulier- Zufriedenheit mit dem körperlichen Zustand
te Ziel erreicht wurde, so ist die Folge inten- und der Ansporn weiterzumachen. Allerdings
diert. Des öfteren führt die eigene Tätigkeit könnten sich auch einige unintendierte Folgen
aber auch zu nicht beabsichtigten, meist nicht einstellen, in erster Linie Zeitverlust und da-
einmal antizipierten, Effekten, also zu einer mit evtl. ein engerer Terminplan, darüber hin-
unintendierten Folgenmenge (Eckensberger & aus vermutlich eine stärkere Müdigkeit nach
Reinshagen, 1979). dem Waldlauf, die anschließende Leistungen
erschwert.
Das Gewahrwerden einer nicht beabsichtigten
Wirkung eingesetzter Mittel führt im Allge-
meinen zu weiteren Beurteilungsprozessen (zu 7.2 Eine Handlungstheorie
einer Reflexion) beim Handelnden. Inhalt die-
psychologischer Diagnostik
ser Prozesse ist zunächst die Abschätzung der
Tolerierbarkeit der unintendierten Folgen. Soll-
te die Person dabei zu dem Schluss kommen, 7.2.1 Ausgangspunkt
dass nicht alle Folgen tolerierbar sind, so wird
hierdurch eine neue Handlung in Gang gesetzt. Wir hatten im Eingangskapitel dieses Buches
Ziel dieser Handlung ist jetzt die Reduzierung eine naiv-realistische Vorstellung des Diagnos-

192
7.2 Eine Handlungstheorie psychologischer Diagnostik

tizierens kritisiert. Nach dieser bei vielen Lai- Für Kaminski liegt diesem Ablauf ein
en – aber auch psychologischen Praktikern – durch kognitive Mikrokomponenten gesteuer-
herrschenden Vorstellung setzt sich der prakti- ter Beurteilungs- und Entscheidungsprozess
sche Diagnostiker ein Arbeitsziel, das man als zugrunde, der auf der Aktivierung spezifischer
„Entdecken“ umschreiben könnte. Dieser Vor- Wissensrepräsentationen basiert. Im Einzelnen
stellung nach ist das Ziel der diagnostischen sollen in diesem Kapitel folgende Punkte die-
Tätigkeit erreicht, wenn soviel wie möglich ses Prozesses angesprochen werden:
von der „wahren Natur“ eines Klienten „ent-
1. Ein Modell des Arbeitsflusses in der dia-
deckt“ wurde.
gnostischen Praxis,
Die moderne Diagnostik weist ein solches 2. Implikationen dieses Modells,
naiv-realistisches Modell zurück. Ging dieses 3. Konkretisierung des Modells an einem Bei-
Modell von der Frage aus „Wie ist dieser Kli- spiel,
ent?“, so steht für die moderne Diagnostik, 4. Analyse spezifischer Aspekte des Modells.
wie wir bereits zu Beginn von I Kap. 1 ge-
sehen haben, das eingegrenzte Anforderungs-
bild eines speziellen Auftrags im Mittelpunkt. 7.2.2 Ein Modell des
Ziel einer handlungstheoretischen Konzeption Arbeitsflusses in der
des Diagnostizierens ist es demnach auch, die
diagnostischen Praxis
Diagnostik aus dem Kontext des Entdeckens,
in den sie naiv-realistische Vorstellungen ge-
Kaminski stellt die diagnostische Urteilsbil-
legt hatten, in den des Planens, Veränderns,
dung als einen sequenziellen Arbeitsprozess
Entscheidens und Beurteilens zu bringen, al-
mit Rückmeldungsschleifen dar, der erst als
so Zielsetzungen zu realisieren, wie sie zu-
abgeschlossen gilt, wenn ein zuvor definiertes
vor auch bereits Cronbach und Gleser (1965;
Zielkriterium erreicht ist. Dieser Prozess ist
I Kap. 6), allerdings speziell für institutionel-
gekennzeichnet durch eine enge Verflechtung
le Entscheidungen und weniger für die Ein-
von Auftrag, Diagnose und praktischer, z. B.
zelfalldiagnostik, formuliert hatten (Hörmann,
modifikatorischer, Intervention. Integriert man
1967).
diese Aspekte, so ergibt sich das in I Abb. 7.2
Im vorangegangenen Kapitel war das Diagnos- dargestellte Schema des Ablaufs der gesam-
tizieren anhand entscheidungstheoretischer ten diagnostisch-praktischen Tätigkeit. Wie
und antwortabhängiger Verfahren insbeson- ersichtlich ist, wird hier im Sinne einer Grob-
dere im Hinblick auf seinen Beitrag zur Ver- gliederung von einer diagnostischen und einer
besserung von Selektionsstrategien analysiert praktischen Schleife gesprochen. Der Begriff
worden. In diesem Kapitel soll nun mit dem der Schleife betont die Rückmeldungsprozes-
Ansatz von Kaminski (1970) ein Modell vorge- se innerhalb dieser Phasen.
stellt werden, das die Bedeutung des Diagnos-
Zunächst müssen in diesem Schema zwei Ty-
tizierens auch innerhalb des Rahmens modifi-
pen von Handlungen unterschieden werden:
katorischer, speziell am Einzelfall orientierter,
Arbeit i. e. S. (repräsentiert durch ungefüllte
Interventionen deutlich macht. Kaminskis Mo-
Rechtecke) und Kontrolle der Arbeit (repräsen-
dell zielt also nicht nur auf eine Beschreibung
tiert durch gefüllte Rechtecke). Die einzelnen
des engeren Prozesses der diagnostischen Ur-
Komponenten sind wie folgt bestimmt:
teilsbildung, d. h. des Stellens einer Diagnose
anhand gegebener Daten, sondern umfasst den Eingangsdaten und Datenbeschaffung. Die
gesamten Ablauf interventionsbezogener psy- ersten Daten kommen gewissermaßen „von
chologischer Arbeit. selbst“. Es sind Fragestellungen von außen

193
7 Handlungstheoretische Modelle

Praktische Schleife

mit
Planung der Praktische Zielkriterium
Hypothesen
praktischen Phase Phase erreicht?
konkordant?

Ende
Kompetenz-
wissen

Änderungs-
kompetent?
wissen

Eingangsdaten Hypothesenbildung Planung der


Hypothesen
und und Daten-
ausreichend?
Datenbeschaffung -bearbeitung beschaffung

Ja
Bedingungs-
Gewissen
wissen
Nein

Diagnostische Schleife

Abb. 7.2 Schema des Ablaufs der diagnostisch-praktischen Tätigkeit (nach Kaminski, 1970).

(z. B. Klagen oder Wünsche). Diese Eingangs- welcher konkrete Auftrag sich daraus ableitet,
daten bilden zwar die Grundlage des Auftrags ist damit aber noch nicht festgelegt.
an den Psychologen, sind aber noch nicht der
Auftrag selbst. So bildet etwa die Klage einer Hypothesenbildung und -bearbeitung. Hy-
Mutter, dass ihr Sohn in der Schule in letz- pothesen werden anhand der Eingangsdaten
ter Zeit nicht mehr mitkomme und auch keine gebildet und sind die Grundlage des weite-
rechte Lust mehr an der Schule habe, zwar den ren diagnostischen und praktischen Tuns. Die
Anstoß für das Tätigwerden des Psychologen, Hypothesenbildung ist ein sehr komplizierter

194
7.2 Eine Handlungstheorie psychologischer Diagnostik

Prozess der Bearbeitung von Daten; auf ihn Die in der 2. Phase gebildeten Hypothesen
wird später noch genauer eingegangen. Zu- müssen also Antworten auf zwei Fragen ge-
nächst sei nur soviel erwähnt: Die Hypothesen ben: Erstens, wie ist der gegenwärtige Zustand
beziehen sich auf des Klienten im Hinblick auf die Fragestellung
von außen und wie ist es dazu gekommen? –
• eine psychologische Beschreibung des Ein-
Zweitens, auf welchen Zustand soll hingear-
gangszustands des Klienten, Z1, und da-
beitet werden und wie gelangt man dorthin?
mit verbunden auf die Ursachen dieses Zu-
stands sowie Hypothesenbeurteilung. Oft können diese
• auf eine Definition des Zustands, auf den Fragen auf der Grundlage der Eingangsdaten
hin geändert werden soll, Z2, sowie des nicht präzise beantwortet werden. In der psy-
Weges dorthin. chologischen Praxis, z. B. der Erziehungsbe-
ratung, dürfte dies sogar der Regelfall sein.
Illustration Entweder ist die erste Information so unspezi-
fisch, dass überhaupt keine präzisen Hypothe-
Konkretisieren wir das Konzept der Hypo- sen gebildet werden können (wenn die Mutter
these am bereits erwähnten Beispiel der beispielsweise sagt: „mein Kind ist immer so
Schulschwierigkeiten: Z1 könnte psycho- unruhig“), oder die vorgegebene Information
logisch als ein erlerntes Vermeidensverhal- lässt verschiedene alternative Hypothesen zu.
ten beschrieben werden. Ursachen für Z1 Für das Beispiel des Leistungsabfalls könnten
könnten Misserfolgserfahrungen als Konse- sich diese etwa beziehen auf emotionale Ursa-
quenz spezifischer fehlender Kompetenzen chen (z. B. das Auftreten häuslicher Spannun-
verbunden mit einer erhöhten Furcht vor gen oder den Tod einer für das Kind zentralen
Misserfolg sein. Der Zielzustand Z2 wäre Bezugsperson), intellektuelle Leistungsvoraus-
evtl. verringerte Schulunlust und erhöhte setzungen beim Kind oder das Vorliegen einer
Kompetenzen zur Bewältigung schulischer organischen Erkrankung.
Anforderungen. Der Weg dorthin könnte
im Aufbau dieser Kompetenzen sowie in Wie gut die Hypothesen sind, ob sich mit ihnen
einem Modifikationsprogramm zur Besei- bereits praktisch arbeiten lässt, oder ob noch
tigung von Misserfolgserwartungen liegen, mehr Information benötigt wird, damit präzi-
etwa durch eine sog. „Umattribuierung“ der sere Hypothesen aufgestellt werden können,
Zuschreibung von stabilen internalen Ursa- entscheidet sich in dieser Beurteilungsphase
chen des Misserfolges (Attribuierung auf (I Kap. 7.2.4 und 7.2.5).
mangelnde Fähigkeiten) auf variable inter-
Planung der Datenbeschaffung. Angenom-
nale Ursachen (Attribuierung auf mangeln-
men, der Psychologe kommt zu dem Schluss,
de Anstrengung; siehe hierzu Dweck, 1975;
seine Hypothesen seien nicht ausreichend.
Dweck & Wortman, 1982). Denkbar wäre
Dann kann er nach den bisherigen Überle-
natürlich auch eine bei den Eltern einset-
gungen natürlich auch noch nicht praktisch
zende Modifikation, etwa eine Veränderung
zu arbeiten beginnen, sondern muss zunächst
ihrer Leistungsansprüche an das Kind.
weitere Daten beschaffen. Diese Daten werden
allerdings nicht gleichsam mit einem „Schrot-
Schon jetzt wird anhand dieser knappen Skiz- schuss“ beschafft, sondern ganz ökonomisch
ze, die später noch ausgearbeitet wird, deut- so besorgt, dass es zu einer brauchbaren Ar-
lich, dass psychologisches Grundlagenwissen beitshypothese kommt. Nehmen wir unser Bei-
bei der diagnostisch-praktischen Urteilsbil- spiel mit den drei Alternativhypothesen zum
dung eine wesentliche Rolle spielt. Leistungsabfall wieder auf:

195
7 Handlungstheoretische Modelle

Die Hypothese 1 „häusliche Spannungen“ verhält sich aber nicht so, wie erwartet wur-
oder „Tod einer Bezugsperson“ müssten zu- de, zeigt etwa keine „Besserung“. Das Verhal-
nächst einmal Teil einer Modells sein, in dem ten des Klienten entspricht neuen Eingangs-
spezifiziert wird, wie sich diese Ereignisse auf daten. Die diagnostische Schleife muss dann
Schulleistungen auswirken. Information könn- nochmals durchlaufen werden. Es können sich
te dann über gezielte Fragen im Sinne einer aber auch Informationen über zwischenzeit-
Anamnese, über die Beobachtung der Interak- lich eingetretene oder vorher nicht bekann-
tion von Familienmitgliedern und über spezi- te Bedingungen ergeben, z. B. dass der Sohn
fische Tests, z. B. Spieltests, besorgt werden. nicht nur einen Leistungsabfall zeigt, sondern
– Zur Hypothese 2 „intellektuelle Ursachen“ neuerdings auch zu einer aggressiven Clique
könnte Information aus Intelligenz- und Schul- von Jugendlichen gehört.
leistungstests herangezogen werden. – Die Hy-
pothese 3 „organische Ursache“ würde die Be- In einem nächsten Schritt wird geprüft, ob das
schaffung von Daten aus einer medizinischen, Zielkriterium erreicht wurde. Auch hier fin-
vielleicht internistischen oder neurologischen,det wieder eine, wenn auch verglichen mit der
Untersuchung bedeuten. diagnostischen Schleife andersartige, diagnos-
tische Tätigkeit statt, in welcher der Erfolg der
Wichtig ist, dass in dieser sog. „diagnosti- Modifikation bewertet wird (I Kap. 7.2.5).
schen Schleife“ die Hypothesenbildung und
die Datenbeschaffung eng aufeinander bezo-
gen sind. Wie es überhaupt zur Hypothesenbil- 7.2.3 Implikationen des Modells
dung kommt, wird noch im Einzelnen darge-
stellt werden. In den bisher dargestellen Pha-
sen finden wir die bereits in I Kap. 1 mehr- Aus der bisherigen Darstellung des Modells
fach erwähnte enge Verzahnung von psycholo- leiten sich die folgenden fünf essenziellen
gischem Grundlagenwissen (Allgemeine und Schlussfolgerungen ab:
Entwicklungspsychologie, Persönlichkeitsfor- 1. Alle diagnostischen Auswertungen von Da-
schung) mit der diagnostischen Praxis. ten haben den Charakter von Hypothesen
Praktische Phase. Auch die praktische Pha- bzw. hypothetischen Interpretationen. Die-
se wird geplant und basiert auf psychologi- se werden auf der Basis der eingehenden
schem Wissen darüber, wie Änderungen ef- Daten (und natürlich psychologischen Wis-
fizient und nachhaltig bewirkt werden kön- sens) formuliert, zunächst provisorisch als
nen. Darüber hinaus enthält sie ebenfalls Prüf- gültig gesetzt, beurteilt, geprüft und schließ-
prozesse (I Abb. 7.2). Die praktische Phase lich beibehalten oder verworfen. Beim Dia-
selbst kann sehr vielfältig sein; neben thera- gnostizieren wird also nichts „entdeckt“,
peutischen Modifikationen kann die praktische sondern das jeweils zu Diagnostizierende
Phase auch in einer Selektions- bzw. Klassi- wird immer nur im Rahmen eines bestimm-
fikationsempfehlung, einer Beratung oder in ten Denkmodells so bezeichnet (z. B. als
einem Gutachten bestehen. erlerntes Vermeidensverhalten).
2. Jede Datenbeschaffung wird geplant und
Der erste Prüfprozess beantwortet die Frage, ist hypothesengeleitet. Auch das quasi-
ob die Phase in Übereinstimmung mit den Hy- automatische Testen, z. B. das routinemäßi-
pothesen verläuft, auf die sich die Intervention ge Durchführen eines Intelligenztests oder
gründet. Wann könnte diese Übereinstimmung eines projektiven Verfahrens, folgt, wenn
verfehlt werden? Zum einen könnte eine be- auch oft nur sehr vagen und nicht ausformu-
stimmte Behandlung geplant sein, der Klient lierten, Hypothesen.

196
7.2 Eine Handlungstheorie psychologischer Diagnostik

3. Was für den Grad der Explizitheit des Hypo- keitstheorie ein bestimmtes Schema, an das
thesenformulierens und Planens der Daten- die Information aus anderen Tests angeglichen
beschaffung gesagt wurde, gilt auch für die wird. So mag etwa ein Psychologe zunächst
Prüf- bzw. Entscheidungsprozesse, also für einmal einen Persönlichkeitsfragebogen des
die Prüfung, ob die Hypothesen ausreichen, Klienten auswerten und dabei hohe Werte für
die praktische Phase mit den Hypothesen Introversion und Ängstlichkeit finden. Auf der
konkordant ist oder das Ziel erreicht wurde. Grundlage des so gebildeten Schemas wird der
Auch diese Prozesse können vom Diagnos- Psychologe dann vermutlich weitere Testinfor-
tiker mehr oder weniger bewusst vollzogen mation akzentuieren. Auf diese Weise mag,
werden. je nach Geschick des Psychologen, eine mehr
4. Ohne die Formulierung diagnostischer Hy- oder weniger „stimmige“ Beschreibung des
pothesen kann die praktische Phase nicht Klienten resultieren, die dann vielleicht sogar
eingeleitet werden. in ein Gutachten eingeht; der Bezug zur Pra-
5. Die psychologische Arbeit muss stets von xisphase dürfte aber sicherlich eher schwach
erreichbaren Zielkriterien gesteuert werden. sein.
Der Arbeitsprozess wird dann solange rück-
gekoppelt, bis das Zielkriterium erreicht ist. Auch die therapeutische Tätigkeit lässt sich
von der Position des Kaminski-Modells aus
Häufig beginnt der Psychologe, evtl. nach ei- betrachten. Die soeben besprochene Arbeits-
nem kurzen Gespräch (I Kap. 8), die Bear- form, die Kaminski (1970) „reines Testen“
beitung eines Falles mit der Darbietung einer nennt, war dadurch gekennzeichnet, dass zwar
Serie von Tests, z. B. indem er einen Intelli- die Datenbeschaffung aktiv, dafür aber die
genztest gibt, ein projektives Verfahren ein- Hypothesenbildungs- und -prüfungsinstanzen
setzt und evtl. noch einen mehrdimensionalen weitgehend inaktiv blieben. Entsprechend kam
Persönlichkeitsfragebogen „mitlaufen“ lässt. es auch nicht zu einer hypothesengeleiteten
Hier wird die Hypothese